深度学习与大语言模型 (二) 论文bg与Abstract

论文题目为:BLAST: Balanced Sampling Time Series Corpus for Universal Forecasting Models

题目内容翻译:通用预测模型平衡抽样 时间序列 语料库

题目内容分解:Universal Forecasting Models Balanced Sampling Time Series Corpus

keywords:large-scale time series dataset, balanced sampling, universal time series forecasting

Abstract:The advent of universal time series forecasting models has revo-lutionized zero-shot forecasting across diverse domains, yet the critical role of data diversity in training these models remains un-derexplored. Existing large-scale time series datasets often suffer from inherent biases and imbalanced distributions, leading to sub-optimal model performance and generalization. To address this gap, we introduce BLAST, a novel pre-training corpus designed to enhance data diversity through a balanced sampling strategy. First,BLAST incorporates 321 billion observations from publicly available datasets and employs a comprehensive suite of statistical metrics to characterize time series patterns. Then, to facilitate pattern-oriented sampling, the data is implicitly clustered using grid-based parti-tioning. Furthermore, by integrating grid sampling and grid mixup techniques, BLAST ensures a balanced and representative coverage of diverse patterns. Experimental results demonstrate that models pre-trained on BLAST achieve state-of-the-art performance with a fraction of the computational resources and training tokens re-quired by existing methods. Our findings highlight the pivotal role of data diversity in improving both training efficiency and model performance for the universal forecasting task.

切入点:Universal Time Series Forecasting Models zero-shot forecasting BLAST grid-based partitioning{数据通过 网格划分(grid-based partitioning) 进行隐式聚类,以便按模式进行采样。 使用了 网格采样(grid sampling)网格混合(grid mixup) 技术,确保采样的时间序列具有代表性和均衡性。}

一、abstract

这里大白话可以理解为:用通用模型训练的不好不均衡 用我搜集的数据BLAST 我这个采样过程好数据均衡 得出来的结论会比普通的好

ai用科学的语言告诉我:

1.现状问题
通用时间序列预测模型虽然能做零样本预测,但它们依赖的现有大规模数据集存在偏差和分布不均,导致训练效果和泛化能力不足。

2.改进
文章提出的 BLAST 数据集通过 均衡采样策略(网格划分、网格采样、网格混合)解决了数据不均衡问题,确保覆盖更多模式,提升数据多样性。

3.结论优势
使用 BLAST 预训练的模型不仅性能达到 SOTA,还显著减少了计算资源和训练标记,相比传统方法更高效、更泛化。

一句话概括就是:通过均衡采样构建了一个多样化的预训练语料库,达到了降本增效的目标:加速模型训练、提升模型泛化能力

二、background

背景主要介绍的就是:先介绍了通用时间序列模型 然后指出其缺点: 初始分布往往存在严重失衡 原始数据中出现大量重复模式 然后举了一个例子简单抽样 或分层抽样等简化的采样策略 简单抽样完全忽略了这些偏差,分层抽样却常假设同一数据集或域内的数据具有相似模式 从而发现模型结果可能过度拟合高频模式,同时对低频模式拟合 不足,从而损害其泛化能力 这都是训练数据的多样性缺失导致的 所以提出了一个名为BLAST(平衡采样时间序列语料库)

规整一下语言:
通用时间序列预测模型在零样本预测方面有很大潜力,但它们依赖于大规模、多样化的数据集。

1.指出问题

  • 现有大规模数据集虽然数量庞大,但初始分布严重失衡,导致大量重复模式。
  • 简单抽样(naive sampling)完全忽略偏差,分层抽样(stratified sampling)假设同一数据集或域内模式相似,但实际并不总成立。
  • 结果:模型容易过拟合高频模式低频模式拟合不足,泛化能力下降。
  • 根本原因:训练数据缺乏多样性

2.提出解决方案
为解决上述问题,作者提出 BLAST(Balanced Sampling Time series corpus),通过均衡采样策略构建一个多样化的预训练语料库。

这里是说blast的具体实现方法:整合广泛的公开可用数据集 结合各种统计属性还全面表征每种模式 ,如平稳性、季节性、波动性等。然后通过离散化处理合并为统一的特征向量 直观的表示数据 使用网格采样和网格混合,以确保各种模式 的平衡和代表性覆盖 通过对blast和TimeMoE模型的对比训练 可以看出blast的模型的优势 然后总结了一下贡献:提出预训练数据多样性对训练效率和模型 性能的影响,通过平衡采样技术,研发出blast模型,结果表明,基于blast的预训练在减少资源和 数据需求的同时取得了较好的性能。

规整语言:

1.BLAST的实现方法

  • 整合数据:收集大量公开可用的数据集,总规模达到 3210 亿观测值。
  • 模式表征:不依赖数据集或领域标签,而是通过统计属性(如平稳性、季节性、波动性等)全面刻画时间序列模式。
  • 特征处理:将这些属性离散化,合并为统一的特征向量,并投射到低维空间,直观展示数据分布不均衡。
  • 均衡采样:在低维空间中采用 网格采样(grid sampling)网格混合(grid mixup),确保模式的均衡和代表性覆盖。

2.实验验证

  • 使用 BLAST 训练 TimeMoE 模型,与原始 TimeMoE 对比:
    • 原始:419B tokens + 128 A100 GPUs
    • BLAST:78B tokens + 8 A100 GPUs
  • 结果:BLAST 在更少资源下实现 SOTA 性能,证明数据多样性显著提升训练效率和模型性能。

3.贡献总结

构建 BLAST 语料库,实验表明其在降低资源和数据需求的同时性能更优。

首次系统研究预训练数据多样性对训练效率和模型性能的影响。

提出基于模式的平衡采样技术(统计属性 + 网格划分 + mixup)。

三、预备知识

1. Large-scale Time Series Forecasting Dataset

  • 一个大规模时间序列预测数据集 D 通常由多个子数据集组成:
    D={D1,D2,…,DN}D = \{ D_1, D_2, \dots, D_N \}D={D1​,D2​,…,DN​}
  • 每个子数据集 DnD_nDn​ 包含 KnK_nKn​ 条时间序列:
    Dn={X1n,X2n,…,XKnn}D_n = \{ X^n_1, X^n_2, \dots, X^n_{K_n} \}Dn​={X1n​,X2n​,…,XKn​n​}
  • 每条时间序列 XknX^n_kXkn​ 有 TknT^n_kTkn​ 个时间步:
    Xkn={xk,1n,xk,2n,…,xk,Tknn}X^n_k = \{ x^n_{k,1}, x^n_{k,2}, \dots, x^n_{k,T^n_k} \}Xkn​={xk,1n​,xk,2n​,…,xk,Tkn​n​}
  • 重点:不同子数据集的大小和序列长度差异很大。

2. Sampling Strategies

  • 原始时间序列不能直接用于训练,需要通过 滑动窗口(sliding window) 生成候选样本集合 W。
  • 采样策略的目标:从候选样本中选择最终用于训练的样本。
  • 常见策略:
    • Naive Sampling:随机均匀抽样,忽略数据分布偏差。
    • Stratified Sampling:按数据集或领域分层抽样,但假设同一域模式相似,这个假设不总成立。

3. Universal Forecasting Models

  • 通用预测模型:在大规模时间序列数据上预训练,能够在不同领域实现 零样本预测(zero-shot forecasting)
  • 例子:TimeMoE,是目前 SOTA 模型之一,预训练数据规模达 309B observations。
  1. Universal Time Series Forecasting
    • 介绍通用时间序列预测模型的背景:
      • 灵感来自 AI 的突破,目标是通过大规模预训练实现跨领域零样本预测。
    • 分类:
      • Encoder-only(掩码编码策略)
      • Decoder-only(自回归预训练)
      • Encoder-Decoder(完整 Transformer 框架)
    • 最新技术:
      • Mixture-of-Experts
      • Long-context modeling
      • Hierarchical modeling
    • 还提到一些探索 Transformer 之外架构的研究。
    • 总结:这些模型通过大规模预训练展现了强大的零样本预测能力。
  2. Time Series Forecasting Pre-training Corpus
    • 强调无论模型架构如何,大规模预训练数据是基础。
    • 列举已有数据集:
      • ForecastPFN(纯合成数据)
      • Chronos(Monash + M-competitions + 合成数据,84B observations)
      • MOIRAI(LOTSA,231B)
      • Timer(UTSD,1B)
      • TimeMoE(Time-300B,309B)
    • 指出问题:这些工作主要关注数据规模,没有系统研究数据多样性
    • 引出你的贡献:提出 BLAST(321B observations),采用均衡采样策略保证多样性,并验证其在训练效率和性能上的优势。

demo数据处理

鸢尾花数据处理 我记得之前做过这个来着 但是为什么我没有怎么做的印象

使用 PyTorch 进行数据处理、模型构建、训练和评估,以及如何对分类结果进行可视化分析

不太懂 但是代码没问题

哦万能的鸢尾花~

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇