论文题目为:BLAST: Balanced Sampling Time Series Corpus for Universal Forecasting Models
题目内容翻译:通用预测模型 的 平衡抽样 时间序列 语料库
题目内容分解:Universal Forecasting Models Balanced Sampling Time Series Corpus
keywords:large-scale time series dataset, balanced sampling, universal time series forecasting
Abstract:The advent of universal time series forecasting models has revo-lutionized zero-shot forecasting across diverse domains, yet the critical role of data diversity in training these models remains un-derexplored. Existing large-scale time series datasets often suffer from inherent biases and imbalanced distributions, leading to sub-optimal model performance and generalization. To address this gap, we introduce BLAST, a novel pre-training corpus designed to enhance data diversity through a balanced sampling strategy. First,BLAST incorporates 321 billion observations from publicly available datasets and employs a comprehensive suite of statistical metrics to characterize time series patterns. Then, to facilitate pattern-oriented sampling, the data is implicitly clustered using grid-based parti-tioning. Furthermore, by integrating grid sampling and grid mixup techniques, BLAST ensures a balanced and representative coverage of diverse patterns. Experimental results demonstrate that models pre-trained on BLAST achieve state-of-the-art performance with a fraction of the computational resources and training tokens re-quired by existing methods. Our findings highlight the pivotal role of data diversity in improving both training efficiency and model performance for the universal forecasting task.
切入点:Universal Time Series Forecasting Models zero-shot forecasting BLAST grid-based partitioning{数据通过 网格划分(grid-based partitioning) 进行隐式聚类,以便按模式进行采样。 使用了 网格采样(grid sampling) 和 网格混合(grid mixup) 技术,确保采样的时间序列具有代表性和均衡性。}
一、abstract

这里大白话可以理解为:用通用模型训练的不好不均衡 用我搜集的数据BLAST 我这个采样过程好数据均衡 得出来的结论会比普通的好
ai用科学的语言告诉我:
1.现状问题:
通用时间序列预测模型虽然能做零样本预测,但它们依赖的现有大规模数据集存在偏差和分布不均,导致训练效果和泛化能力不足。
2.改进:
文章提出的 BLAST 数据集通过 均衡采样策略(网格划分、网格采样、网格混合)解决了数据不均衡问题,确保覆盖更多模式,提升数据多样性。
3.结论优势:
使用 BLAST 预训练的模型不仅性能达到 SOTA,还显著减少了计算资源和训练标记,相比传统方法更高效、更泛化。
一句话概括就是:通过均衡采样构建了一个多样化的预训练语料库,达到了降本增效的目标:加速模型训练、提升模型泛化能力
二、background

背景主要介绍的就是:先介绍了通用时间序列模型 然后指出其缺点: 初始分布往往存在严重失衡 原始数据中出现大量重复模式 然后举了一个例子简单抽样 或分层抽样等简化的采样策略 简单抽样完全忽略了这些偏差,分层抽样却常假设同一数据集或域内的数据具有相似模式 从而发现模型结果可能过度拟合高频模式,同时对低频模式拟合 不足,从而损害其泛化能力 这都是训练数据的多样性缺失导致的 所以提出了一个名为BLAST(平衡采样时间序列语料库)
规整一下语言:
通用时间序列预测模型在零样本预测方面有很大潜力,但它们依赖于大规模、多样化的数据集。
1.指出问题
- 现有大规模数据集虽然数量庞大,但初始分布严重失衡,导致大量重复模式。
- 简单抽样(naive sampling)完全忽略偏差,分层抽样(stratified sampling)假设同一数据集或域内模式相似,但实际并不总成立。
- 结果:模型容易过拟合高频模式,低频模式拟合不足,泛化能力下降。
- 根本原因:训练数据缺乏多样性。
2.提出解决方案
为解决上述问题,作者提出 BLAST(Balanced Sampling Time series corpus),通过均衡采样策略构建一个多样化的预训练语料库。

这里是说blast的具体实现方法:整合广泛的公开可用数据集 结合各种统计属性还全面表征每种模式 ,如平稳性、季节性、波动性等。然后通过离散化处理合并为统一的特征向量 直观的表示数据 使用网格采样和网格混合,以确保各种模式 的平衡和代表性覆盖 通过对blast和TimeMoE模型的对比训练 可以看出blast的模型的优势 然后总结了一下贡献:提出预训练数据多样性对训练效率和模型 性能的影响,通过平衡采样技术,研发出blast模型,结果表明,基于blast的预训练在减少资源和 数据需求的同时取得了较好的性能。
规整语言:
1.BLAST的实现方法
- 整合数据:收集大量公开可用的数据集,总规模达到 3210 亿观测值。
- 模式表征:不依赖数据集或领域标签,而是通过统计属性(如平稳性、季节性、波动性等)全面刻画时间序列模式。
- 特征处理:将这些属性离散化,合并为统一的特征向量,并投射到低维空间,直观展示数据分布不均衡。
- 均衡采样:在低维空间中采用 网格采样(grid sampling) 和 网格混合(grid mixup),确保模式的均衡和代表性覆盖。
2.实验验证
- 使用 BLAST 训练 TimeMoE 模型,与原始 TimeMoE 对比:
- 原始:419B tokens + 128 A100 GPUs
- BLAST:78B tokens + 8 A100 GPUs
- 结果:BLAST 在更少资源下实现 SOTA 性能,证明数据多样性显著提升训练效率和模型性能。
3.贡献总结
构建 BLAST 语料库,实验表明其在降低资源和数据需求的同时性能更优。
首次系统研究预训练数据多样性对训练效率和模型性能的影响。
提出基于模式的平衡采样技术(统计属性 + 网格划分 + mixup)。
三、预备知识

1. Large-scale Time Series Forecasting Dataset
- 一个大规模时间序列预测数据集 D 通常由多个子数据集组成:
D={D1,D2,…,DN}D = \{ D_1, D_2, \dots, D_N \}D={D1,D2,…,DN} - 每个子数据集 DnD_nDn 包含 KnK_nKn 条时间序列:
Dn={X1n,X2n,…,XKnn}D_n = \{ X^n_1, X^n_2, \dots, X^n_{K_n} \}Dn={X1n,X2n,…,XKnn} - 每条时间序列 XknX^n_kXkn 有 TknT^n_kTkn 个时间步:
Xkn={xk,1n,xk,2n,…,xk,Tknn}X^n_k = \{ x^n_{k,1}, x^n_{k,2}, \dots, x^n_{k,T^n_k} \}Xkn={xk,1n,xk,2n,…,xk,Tknn} - 重点:不同子数据集的大小和序列长度差异很大。
2. Sampling Strategies
- 原始时间序列不能直接用于训练,需要通过 滑动窗口(sliding window) 生成候选样本集合 W。
- 采样策略的目标:从候选样本中选择最终用于训练的样本。
- 常见策略:
- Naive Sampling:随机均匀抽样,忽略数据分布偏差。
- Stratified Sampling:按数据集或领域分层抽样,但假设同一域模式相似,这个假设不总成立。
3. Universal Forecasting Models
- 通用预测模型:在大规模时间序列数据上预训练,能够在不同领域实现 零样本预测(zero-shot forecasting)。
- 例子:TimeMoE,是目前 SOTA 模型之一,预训练数据规模达 309B observations。

- Universal Time Series Forecasting
- 介绍通用时间序列预测模型的背景:
- 灵感来自 AI 的突破,目标是通过大规模预训练实现跨领域零样本预测。
- 分类:
- Encoder-only(掩码编码策略)
- Decoder-only(自回归预训练)
- Encoder-Decoder(完整 Transformer 框架)
- 最新技术:
- Mixture-of-Experts
- Long-context modeling
- Hierarchical modeling
- 还提到一些探索 Transformer 之外架构的研究。
- 总结:这些模型通过大规模预训练展现了强大的零样本预测能力。
- 介绍通用时间序列预测模型的背景:
- Time Series Forecasting Pre-training Corpus
- 强调无论模型架构如何,大规模预训练数据是基础。
- 列举已有数据集:
- ForecastPFN(纯合成数据)
- Chronos(Monash + M-competitions + 合成数据,84B observations)
- MOIRAI(LOTSA,231B)
- Timer(UTSD,1B)
- TimeMoE(Time-300B,309B)
- 指出问题:这些工作主要关注数据规模,没有系统研究数据多样性。
- 引出你的贡献:提出 BLAST(321B observations),采用均衡采样策略保证多样性,并验证其在训练效率和性能上的优势。
demo数据处理
鸢尾花数据处理 我记得之前做过这个来着 但是为什么我没有怎么做的印象
使用 PyTorch 进行数据处理、模型构建、训练和评估,以及如何对分类结果进行可视化分析

不太懂 但是代码没问题


哦万能的鸢尾花~