基准概述
gift-eval 由两个关键部分组成:
训练/测试组件:包括 28 个数据集,包含 144,000 个时间序列和 1.77 亿个数据点,全面覆盖不同的领域、频率和变量设置。
预训练数据集:包含 88 个数据集中的 2300 亿个数据点,旨在促进大规模模型预训练。
我们的论文对 17 个模型进行测试,深入了解了模型性能,突出了优势并识别了失败案例,以指导通用时间序列模型的未来发展。为了从结果中获得更深入的见解,我们根据影响其结构和建模的不同时间序列特征对论文中的数据集进行了分类。这些包括数据来源领域(例如金融、医疗保健)、观察频率(例如每小时、每天)、预测长度或预测范围,以及序列是单变量还是多变量。
此外时间序列
具有趋势、季节性强度、熵、赫斯特指数、稳定性和块度等统计特征,有助于捕捉数据中的模式和可变性。gift-eval 会考虑这些特性和特征,以确保在各种现实场景中对预测模型进行全面评估。
实验结果
实验使用了 17 个模型,涵盖传统统计方法(例如 arima、theta)、深度学习模型(例如 patchtst、itransformer)和基础模型(例如 moirai、chronos)。我们将结 合作伙伴推动客户和业 果分为五个部分,涵盖域、预测长度、频率和变量数量等关键特征,然后汇总所有配置的结果。在这里,我们仅分享研究结果的要点,但对于更详细和更细粒度的分析,感兴趣的读者可以参阅我们的完整论文。
领域在大多数领域
基础模型通常都优于统计和深度学习模型。然而,它们在web/cloudops和transport等领域面临困难,因为高熵、低趋势和不均匀性使得零样本基础模型的数据更难以预测。相比之下,深度学习模型在接受全样本训练时在这些具有挑战性的领域表现更好,与基础模型相比,这可能得益于更有针对性的训练数据。
预测长度
基础模型在短期预测方面表现出色,能够有效捕捉即时 whatsapp 号码数据 趋势和波动。然而,随着预测长度延长到中长期预测,它们的性能会下降,而像 patchtst 和 itransformer 这样的深度学习模型则表现更好,能够成功捕捉长期依赖关系。虽然微调基础模 brb 目录 型可以提高其处理长期预测的能力,但基础模型和深度学习模型在中长期预测方面仍然存在明显的性能差距。这一差距凸显了进一步研究的机会,以增强基础模型管理扩展预测范围的能力。