时间序列分析适用的数据有哪些?

2024-04-27

1. 时间序列分析适用的数据有哪些?

时间序列适合图形表示:数轴,时间轴。
把预测对象、预测目标和对预测的影响因素都看成为具有时序的,为时间的函数,而时间序列法就是研究预测对象自身变化过程及发展趋势。根据预测对象与影响因素之间的因果关系及其影响程度来推算未来。与目标的相关因素很多,只能选择那些因果关系较强的为预测影响的因素。

构成要素:
长期趋势,季节变动,循环变动,不规则变动。
1、长期趋势(T)现象在较长时期内受某种根本性因素作用而形成的总的变动趋势。
2、季节变动(S)现象在一年内随着季节的变化而发生的有规律的周期性变动。
3、循环变动(C)现象以若干年为周期所呈现出的波浪起伏形态的有规律的变动。

时间序列分析适用的数据有哪些?

2. 数据分析之时间序列分析

顾名思义,时间序列就是按照时间顺利排列的一组数据序列。时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。该技术有以下三个基本特点:
  
 1.假设事物发展趋势会延伸到未来;
  
 2.预测所依据的数据具有不规则性;
  
 3.不考虑事物发展之间的因果关系。
  
 对时间序列进行分析的最终目的,是要通过分析序列进行合理预测,做到提前掌握其未来发展趋势,以此为业务决策提供依据。
                                          
  移动平均法和指数平滑法的局限 
  
 移动平均法是一种简单平滑预测技术,它的基本思想是:根据时间序列资料逐项推移,依次计算包含一定项数的序时平均值,以反映长期趋势。但这种方法不适合预测具有复杂趋势的时间序列。指数平滑法是移动平均法的改进方法,通过对历史数据的远近不同赋予不同的权重进行预测。但在实际应用中,指数平滑法的预测值通常会滞后于实际值,尤其是所预测的时间序列存在长期趋势时,这种滞后的情况更加明显。
  
 在实际进行时间序列预测时,遇到的数据会比较复杂,所以我们需要用到更专业的预测方法来对数据进行合理预测。通常情况下一个时间序列包含四种因素,它们会通过不同的组合方式影响时间序列的发展变化。
                                          
 时间序列四种因素有两种组合方式。
  
 1.四种因素相互独立,即时间序列是由四种因素直接叠加而形成的,可用加法模型表示:
  
 Y=T+S+C+I
  
 2.四种因素相互影响,即时间序列是综合四种因素而形成的,可用乘法模型表示:
  
 Y=T×S×C×I,通常遇到的时间序列都是乘法模型。其中,原始时间序列值和长期趋势可用绝对数表示,季节变动、循环变动和不规则变动则用相对数(通常是变动百分比)表示。
  
 当我们需要对一个时间序列进行预测时,需要将上述四种因素从时间序列中分解出来。原因是:
  
 1.把因素从时间序列中分解出来后,就能克服其他因素的影响,仅考量某一种因素对时间序列的影响;
  
 2.分解这四种因素后,也可以分析他们之间的相互作用,以及它们对时间序列的综合影响;
  
 3.当去掉某些因素后,就可以更好地进行时间序列之间的比较,从而更加客观地反映事物变化发展规律;
  
 4.分解这些因素后的序列可以用于建立回归模型,从而提高预测精度。
  
 通常情况,我们会考虑进行季节因素的分解,也就是将季节变动因素从原时间序列中去除,并生成由剩余的三种因素构成的序列来满足后续分析需求。
  
 如果时间序列图的趋势随着时间的推移,序列的季节波动变得越来越大,则建议使用乘法模型;如果序列的季节波动能够基本维持恒定,则建议使用加法模型。
  
 时间序列的预测步骤主要分为四步:
  
 (1)绘制时间序列图观察趋势;
  
 (2)分析序列平稳性并进行平稳化;
  
 (3)时间序列建模分析;
  
 (4)模型评估与预测;
  
 平稳性是指时间序列的所有统计性质都不会随着时间的推移而发生变化,对于一个平稳的时间序列来说,需要具有以下特征:
  
 (1)均数和方差不随时间变化;
  
 (2)自相关系数只与时间间隔有关,与所处的时间无关。
  
 相关系数是用来量化变量之间的相关程度。自相关系数研究的是一个序列中不同时期的相关系数,也就是时间序列计算其当前期和不同滞后期的一系列相关系数。
  
 目前主流的时间序列预测方法都是针对平稳的时间序列进行分析的,但是实际上,我们遇到的大多数时间序列都不平稳,所以在分析时,需要首先识别序列的平稳性,并且把不平稳的序列转换为平稳序列。一个时间序列只有被平稳化处理过,才能被控制和预测。
  
 将时间序列平稳化的方式有很多,基础的方法是差分,因为这个方法有助于我们解读时间序列模型。差分,就是指序列中前后相邻的两期数据之差。
                                          
 ARIMA模型是时间序列分析中常用的一种模型,其全称为求和自回归移动平均模型。该模型形式为:ARIMA(p,d,q)(P,D,Q)。该模型有6个参数,前3个参数(p,d,q)针对季节性变化后的序列,后三个参数(P,D,Q)主要用来描述季节性变化,两个序列是相乘的关系,因此,该模型也称为复合季节模型。
                                          
 其中:p,是指移除季节性变化后的序列所滞后的p期,取值通常为0或1,大于1的情况较少;d,是指移除季节性变化后的序列进行了d阶差分,取值通常为0、1或2;q,是指移除季节性变化后的序列进行了q次移动平均,取值通常为0或1,很少会超过2。大写的P,D,Q的含义相同,只是应用在包含季节性变化的序列上。本例中,该模型可解读为,对移除季节因素的序列和包含季节因素的序列分别进行一阶差分和一次移动平均,综合两个模型而构建出的时间序列模型。
                                          
 模型拟合度主要通过R平方或平稳的R平方来评估模型拟合优度,以及在比较多个模型的情况下,通过比较统计量从而找到最优模型。本例中,由于原始序列具有季节变动因素,所以,平稳的R平方则更具参考意义。该值等于32.1%,所以,该时间序列模型的拟合效果一般。
                                          
 模型统计提供了更多的统计量用以评估时间序列的数据拟合效果。本例中,虽然平稳的R平方值为32.1%,但是“杨-博克斯Q(18)”统计量的显著性(P值)=0.706,大于0.05(此处的显著性(P值)>0.05是期望得到的结果),则接受原假设,认为这个序列的残差符合随机序列分布,同时也没有离群值的出现,这些也都反映出数据的拟合效果还是可以接受的。

3. 时间序列数据分析方法

时间序列数据聚类方法主要包括两种思路:
  
  
 一种是通过时间序列进行压缩降维,转换成静态数据,如通过特征提取、模型参数等方式,再使用静态数据方法进行聚类;另一种是通过改进传统的面向静态数据的点聚类方法,使之适用于序列数据类型。
  
 (1)基于初始数据的聚类
  
 一般指不对初始数据进行压缩,直接进行聚类。可以有效捕捉时间序列的细节,不丢失局部特征,但是数据量大的情况下计算效率降低。
  
 (2)基于特征数据的聚类
  
 通过时域分析、频域分析等方法,提取时间序列的多尺度特征,从而把高维的原始数据序列转换到用特征向量表示的低维特征空间。
  
 (3)基于模型的聚类
  
 基本思路是在基于一定的假设条件,用模型拟合原始序列,再用模型是否能生成另外一个序列作为两个时间序列是否属于同一类的评价指标,或者用模型的参数作为该序列的特征再进行聚类。特点是聚类结果不稳定,对模型依赖性很强,难以可视化。

时间序列数据分析方法

4. 时间序列分析的简介

它包括一般统计分析(如自相关分析,谱分析等),统计模型的建立与推断,以及关于时间序列的最优预测、控制与滤波等内容。经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。随着计算机的相关软件的开发,数学知识不再是空谈理论,时间序列分析主要是建立在数理统计等知识之上,应用相关数理知识在相关方面的应用等。

5. 时间序列分析的介绍

时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。

时间序列分析的介绍