时序的评析

2024-04-27

1. 时序的评析

《时序》的“时”是时代,“序”是顺序。“时序”即时代发展。本篇就从历代文学创作的发展变化情况,来探讨文学与社会现实的密切关系。全篇分五部分:一、讲先秦时期的文学情况。二、讲两汉时期的文学情况。三、讲建安、正始文学情况。四、讲晋代文学情况。五、讲南朝宋、齐文学情况。本篇是一篇文学简史或文学简史论,集中讨论了各代文学的发展变化和原因。刘勰提出“十代九变”,可以看出他是用发展的观点来看待文学的;更重要的是在探讨各代文学发展变化的原因时提出了精到的见解。首先,他认为文学创作和社会现实之间有复杂的关系,作出了“文变染乎世情,兴废系乎时序”的科学论断。其次,从各代文学的继承发展中看到了文学一经产生,即有其相对的独立性,文学自身发展规律对于文学的发展具有重要的影响。选自《刘勰·文心雕龙·时序》

时序的评析

2. 一文入门时序分析

 参考 Youtube视频 。   时间序列的大纲   
                                                                                   
    white noise    
                                           
   样本点围绕着均值有一个方差恒定的均值波动,AR自回归和MA移动平均回归模型是为了违反white noise进行修正的,消除两种偏差。
   ARIMA全称是Auto Regression Integrated Moving Average,是为了能够在时间序列分析当中更好地理解数据,以及使得数据更好的能够被我们的模型所拟合,这样我们就可以在未来某个节点预测因变量(GDP,Price等等),它由三部分含义构成,各自有各自的作用。   ARIMA由自回归模型和移动平均值模型构成,接下来分别介绍它们的作用。   自回归模型是用来根据以往的数据来回归拟合变量,移动平均值模型对误差项进行建模,认为误差项是同期的误差项和以往不同时间的误差项的线性组合,这里的integrated意思是数据被替换成了原数据的后一个与前一个的差分。   我们看一下ARIMA的表示方法,以下是维基百科的内容。   
                                           
   对于ARIMA,表示方法是[图片上传失败...(image-d246ad-1520994262000)]),p,d,q都是非零参数,它们都是方程的阶数。其中p是时间滞后的数目,d是几次差分,q是移动平均模型的阶数。
                                           前面一项是在考虑变量值,后面一项是考虑误差项,总的来说就是这个模型认为当前的变量值和误差都是跟前面的变量值和误差有关的,都是前面的变量值和误差项的线性组合,我们可以自己定要多少个滞后(也就是要考虑前面多少个值的组合)。
                                           什么是不变性,不变性就是均值和方差不会随着时间的推移而发生改变,整个过程没有上升或者下降的趋势,如果有趋势的话,那么均值肯定是要改变的。   在这里要保证stationary的话就要保证[图片上传失败...(image-b16711-1520994262000)](这里有点不明白)
                                           (这里有两个输入错误,如果[图片上传失败...(image-781f3f-1520994262000)]应该是不变性过程,跟上面的是对应的;另外一处是如果检测是显著的话,应该是说明是不变性的(stationary))   解释Dicky-Fuller检测不变性是基于一阶自回归模型,也就是只考虑一阶自回归方程的系数,看它是否等于1,如果系数[图片上传失败...(image-5c2182-1520994262000)]的话,那么就会有[图片上传失败...(image-3463e9-1520994262000)],也就是说明这个过程是一个random walk,说明不具有不变性。接着往下推导的话,指定[图片上传失败...(image-7d4997-1520994262000)],也就是当[图片上传失败...(image-fff1aa-1520994262000)]的时候(实际上是判断为0的显著性如何),一阶差分是一个random walk的过程。如果不为不变性过程的话,就应该继续进行二阶差分直到gamma具有显著意义上的小于0,这样才是stationary。
                                           去除趋势的影响,可以通过变量值对时间t拟合回归,那么残差就是真实值和回归值之间的差。
                                           通过差分的方式可以把非静态的过程转化为静态的过程。途中是一阶差分,二阶差分是指在一阶差分基础上再进行多一次一阶差分。
                                           自相关是衡量在特定的一个时间点上的数据值   与其他滞后时间点的数据值的相关性强弱,通俗地讲,就是比如我当前这个数据点是不是跟前面时间的数据点是有关的,相关性有多强?(越弱说明我们忽略掉这种相关性之后造成的影响就会越弱,你可以想象亲戚越远房那种是不是越不相关,忽略他们是不是越没有影响?而如果是越亲近,比如你父母,对你的影响就会越大)相关性强弱可以从-1到+1不等,我们可以画出横坐标为滞后时间的个数(相当于某个具体节点最远可以对之后的第几个节点起作用,你可以认为是多米洛骨牌,我推倒一块,最远是第几块被影响推倒,后面就不受影响)
                                           我们看一下欧洲股票交易率的自相关系数与滞后的时间节点数p的关系,红线是置信水平,这里是0.025。我们可以认为如果图中对应柱状图如果高于了红线,就说明对应的lag值下自相关效应是显著的(也就是当前lag值下对应的这个自相关系数值这种情况比较不太可能出现,那么如果一种不太可能出现的情况出现了,说明这种效应应该是显著的,我们只有0.025的可能性会犯错)。
   Ljung-Box q (LBQ) 统计量用于检验在一段时间内观测的变量值是否是独立的随机变量,也就是变量之间是否有自相关。自相关会降低预测模型的准确性,原因是我们认为的是预测模型与时间有关,但实际上跟前面的时间变量有关,预测结果就会差很多。比如季节性的影响,我们想要预测商场月销售额,但每逢年过节销售额都会猛涨,所以在时间上可能存在着一个滞后为12的影响。Ljung-Box q (LBQ) 统计测试则是假设k个滞后值内不存在自相关(原假设),假如说求出来的统计量p-value在显著性水平以下的话,那么就会认为统计量不显著为0,也就是有显著差别,那么就可以判定是存在着自相关性的。Ljung-Box q (LBQ) 统计量会用在拟合模型后面检验残差是否有相关性。
                                           首先是加载相应的数据包zoo, xts, TTR
   加载数据,选用的是42位英国国王去世的年龄,用scan函数来加载数据。
   输出结果
                                           可以看到前几行都是数字,代表着去世国王的年龄。接下来要转换成时序数据,用ts函数。
                                           接下来是数据差分,先取一阶
                                           可以看到,确实波动性减小了。如果不平稳的话就要继续差分,所以我们用ARIMA(p, 1, q)这个模型。
                                           自相关的计算公式展开来是以下的形式:   
                                           
   也就是从h+1号的值开始,求出t时间与前面的t-h时间的协方差占t时间方差的比例。   关于自相关的公式,实际上是y   t和它前面k个时间节点前的y_{t-k}的协方差占yt方差的比例,偏相关可以认为是yt和y_{t-k}的关系,但是yt也会受到其他滞后项的影响,所以减去这一部分滞后项的影响。(实际上这里没有真正搞懂,准备回头再仔细研读一下资料)   绘制自相关图acf和偏相关图pacf以确定存在自相关和偏相关的滞后时间个数。    自相关 
                                                                                   从图中可以看出1-20个滞后不存在着显著的自相关性,因此p定义为1。    偏相关 
                                                                                   从图中可以看出,在滞后项3-20就没有显著的偏相关性,取q=3。   因此最终模型定为ARIMA(1, 1, 3)。
   先拟合ARIMA(1, 1, 3)模型
                                                                                   在这里蓝线是预测值,蓝色区域是80%的置信区间,灰色部分是95%的置信区间。
   我们检查下预测值残差的相关性,绘制自相关图。
                                           可以看到残差之间已经没有明显的相关性了。   用Ljung-Box q (LBQ) 统计测试方法检查下自相关的显著性。
                                           Ljung-Box q (LBQ) 统计显示p值为0.9515,说明在95%的置信水平内,没有充分证据表明残差滞后值之间存在着非零相关性,因此应该接受零假设(残差之间没有相关性)。
   如果我们直接把时序数据传入到自动化的ARIMA模型的话,就可以得出自动拟合后的p, d, q值。
                                           最后得出的结果是ARIMA(0, 1, 1),接下来我们尝试根据这个自动模型去预测未来五位国王的情况。
                                                                                                                                                                   最后结果表明,1-20的滞后的残差都不存在非零相关性。

3. 时间序列分析


时间序列分析

4. 时序电路的分析

时序电路的行为是由输入、输出和电路当前状态决定的。输出和下一状态是输入和当前状态的函数。通过对时序电路进行分析,可以得到关于输入、输出和状态三者的时序的一个合理描述。如果一个电路包含这样的触发器,该触发器的时钟输入是直接驱动或者有一个时钟信号间接驱动的,同时这个电路在正常执行时不需加载直接置位和间接置位,那么我们就称这个电路为同步时序电路。触发器可以是任何类型的,逻辑图可以包括也可以不包括组合逻辑。 时序电路的逻辑图通常包括触发器和组合门。我们所使用地触发器类型和组合电路的一系列布尔函数为我们提供了绘制时序电路逻辑图所需要的全部信息。在组合逻辑电路中,触发器输入信号的产生,可以用一系列的布尔函数描述,我们称这些布尔函数为触发器的输入方程(flip-flop input equation)。在这里,我们同样将采用传统的表示方法,使用触发器的输入符号作为触发器输入方程中的变量,使用触发器的输出符号作为变量下标。在组合电路中,触发器的输入方程是一系列布尔表达式,下表变量是组合电路的输出符号。因为在电路中触发器的输出端始终与输入端相连,所以命名为“触发器的输入方程”。触发器输入方程为指定时序电路的逻辑图提供了一种间接的代数表达方法。这些方程的字母符号隐含了所用的触发器的类型,同时完全确定了驱动触发器的组合逻辑电路。时间变量在触发器输入方程中没有指明,但是已经暗含在触发器C输入端的时钟之中。 时序电路的输入、输出和触发器的状态之间的函数关系可以用状态表(state table)列举出来。状态表包括四个部分,分别标记为当前状态(present state)、输入(input)、下一状态(next state)和输出(output)。当前状态表示触发器A和B在任意给定时刻t的状态。输入部分表示在每个可能的当前状态下的输入X值。注意,对于每种可能的输入组合,每个当前状态都不断重复出现。下一状态表示触发器在一个时钟周期后的状态,即t+1时刻的状态。输出部分表示t时刻在给定的当前状态和输入组合下输出Y值。由此推导出的状态表包括了所有可能的当前状态和输入信号的二进制组合。 状态表中的有用信息可以通过状态图以图形化的方式表现出来。在状态图中,状态用圆圈表示,状态之间的转换用连接这些圆圈的有向线段表示。状态图是通过状态表直接得到的,与状态表提供了相同的信息。每个圆圈内的二进制数值定义了触发器的一个状态。在米粒型电路中,状态转换的有向线段上都标记了两个二进制数值,它们之间用斜线隔开,斜线前面的数值表示当前状态的输入,斜线后面的数值表示当前状态和给定述如下的输出。一个连接到自身圆圈的有向线段意味着没有发生状态转换。穆尔型电路在状态转换的有向线段上没有斜线,取而代之的是,输出是在圆圈中状态值下的斜线下表示出来的。在状态图中,每个状态的转换有两个输入条件,用都点分开。当有两个输入变量时,每个状态可能要有四个有向线段从响应的状态图中发出,这要依赖于状态的数量和每个输入组合的下一个状态。除了表示方式不同,状态表和状态图是没有区别的。状态表易于从给定的逻辑图和输入方程中得出,而状态图可以直接从状态表中得出。状态图给出了状态的图形化表示,更便于我们理解电路的操作过程。

5. 时间序列分析

时间序列 概念 :同一现象在不同时间上的相继观察值排列而成的数列
  
 形式上由现象所属的时间和现象在不同时间上的观察值两部分组成
  
 排列的时间可以是年、季度、月...
  
 
  
  
 时间序列的 分类 :
  
 1.绝对数序列:
  
 一系列绝对数按时间顺序排列而成;最基本的表现形式;反映在不同时间上所达到的绝对水平(时期序列,一段时期内总量的排序、时点序列,某一瞬间时点上总量的排序)
  
 2.相对数序列:一系列相对数按时间顺序排列而成
  
 3.平均数序列:一系列平均数按时间顺序排列而成
  
 
  
  
 时间序列的 编制原则 :
  
 时间长短一致
  
 总体范围一致
  
 指标内容一致
  
 计算方法和口径一致
  
 
  
  
  一、时间序列的对比分析 
  
    
  
  水平分析: 
  
 1.发展水平:现象在不同时间上的观察值;说明现象在某一时间上所达到的水平;
  
 2.平均发展水平:现象在不同时间上取值的平均数,又称序时平均;说明现象在一段时间内所达到的一般水平;(不同序列的类型选择不同的计算方法-时期、连续时点(逐日排序)、不等距时点(加权)、等距时点(不等距的特例));
  
 #相对数:两个绝对数相除
  
 #相对数的序时平均数:分子的平均数与分母的平均数相除
  
 3.增长量:报告期水平与基期水平之差,说明现象在观察期内增长的绝对数量
  
 分为逐期增长量(报告期水平与前一期水平之差)与累计增长量(报告期水平和某一固定时期水平之差)--各逐期增长量之和等于最末期的累计增长量
  
 4.平均增长量:各逐期增长量的平均数,等于逐期增长量之和/逐期增长量个数(也就是观察值个数-1)
  
 
  
  
  速度分析: 
  
 1.发展速度:报告期水平与基期水平之比,说明现象在观察期内相对的发展变化程度,
  
 分为环比发展速度(报告期水平和前一期水平之比)与定期发展速度(报告期与某一固定时期水平之比)--各环比发展速度之积等于最末期定期发展速度;
  
 2.增长速度(增长率):增长量与基期水平之比,说明现象的相对增长程度,
  
 等于发展速度-1;分为环比增长速度和定基增长速度;
  
 3.平均发展速度:观察期内各环比发展速度的平均数,说明现象在整个观察期内平均发展变化的程度(几何法算平均数)
  
 4.平均增长速度:等于平均发展速度-1
  
 
  
  
  二、时间序列的趋势分析 
  
 可以采用移动平均、最小二乘法等...
  
 
  
  
  三、季节变动分析 
  
 季节变动:现象在一年内随着季节更换形成的有规律变动;各年变化强度大体相同,且没年重现;
  
 扩展:对一年内由于社会、政治、经济、自然因素影响,形成的以一定时期为周期的有规则的重复变动;
  
 测定目的:确定现象过去的季节变化规律,消除时间序列中的季节因素;
  
 分析原理:将季节变动规律归纳为一种典型的季节模型;季节模型由季节指数所组成;季节指数的平均数等于100%;根据季节指数与其平均数的偏差程度测定季节变动的程度;
  
 
  
  
 季节指数:1.反映季节变动的相对数;2.以全年或季资料的平均数为基础计算的;3.平均数等于100%;4.指数越远离其平均数季节变动程度越大;5.同期平均法和趋势剔除法
  
 
  
  
 同期平均法:
  
 根据原时间序列通过简单平均计算季节指数
  
 假定时间序列没有明显的长期趋势和循环波动
  
 步骤:1.计算同期平均数;2.计算全部数据总季的平均数;3.计算季节指数S=同期平均数/总季平均数
  
 
  
  
 趋势剔除法:
  
 先将时间序列中长期趋势予以消除,在计算季节指数
  
 步骤:1.计算移动平均趋势值Y;2.从序列中剔除趋势值Y/T;3.按上述方法计算季节指数
  
 四项移动平均后再进行二项移动平均(四项做年的去掉季节,二项更为稳定)
  
 
  
  
 季节变动的调整:将季节变动剔除,方法是江源时间序列除以相应的季节指数
  
 
  
  
  四、循环波动分析 
  
 循环波动:近乎规律性的从低到高再从高至低的周而复始的变动;不同于趋势变动,他不是朝着单一方向的持续运动,而是涨落相间的交替波动;不同于季节波动,其变化无固定规律,变动周期多在一年以上,且周期长短不一
  
 目的是探索现象活动的规律性
  
 
  
  
 测定方法:采取剩余法
  
 计算步骤:1.先消除趋势值,求得无长期趋势数据资料;2.再消去季节变动(原始数据/季节指数),求得循环及不规则波动相对数;3.将结果移动平均,以消除不规则波动,即得循环波动值

时间序列分析

6. 时间序列分析概述

 时间序列具有如下特点:
   分类:
       五个步骤:特征分析、模型识别、模型参数估计、模型检验、模型应用。
   ​    在进行时间序列建模的过程中,首先要对时间序列的特征有所了解,一般的,从时间序列的 随机性、平稳性和季节性 三个方面进行考虑,其中平稳性尤为重要,对于一个非平稳时间序列,通常需进行平稳化处理后在进行建模,也可以根据特性之间建模。
        单位根检验 是指判断时间序列中是否存在单位根,即对时间序列的平稳性进行检验。可以证明若存在单位根,则序列是不平稳的,常用的单位根检验方法包括:ADF(Augmented Dickey Fuller)检验、PP(Phillips Person)检验、NP(Nelson Plosser)检验等。
   ​       时间序列的模型识别主要包括:确定模型类别和模型阶数两个方面。
   ​           在确定时间序列模型的类别方面,平稳序列样本自相关函数和偏相关函数的拖尾性和截尾性是判断模型类别的基本方法。
       在确定时间序列模型的阶数方面,主要有以下几种定阶方式。
       对时间序列模型的检验分为两大类:模型的显著性检验及模型参数的显著性检验
       时间序列模型的显著性检验主要检验模型的有效性。模型的显著性检验的主要任务是看模型是否充分有效地提取了全部信息,即一个好的模型应该确保残差序列为白噪声,这样确保了再无可利用信息。如果残差是非白噪声,则意味着残差中留有相关信息。
       模型参数的显著性检验,是要检验模型中的每一个参数是否显著异于零,目的是使模型更为精简和准确。如果模型中包含了不显著的参数性,则可以说明一方面参数冗余,另一方面会影响其他参数的估计精度。因此要提出模型中那些不显著的参数。
       利用模型进行预测分析。
    参考:《时间序列模型及预测》    王立柱著;科学出版社 

7. 时间序列分析

时间序列顾名思义即是通常在连续时间上采集的序列数据。例如股票指数数据、营收数据和天气数据等。时间序列分析是利用已知数据使用合适的模型拟合时间序列同时估算相应模型的参数。时间序列分析的模型与方法体现了我们对于时间序列自然属性的理解。同时这些模型方法也能够用于对时间序列进行预测和模拟。
  
 与信号分析类似,时间序列分析的方法也有时间域和频率域的方法;有单变量和多变量方法;有线性方法和非线性方法;连续序列和离散序列。
  
 一般时间序列可以依据变化特征分解为四个部分,即趋势(trend)、季节性(seasonal)、周期性(cyclical)和不规则(irregular)部分。
  
 构建时间序列预测模型的一种重要是方法使用随机过程理论。这与地质统计的分析方法是相同的,只是分析对象不同:时间序列为时间点上的数据而地质统计为空间点上的数据。这里认为时间序列上的数据点为随机变量,整个时间序列为一个随机函数。描述不同时间点上的数据之间的关系,同样要使用自协方差、自相关函数。同时二者同样实在稳态假设之下进行分析,应用中也需要对于数据进行去除趋势等处理使之满足稳态条件。时间序列分析中的自回归模型(AR)相当于地质统计中的简单克里金。

时间序列分析

8. 时间序列分析

 在R中生成时间序列的前提是我们将分析对象转成时间序列函数对象,包括观测值、起始时间、种植时间、及周期(月、季度、年)的结构。这些都能通过ts( )函数实现。
   R语言中,对时间序列数据进行分析处理时,使用差分函数要注意:差分函数diff()不带参数名的参数指滞后阶数,也就是与滞后第几阶的数据进行差分。如果要指定差分的阶数,则一定要使用带名称的参数:diff=2。
   例如: sample表示样本数据。
   1、diff(sample,2)表示是对滞后2阶的数据进行差分,一阶差分,等同于: diff(sample,lag=2)
   2、diff(sample,diff=2)才是表示二阶差分
   意:在函数中尽量避免使用没有命名的参数。在《时间序列分析及应用-R语言(第2版)》中,P315,描述到: 我们得到的教训就是,除非完全了解相关参数的位置,否则使用未命名参数是非常危险的。
   截尾是指时间序列的自相关函数(ACF)或偏自相关函数(PACF)在某阶后均为0的性质(比如AR的PACF);
   拖尾是ACF或PACF并不在某阶后均为0的性质(比如AR的ACF)。
    拖尾 :始终有非零取值,不会在k大于某个常数后就恒等于零(或在0附近随机波动)
    截尾 :在大于某个常数k后快速趋于0为k阶截尾
    AR模型:自相关系数拖尾,偏自相关系数截尾; 
    MA模型:自相关系数截尾,偏自相关函数拖尾; 
    ARMA模型:自相关函数和偏自相关函数均拖尾。 
   根据输出结果, 自相关函数图拖尾,偏自相关函数图截尾 ,且n从2或3开始控制在置信区间之内,因而可判定为AR(2)模型或者AR(3)模型。