In [1]:
## AFMLの内容ではない

- 時系列分析の基礎
- 予測の基礎
- 単位根過程について

## **時系列分析の基礎**
- 時系列データ分析の目的
- 時系列データの種類
- 基本統計量と時系列モデル
- 定常性について
- 自己相関の検定
- ランダムウォークについて

### **時系列データ分析の目的**
時系列分析の目的は，時系列データが持っている多様な特徴を記述できるモデルを構築することである．    
    
　より具体的には，
- 予測
- 変数間の動的関係性の調査

などがある．

　予測は，株価の将来の平均的な値や変動幅を知ることなどである．変数間の動的関係性の調査とは，例えば，アメリカの株式市場で何かしらのショックが起こった場合に，日本の株式市場がどのような影響をうけるかなどの調査を意味する．これは，分散投資･リスク管理･経済政策の全ての観点から重要である．また，金融･財政政策変数とGDPなどの経済変数の関係を分析することによって，財政評価などを行うことにも応用できたりする．

### **時系列データの種類**

　時系列データそのものは**原系列**と呼ぶ．時系列データの目的は，ほとんどの場合は原系列の性質を明らかにすることではあるが，実際の解析では，原系列に何かしらの変換を施した系列に対して行うことも少なくない．   
 
　**対数変換**はよく用いられる変換手法であり，経済･ファイナンスデータの中には，値が大きくなるにつれて，バラツキが大きくなるデータ多くなることで，後述する定常性の仮定が満たされないことがある．対数変換によって，その問題を解決できることが多い．
 
　**差分系列**もしくは**階差系列**は，$y_{t} - y_{t-1}$で計算する．時系列データの水準ではなく，変化率に興味がある場合もある．その際には，$(y_{t}-y_{t-1}) / y_{t-1}$が用いられることもあるが，**対数差分系列**が用いいられることも多い．変化分が1より十分小さいときには，1次のテーラー近似が成立し，

$$
\begin{align}
    \ln{(y_{t})} - \ln{(y_{t-1})} &= 
        \ln{(\frac{y_{t}}{y_{t-1}})} \\
        &= \ln{(1+\frac{y_{t}-y_{t-1}}{y_{t-1}})} \\
        &\approx \frac{y_{t}-y_{t-1}}{y_{t-1}}
\end{align}  
$$

が成立するからである．

　経済データの中には，季節的な変動を含む系列が多く存在する．季節変動そのものについて興味がある場合もあるが，季節変動では説明できない変動の分析に興味が注がれることのほうが多いはずである．例えば景気の動向を判断する際には，季節変動を除いた部分で判断するべきである．その場合，原系列から季節変動を取り除いたほうが便利であるが，そのような系列のことを**季節調整済み系列**(seasonally adjusted series)という．

### **基本統計量と時系列モデル**

　一般的なデータ分析と同様に，時系列分析も，最初に基本統計量を用いてデータの要約を行うことが多い．    
 　**期待値**(expectation)もしく**平均**(mean)は，各時点の$y_{t}$が平均的にどれくらいの値をとるかを表すものである．$E(y_{t})$と表記．    
  $y_{t}$が期待値から平均的にどの程度ばらつく可能性があるかを表す統計量の1つが**分散**(variance)である．$Var(y_{t})$と表記．    
　**自己共分散**(autocovariance)は時系列分析に特有の統計量であり，同一の時系列データにおける異時点間の共分散である．具体的には，

$$
\gamma_{1t} = Cov(y_{t},y_{t-1}) = E[(y_{t}-\mu_{t})(y_{t-1}-\mu_{t-1})]
$$

で，定義される．( $\mu_{t} = E(y_{t})$ )   

例えば，1次の自己共分散が正であれば，1時点離れたデータは期待値を基準として同じ方向に動く傾向があるし，負であれば逆の方向に動く傾向があると解釈できる．0であれば，そのような傾向は見られないといえる．2次以降も一般化すると以下の，

$$
\gamma_{kt} = Cov(y_{t},y_{t-k}) = E[(y_{t}-\mu_{t})(y_{t-k}-\mu_{t-k})]
$$

で定義される．    

　自己共分散をkの関数として見たものは**自己共分散関数**と呼ばれる．
　自己共分散は単位に依存してしまい，自己共分散の値で変数感の強弱を測ることができない．そこで，自己共分散を基準化した**自己相関係数**(autocorrelation coeficient)が，
 
$$
\begin{align}
    \rho_{kt} &= 
        Corr(y_{t},y_{t-k}) \\
        &= \frac{Cov(y_{t}, y_{t-k})}
                      {\sqrt{Var(y_{t})\cdot Var(y_{t-k})}} \\
        &= \frac{\gamma_{kt}}
                {\sqrt{\gamma_{0t}\cdot \gamma_{0,t-k}}}
\end{align}  
$$

で定義される．    

　自己相関係数をkの関数として見たものは**自己相関関数**と言われ，自己相関関数をグラフにしたものを**コレログラム**(correlogram)と呼ばれる．自己相関関数はモデルの選択に非常に有用であり，様々な時系列モデルの自己相関関数の性質を理解することが1つの大きな目的となる．   

　これらの統計量は時系列分析の目的とも大きく関連している．例えば，時系列データの平均的な値や変動幅の予測というのは，将来のyの期待値と分散(標準偏差)の評価に他ならない．    

　しかしながら，経済･ファイナンスデータは一度しか観測することができない．期待値や自己相関は一般的にtに依存するにも関わらず，時系列データは一度しか観測できない．観測値そのものを期待値の推定値としても，推定精度としては推定と呼べたものではない．さらに，予測を考える場合は，将来の観測値は存在しないので，存在しないものと過去の値との自己相関を評価する必要が出てくるが，これには何らかの$y_{t}$の構造を仮定する必要性が生じる．    

　そこで，時系列分析では，次のようなアプローチを取る．時系列データ$\{y_{t}\}^{T}_{t=1}$をある確率変数列$\{y_{t}\}^{\infty}_{t=-\infty}$から1つの実現値とみなし，その確率変数列の生成過程に関して何らかの性質や構造を仮定する．このような確率変数列は**確率過程**(stochastic process)もしくは**データ生成過程**(DGP; data grnerating process)と呼ばれ，時系列分析では確率過程の構造を**時系列モデル**と呼ぶ．

### **定常性について**
　時系列モデルを構築する上で，中心的な役割を果たす概念．定常性の過程の下で，基礎的な時系列モデルが構築された上で，それらのモデルを基に非定常なモデルが構築される．    
　同時分布や基本統計量の時間不変性に関するものであり，何を不変とするかによって**弱定常性**(weak stationarity)と**強定常性**(strong stationarity)の2つに分類される．


>**(定義)&emsp;弱定常性**    
>
>　任意のtとkに対して，
>
>$$
    E(y_{t}) = \mu \\
    Cov(y_{t}, y_{t-k}) = E[(y_{t}-\mu)(y_{t-k}-\mu)] = \gamma \\
$$
>が成立する場合，過程は弱定常(weak stationary)といわれる.

　定常過程においては，自己共分散は時点に依存せず時間差kにのみ依存することになる．したがって，任意のkに対して$\gamma_{k} = \gamma_{-k}$が成立する．また，過程が弱定常のとき，自己相関は，

$$\begin{align}
Corr(y_{t}, y_{t-k}) &= \frac{ \gamma_{kt} }
                             { \sqrt{\gamma_{0,t}\cdot \gamma_{0,t-k} }
                             } \\
                     &= \frac{\gamma_{k}}
                             {\gamma_{0}} \\
                     &= \rho_{k}
\end{align}$$

となり，自己相関も時点に依存しなくなる．また，$\rho_{k}=\rho_{-k}$も成立する．



　異なる時点の平均が等しいという前提を置くため，推定値として標本平均を採用することができるようになる．(｢データが同一の分布から独立に抽出した標本｣では条件が強過ぎて時間依存性を考慮した時系列解析ができない．)


>**(定義)&emsp;強定常性**
>
>　任意のtとkに対して，$(y_{t},y_{t+1},...,y_{t+k})$の同時分布が同一となる場合，過程は強定常(strict stationary)といわれる．


　弱定常性では，平均･共分散が時点tに依存せず等しいことが前提条件となっていたが，強定常性では，各時点の確率分布が等しいことが条件となっており，弱定常性よりも厳しい条件を課している．    

　一般的に，弱定常過程が強定常過程であるとは限らないが，重要な例外が存在する．それは**正規過程**(Gaussian process)と呼ばれる過程で，任意のtとkに対して$(y_{t}, y_{t+1}, ..., y_{t+k})$の同時分布が多変量正規分布となるような過程で定義される．多変量正規分布であれば，平均が決まった段階で分布も決まるので，弱定常正規過程は強定常となる．



>**(定義)&emsp;iid系列**    
>
>　各時点のデータが互いに独立でかつ同一の分布に従う系列はiid系列といわれる．(iid = independently and identically distribution)


　最も基礎的な強定常過程の例．期待値0のiid系列は時系列モデルの**撹乱項**(innovation, disturbance term)，すなわち時系列モデルにおいて確率的変動を表現する部分として用いることができる．しかし，独立性や同一分布性は非常に強い仮定であるため，必ずしも分析に必要であるとは限らない．そこでホワイトノイズを導入する．
 
>**(定義)&emsp;ホワイトノイズ**
>
>　すべての時点tにおいて，
> 
>$$\begin{align}
E(\varepsilon_{t}) &= 0 \\
\gamma_{k} &= E(\varepsilon_{t}\varepsilon_{t-k})
            = \begin{cases}
                  \sigma^{2}, &\quad k = 0 \\
                  0, &\quad k \neq 0 \\
              \end{cases}
\end{align}$$
>

　ホワイトノイズはすべての時点において，期待値が0で，かつ分散が一定であり，さらには自己相関を持たないことを必要とする．    
　正規過程を仮定すると，ホワイトノイズは**正規ホワイトノイズ**と呼ばれる．    

　最も基礎的な弱定常過程はホワイトノイズを用いて，
$$y_{t} = \mu + \varepsilon_{t}, \  \varepsilon_{t}\sim W.N(\sigma^{2})$$

であり，任意の平均と分散を持つ時系列を作成することはできるが，経済･ファイナンスデータのモデルとしては有用ではない．ホワイトノイズに定数を加えているだけであり，自己相関を持たず条件付き分散も一定である．これは，経済データに対して現実的なものとは言えない．   
　現実のデータをモデル化するためには，自己相関や条件付き分散の変動を許したより一般的なモデルが必要となる．その際に，多くのモデルの確率的な変動はホワイトノイズを用いて記述されるので，ホワイトノイズは時系列分析において重要な役割を果たす．

#### **定常性との向き合い方**
　多くの経済･ファイナンスデータは非定常であるが，差分系列などは定常過程の様に振る舞うことが多い．つまり，**データを定常に近くなるように変換することが重要．**
また，定常性の仮定は，条件付き期待値や条件付き分散が時間を通じて一定であることを要求するわけでは無いことに注意する．時系列分析に置いては，条件付き期待値や条件付き分散が重要であり，定常過程の枠組みの中でも，条件付き期待値は条件付き分散に関して非常に柔軟なモデルを構築することができるので，定上性を仮定しても大きな問題になることは少ない．

### **自己相関の検定**
　データが自己相関を持っているのであれば，その自己相関構造を記述できる時系列モデルを構築し，そのモデルを予測などに用いることができる．逆に言えば，自己相関を持っていないのであれば時系列分析でできることは非常に限られてしまうことになる．

 まず，標本平均，標本自己共分散，標本自己相関係数を計算し，期待値，自己共分散，自己相関の推定量とする．
$$
\bar{y} = \frac{1}{T} \Sigma^{T}_{t=1} y_{t} \\
\hat{\gamma_{k}} = \frac{1}{T} \Sigma^{T}_{t=k+1} (y_{t}-\bar{y})(y_{t-k}-\bar{y}) , \ \ \ k = 0,1,2,...\\
\hat{\rho_{k}} = \frac{\hat{\gamma_{k}}}
                      {\hat{\gamma_{0}}} , \ \ \ k=1,2,3,...
$$

　$\hat{\rho_{k}}$を用いて，帰無仮説$H_{0}:\rho_{k}=0$を対立仮説$H_{1}:\rho_{k}\neq 0$に対して検定するには，$H_{0}$の下での$\rho_{k}$の漸近分布を求める必要がある．
一定の過程の基でこの漸近分布は求められており，特に，$y_{t}$がiid系列であれば，$\hat{\rho_{k}}$が漸近的に平均0，分散1/Tの正規分布に従うことが知られている．標準正規分布の両側95％点は1.96であるので，$|\hat{\rho_{k}}|>1.96/\sqrt{T}$であれば，帰無仮説は有意水準5%で棄却され，有意なk次自己相関を持つことになる．    


　複数の自己相関係数が全て0であるという帰無仮説を検定したいとき，つまり，
 
$$H_{0}:\rho_{1}=\rho_{2}=\cdot\cdot\cdot=\rho_{m}=0$$    
を，
$$H_{1}:\rho_{k}\neq0, \ \ \ k^{\exists}\in[1,m]$$

に対して検定することもできる(**かばん検定**という)．    
　よく使われる統計量としては，Ljung and Box(1978)が考案したものがあり，彼らは一定の仮定の下で，
 
$$
Q(m) = T(T+2)\Sigma^{m}_{k=1} \frac{\hat{\rho_{k}}^{2}}{T-k} \sim \chi^{2}(m)
$$

が漸近的に成立することを示している($\chi^{2}(m)$は自由度mのカイ2乗分布)．したがって，Q(m)の値と$\chi^{2}(m)$の95%点を比較し，Q(m)の方が大きければ，有意水準5%で帰無仮説を棄却する．このとき，データは有意な自己相関を持つことになる．また，多くの統計ソフトでは，かばん検定を行うと，このQ統計量の値とともにかばん検定のP値が出力される．P値は，帰無仮説が正しい場合の検定統計量の裾確率を評価したものであり，この場合は$\chi^{2}(m)$に従う確率変数がQ(m)より大きな値となる確率を評価したものである．したがって，P値が利用可能なときには，P値が0.05より小さければ帰無仮説を棄却するればよいことになる．    
　mの値に何を用いいれば良いかが難しいところであり，小さいmを選択すると高次の自己相関を見逃す可能性があるし，大きくすると，検定の検出力が小さくなってしまう可能性がある．一つの目安としては$m \approx \ln{(T)}$が選択されることがあるが，複数のmに関してかばん検定を行い，総合的に判断することが多い．

## **予測の基礎**

## **単位根過程について**

　定常過程の代表的な性質に，
- トレンドを持たない    
(期待値と自己共分散が常に一定のため)
- 平均回帰性がある    
(過程が長期的に必ず平均の方向へ戻っていく，AR(q)過程の予測の性質などを参考にすると分かりやすい)

ことが挙げられる．    
　しかし，経済･ファイナンスのデータでは，これらの性質を満たさないものも多い．
例えば，GDPや物価などは経済成長とともに平均的に一定の割合で成長していくことが期待される．
また，将来的にどちらに動くかも予測することが困難であるため，平均回帰性があるとも言い難い．
単位根過程は，そういったデータをモデル化するのに有用であり，経済･ファイナンスデータの分析において重要な役割を果たす．

>**(定義)&emsp; 単位根過程**    
>原系列$y_{t}$が非定常過程であり，差分系列$\triangle{y_{t}} = y_{t} - y_{t-1}$が定常過程であるとき，過程は**単位根過程**(unit root process)といわれる．


代表的な単位根過程としては**ランダムウォーク**がある．

> **(定義)&emsp; ランダムウォーク**
>$$
y_{t} = \delta + y_{t-1} + \varepsilon_{t}, \ \varepsilon_{t}\sim iid(0, \sigma^{2})
$$
>と表現される時，$y_{t}$はランダムウォーク(random walk)と呼ばれる．
>ただし，$y_{0}=0$とする．また，定数項$\delta$はドリフト率と呼ばれ，上記の式はドリフト率$\delta$のランダムウォークと呼ばれることもある．