### 共和分検定の概要
共和分検定は複数の変数の時系列過程に共和分の関係が存在しているか否かを検定する。
共和分検定の対象となるのは複数のI(1)過程である。
複数のI(1)過程の間に何個の共和分の関係が存在しているかも決定する。
VARモデルにおいては、$K$個の内生変数の中に共和分の変数が含まれているか否かが重要な問題となる。
共和分検定の結果に基づき、次のモデル形が決まってくる。
(1)レベルVARモデル
(2)階差VARモデル
(3)ベクトル誤差修正モデル
共和分検定の結果がレベルVARモデルの使用を指すケースはないといえるので、「階差VARモデル」対「ベクトル誤差修正モデル」の選択に直結しているといえる。

共和分検定についても多くの検定方が開発されている。
最もポピュラーなものはヨハンセン検定に焦点を置く。

### ヨハンセン検定
ヨハンセン検定の対象物は、単位根を持ったベクトル過程$\boldsymbol{y}_t$である。
具体的には複数のI(1)過程を含むベクトル$\boldsymbol{y}_t$である。
ヨハンセン検定では、次の検定用回帰モデルを用いる。
$$
\Delta \boldsymbol{y}_t=\boldsymbol{\Pi} \boldsymbol{y}_{t-1}+\sum_{i=1}^{p-1}\Gamma_i\Delta \boldsymbol{y}_{t-i}+\boldsymbol{B}_z\boldsymbol{z}_t+\boldsymbol{u}_t
$$
この検定用回帰モデルはベクトル誤差修正モデルである。
検定対象$\boldsymbol{y}_t$の共和分関係を調べる核心部は$\boldsymbol{\Pi}$であり、$K×K$nの大きさの係数行列である。
$K$は検定対象の要素数を表し、必ずしも内生変数の個数である必要はない。
他の要素については、検定の環境をコントロールするために回帰式に入っている。

行列$Pi$のランクによって次の3つのケースを考える。

(1)$rank(\boldsymbol{\Pi})=K$の場合(フルランクの場合)
ベクトル$\boldsymbol{y}_t$に入れた$K$個の内生変数に対し、$K$個の共和分ベクトルが存在することを意味する。
$\boldsymbol{y}_t$に含まれる$K$個の内生変数がすべてI(1)過程であれば、最大で$K-1$個の共和分ベクトルが存在する。
行列$\boldsymbol{\Pi}$のフルランクは、$\boldsymbol{y}_t$に含まれる$K$個の内生変数がすべてI(0)過程であることを意味する。
したがって、レベルVARを構築するケースである。
普通に共和分検定を行っていれば、このケースに直面することはない。

(2)$rank(\boldsymbol{\Pi})=r,(0<r<K)$の場合
ベクトル$\boldsymbol{y}_t$に入れた$K$個の内生変数に対し、$0<r<K$で示す$r$個の共和分ベクトルが存在することを意味する。
これはベクトル誤差修正(VEC)モデルを構築するケースである。
ただし、ベクトル$\boldsymbol{y}_t$にI(0)内生変数が1個含まれていると共和分ランクが1つ増える。
したがって、$\boldsymbol{y}_t$にI(0)内生変数が含まれている場合は、共和分ランク$r$からI(0)内生変数の個数を引いた数が、I(1)間に見られる本来の共和分ランクになる。

(3)$rank(\boldsymbol{\Pi})=0$の場合(ゼロランクの場合)
ベクトル$\boldsymbol{y}_t$に入れた$K$個の内生変数に対し、共和分ベクトルが存在しないことを意味する。
行列$\boldsymbol{\Pi}$のゼロランクは、$\boldsymbol{y}_t$に含まれる$K$個の内生変数がすべてI(1)過程であり、かつI(1)内生変数の間に共和分が成立しないことを意味している。
したがって、すべてのI(1)過程を階差型に変換し、階差VARを構築するケースになる。

ヨハンセン検定にはトレース検定と最大固有値検定といった2つの検定法がある。
それぞれ右片側検定になるが、それぞれ固有の分布表を使って実行する。
トレース検定における帰無仮説と対立仮説は次のようになる。

$H_0$:$r_0$個の共和分ベクトルが存在する。
$H_1$:$K$個の共和分ベクトルが存在する。(=「検定対象$\boldsymbol{y}_t$の要素はすべて定常I(0)である」)

この検定のために次のトレース検定統計量が用いられる。

$$
\begin{align}
LR_{trace}(r_0)&=-2\{\log L(r_0)-\log L(K)\}\\
&=-T\sum_{i=r+1}^K\log(1-\hat{\lambda}_i)
\end{align}
$$

これは尤度比検定統計量$LR$のグループに属し、$\hat{\lambda_i}$は行列$\boldsymbol{\Pi}$の固有値を表す。
共和分ランクが$r$のとき、残り$K-r$個の固有値$\lambda_i(i=r+1,\cdots,K)$はゼロである。
この性質を利用するのが$LR_{trace}(r_0)$であり、残り$K-r_0$個の推定固有値$\hat{\lambda_i}(i=r_0+1,\cdots,K)$を調べる。
帰無仮説が真であれば、$\hat{\lambda_i}(i=r_0+1,\cdots,K)$がゼロ、$LR_{trace}(r_0)$もゼロになる。

最大固有値検定における帰無仮説と対立仮説は次のようになる。

$H_0$:$r_0$個の共和分ベクトルが存在する。(=「検定対象$\boldsymbol{y}_t$には、たかだか$r_0$組の共和分関係がある」)
$H_1$:$r_0+1$個の共和分ベクトルが存在する。

この検定のためには次の最大固有値検定統計量が用いられる。
$$
LR_{max}(r_0)=-T\log(1-\hat{\lambda}_{r_0+1})
$$

これも尤度比検定統計量$LR$のグループに属する。
$K-r_0$個の推定固有値$\hat{\lambda}_{i}(i=r_0+1,\cdots,K)$の中の$\hat{\lambda}_{r_0+1}$のみを調べる。
$\hat{\lambda}_{r_0+1}$は$\hat{\lambda}_{r_0}$に次いで大きな固有値を表す。
帰無仮説が真であれば、$\hat{\lambda_{r_0+1}}$がゼロ、$LR_{max}(r_0)$もゼロになる

検定アルゴリズムについては、トレース検定であろうと、最大固有値検定であろうと、次の検定アルゴリズムがポピュラーである。
帰無仮説の内容を、

$$
H_0:r=0,\ H_0:r=1,\ H_0:r=2,\cdots, H_0:r=K-1,\ H_0:r=K
$$

と変化させ、それに対応する検定統計値を棄却点と比較する。
$H_0:r=0$が採択されれば、共和分ランクは$r=0$となり、「共和分関係なし」と判断する。
$H_0:r=0$が棄却されれば、$H_0:r=1$へ進み、判断する。
初めて帰無仮説$H_0$が採択されるときの$r_0$を決定する。この$r_0$が共和分ランクとなる。

ヨハンセン検定の手順は次のようになる。

ステップ1:単位根検定に基づき、共和分検定の対象となる変数を決定する。理論的にはI(1)過程のみの組み合わせが共和分検定の対象になるが、そこにI(0)過程が混在していてもよい。$\boldsymbol{y}_t$における$I(0)$過程の存在は共和分ランクの増加として現れる。
ステップ2:ラグ次数$p$、定数項の有無、トレンド項の有無、等々の事前情報を得る。VAR(p)の推定結果に基づき、検定用回帰モデルに用いるラグ次数$p$を決定する。検定用回帰モデルに定数項を含めるか、トレンド項を含めるか等々の情報を得る。
ステップ3前ステップで得た事前情報に基づき、ヨハンセンの検定用回帰モデルを決定する。定数項とトレンド項との設定により、使う分布表が数ケースに分かれている。
ステップ4:ヨハンセン検定を実行する。トレース検定で大まかな共和分ランクを出し、最大固有値検定で細かく見て最終的な共和分ランク$r$(共和分ベクトルの数)を決定する。$1<r<K$の場合はベクトル修正誤差(VEC)モデルを構成するケースになる。

### エングル=グランジャー検定
ヨハンセン検定と共にエングル=グランジャー検定もポピュラーである。
エングル=グランジャー検定は、共和分関係が均衡を表すと解釈し、均衡の乖離に対して単位根検定を行う考え方に基づいている。
したがって、2段階の検定となる。
1段階目は、あるI(1)過程を別のI(1)過程に線形変換させ、残差を得る。その残差がI(0)過程であれば、1段階目の線形回帰は共和分関係になっていることを意味する。
2段階目は回帰残差に対して単位根検定を行い、回帰残差がI(0)か否かを検定する。

エングル=グランジャー検定は次のステップとなる。
単位根検定(例えばADF検定)を実行し、各変数がI(0)なのか、I(1)なのか、I(2)なのかを決定する。
I(0)過程もI(2)過程もエングル=グランジャー検定の対象から外す。

ステップ1:I(1)過程のみを選び出し、複数のI(1)過程の間に均衡関係があるか否かを調べる。単純化のため、I(1)変数の個数は2個とし、$y_1\sim I(1)$と$y_2\sim I(1)$とする。次の回帰式を用い、均衡関係の有無を判断することになる。
$$
y_{1t}=\beta_1+\beta_1y_{2t}+u_t
$$
この推定から残差$\{\hat{u_t}\}$を得る。$\{\hat{u_t}\}$が定常であれば、$y_1$と$y_2$は共和分関係$IC(1,1)$にあり、均衡関係があると判断する。一方、残差$\{\hat{u_t}\}$が単位根を持っていれば、$y_1$と$y_2$は共和分関係にないことになる。
ステップ2:残差$\{\hat{u_t}\}$に対して単位根検定を行う。具体的には次のDF検定またはADF検定を用いることが考えられる。

AR(1)の場合：$\Delta \hat{u_t} = (\rho-1)\hat{u_{t-1}}+\varepsilon_t$
AR(p)の場合：$\Delta \hat{u_t} = (\rho-1)\hat{u_{t-1}}+\sum_{i=1}^{p-1}\gamma_i\Delta \hat{u_{t-i}}+\varepsilon_t$

ただし、$\varepsilon_t$はホワイトノイズである。検定対象が残差であるので、定数項やトレンド項のないnoneモデルを用いる。
帰無仮説は次のようになる。

$$
H_0:\rho-1=0(単位根あり)
H_1:\rho-1<0(単位根なし)
$$

もし、帰無仮説が棄却できれば、残差は単位根がなく、定常過程と判断する。
つまり、共和分関係が存在すると判断する。帰無仮説が棄却できなければ、共和分関係が存在していないと判断する。



In [1]:
import pandas as pd

canada = pd.read_csv('C:/Users/tanak/study/参考書/VAR実証分析/978-4-274-22477-5-20220111/Chap_5/data/canada.csv')[['prod','e','U','rw']]
canada

Unnamed: 0,prod,e,U,rw
0,405.366466,929.610514,7.53,386.136109
1,404.639834,929.803985,7.70,388.135759
2,403.814883,930.318388,7.47,390.540113
3,404.215773,931.427687,7.27,393.963817
4,405.046714,932.662006,7.37,396.764691
...,...,...,...,...
79,415.701580,959.488142,6.93,467.702562
80,416.867407,960.362493,6.80,469.134788
81,417.610399,960.783379,6.70,469.336420
82,418.002980,961.029030,6.93,470.011666


In [4]:
from statsmodels.tsa.vector_ar.vecm import coint_johansen

# -1 - no deterministic terms
# 0 - constant term
# 1 - linear trend

# result : JohansenTestResult
#    An object containing the test's results. The most important attributes
#    of the result class are:
#
#    * trace_stat and trace_stat_crit_vals
#    * max_eig_stat and max_eig_stat_crit_vals

In [164]:
from statsmodels.tsa.vector_ar.vecm import coint_johansen, select_coint_rank

jres = coint_johansen(canada, det_order=2, k_ar_diff=3)

trace_output = pd.DataFrame([jres.lr1], index=["trace_stat"])
p_trace = pd.DataFrame(jres.cvt.T, index=['90%','95%','99%'])
pd.concat([trace_output, p_trace], axis=0)



Unnamed: 0,0,1,2,3
trace_stat,64.445864,25.217371,11.277698,1.06144
90%,,,,
95%,,,,
99%,,,,


In [163]:
max_output = pd.DataFrame([jres.lr2], index=["max_eig_stat"])
p_max = pd.DataFrame(jres.cvm.T, index=['90%','95%','99%'])
pd.concat([max_output, p_max], axis=0)

Unnamed: 0,0,1,2,3
max_eig_stat,20.426957,10.593279,8.923139,0.997278
90%,28.2398,21.8731,15.0006,2.7055
95%,30.8151,24.2522,17.1481,3.8415
99%,36.193,29.2631,21.7465,6.6349


In [158]:
jres = coint_johansen(canada, det_order=0, k_ar_diff=2)

trace_output = pd.DataFrame([jres.lr1], index=["trace_stat"])
p_trace = pd.DataFrame(jres.cvt.T, index=['90%','95%','99%'])
pd.concat([trace_output, p_trace], axis=0)

Unnamed: 0,0,1,2,3
trace_stat,70.957596,27.140021,10.781948,0.060966
90%,44.4929,27.0669,13.4294,2.7055
95%,47.8545,29.7961,15.4943,3.8415
99%,54.6815,35.4628,19.9349,6.6349


In [159]:
max_output = pd.DataFrame([jres.lr2], index=["max_eig_stat"])
p_max = pd.DataFrame(jres.cvm.T, index=['90%','95%','99%'])
pd.concat([max_output, p_max], axis=0)

Unnamed: 0,0,1,2,3
max_eig_stat,43.817575,16.358072,10.720982,0.060966
90%,25.1236,18.8928,12.2971,2.7055
95%,27.5858,21.1314,14.2639,3.8415
99%,32.7172,25.865,18.52,6.6349


In [126]:
vec_rank1 = select_coint_rank(canada, det_order = 0, k_ar_diff = 3, method = 'trace', signif=0.1)
print(vec_rank1.summary())

Johansen cointegration test using trace test statistic with 10% significance level
r_0 r_1 test statistic critical value
-------------------------------------
  0   4          65.70          44.49
  1   4          22.69          27.07
-------------------------------------


In [145]:
?coint_johansen

In [69]:
from statsmodels.tsa.stattools import coint

results = coint(canada['prod'], canada['e']) # # x, y: array_like, 1d
stat = results[0]     # 統計量
pvalue = results[1]  # p値
stat

-2.068411374685177

In [147]:
jres.trace_stat

array([40.94065318, 20.51369573,  9.92041655,  0.99727803])

In [146]:
canada

Unnamed: 0,prod,e,U,rw
0,405.366466,929.610514,7.53,386.136109
1,404.639834,929.803985,7.70,388.135759
2,403.814883,930.318388,7.47,390.540113
3,404.215773,931.427687,7.27,393.963817
4,405.046714,932.662006,7.37,396.764691
...,...,...,...,...
79,415.701580,959.488142,6.93,467.702562
80,416.867407,960.362493,6.80,469.134788
81,417.610399,960.783379,6.70,469.336420
82,418.002980,961.029030,6.93,470.011666


In [49]:
res = select_coint_rank(canada, det_order=1, k_ar_diff=3, method='trace', signif=0.01)
?res

In [75]:
res.crit_vals

array([62.5202])