### ラグ次数の選択
自己回帰(AR)過程のラグ次数$p$を決定することは、さまざまな場面で求められるが主だった場面は次の場面である。

1. 単位根検定
2. 共和分検定
3. モデル推定

例えば単位検定では次の検定用回帰式を使うことがある。
$$
\Delta y_t = \beta_1+\beta_2t+(\rho-1)y_{t-1}+\sum_{j=1}^{p-1}\gamma_j \Delta y_{t-j}+u_t
$$

一方、モデル推定では次の誘導VARモデルを推定するかもしれない。
$$
\Delta \boldsymbol{y}_t=\boldsymbol{B}_1\boldsymbol{y}_{t-1}+\boldsymbol{B}_2\boldsymbol{y}_{t-2}+\cdots+\boldsymbol{B}_p\boldsymbol{y}_{t-p}+\boldsymbol{B}_z\boldsymbol{z}_t+\boldsymbol{u}_t
$$
これらの例が示すように様々な場面で、ラグ次数$p$を決定する必要がある。

情報量基準は現実に対するモデルの適合性とパラメータ数とバランスを考慮して最適なモデルを選択しようとする統計量である。
現実に対するモデルの適合性は、残差の変動や分散で測ることができ、小さいほどよく、それはパラメータ数を増やすことで小さくできる。
一方、同じ結果が得られるならば、簡単なモデル、つまり、パラメータ数の小さいほうが良い。
したがって、情報量基準が最小となるようなラグ次数$p$を選ぶ。

赤池情報量基準(AIC)が有名であり、その改良版として他の情報量基準が開発されてきた歴史がある。
その中でもシュワルツのベイズ情報量基準(SC)が有名である。AIC、HQ、SCが選ぶ次数$p$を、それぞれ$p(AIC),p(HQ),p(SC)$と表記すると、これらの基準が選ぶラグ次数には次の傾向がある。
$$
p(SC)\leq p(HQ)\leq p(AIC)
$$
標本サイズ$T$が大きい場合は、SCとHQに重きを置き、標本サイズ$T$が小さい場合はAICとFPEに重きを置き、ラグ次数$p$を選ぶことが考えられる。

ラグ次数$p$の選択問題は、仮説検定のアプローチからも考えることができる。
例えば、次のような仮説を立てる。


### pythonによるラグ次数の選択

In [43]:
import pandas as pd

canada = pd.read_csv('C:/Users/tanak/study/参考書/VAR実証分析/978-4-274-22477-5-20220111/Chap_5/data/canada.csv')[['prod','e','U','rw']]

In [99]:
from statsmodels.tsa.api import VAR
import numpy as np

model = VAR(canada)
IC_results = model.select_order(10).summary()
tmp = pd.DataFrame(IC_results)

IC_results = tmp.iloc[1:,1:]
IC_results.columns = tmp.iloc[0,1:]
IC_results.index = range(11)

IC_results

Unnamed: 0,AIC,BIC,FPE,HQIC
0,7.194,7.318,1331.,7.243
1,-6.192,-5.569*,0.002048,-5.943
2,-6.622,-5.501,0.001338,-6.174*
3,-6.709*,-5.090,0.001238*,-6.063
4,-6.513,-4.395,0.001535,-5.668
5,-6.302,-3.686,0.001954,-5.258
6,-6.195,-3.081,0.002279,-4.953
7,-6.012,-2.400,0.002925,-4.571
8,-6.054,-1.945,0.003073,-4.415
9,-5.912,-1.304,0.004015,-4.074


$p=2$か$p=3$が適切であると考えられる。

In [100]:
result_diff = model.fit(maxlags=10, ic='aic')
result_diff.summary()

  Summary of Regression Results   
Model:                         VAR
Method:                        OLS
Date:           Wed, 04, May, 2022
Time:                     21:04:04
--------------------------------------------------------------------
No. of Equations:         4.00000    BIC:                   -4.81164
Nobs:                     81.0000    HQIC:                  -5.73208
Log likelihood:          -150.609    FPE:                 0.00176850
AIC:                     -6.34882    Det(Omega_mle):     0.000975068
--------------------------------------------------------------------
Results for equation prod
             coefficient       std. error           t-stat            prob
--------------------------------------------------------------------------
const        -195.869849       116.958128           -1.675           0.094
L1.prod         1.147986         0.119400            9.615           0.000
L1.e           -0.148796         0.289127           -0.515           0.607
L1.U      