#多重共線性(MultiCollinearity)
『Rによる計量経済学』第8章「多重共線性」をPythonで実行する。  
テキスト付属データセット(「k0701.csv」等)については出版社サイトよりダウンロードしてください。  
また、以下の説明は本書の一部を要約したものですので、より詳しい説明は本書を参照してください。   

###概要
次のような重回帰モデルを推定。  
$Y_{i} = \alpha + \beta X_{i} + \gamma Z_{i} + u_{i} (i = 1, 2, ..., n)$  
回帰係数$\hat{\beta}$の分散である$s_{\hat{\beta}}^{2}$は次の3つの部分からなる。

$s_{\hat{\beta}}^{2} = \frac{s^{2}}{\Sigma (X_{i} - X)^{2}(1 - r_{XZ}^{2})}$  
$= \frac{(A)}{(B)[1-(C)]}$  

ここで(C)が理由で回帰係数$\hat{\beta}$が有意にならないことを**多重共線性(multi collinearity)**の問題があると呼ぶ。

###多重共線性の検討の手順  
① 他の説明変数を除いた場合に説明力があるかを確認する。  
② (A)の部分の計算  
③ (B)の部分の計算  
④ (C)の部分の計算  
⑤ ①〜④の結果から④が原因であるかどうか判断する。  

##例題8-1
「k0801.csv」を分析。   

In [1]:
%matplotlib inline

In [2]:
# -*- coding:utf-8 -*-
from __future__ import print_function
import numpy as np
import pandas as pd
import statsmodels.api as sm
import matplotlib.pyplot as plt

In [3]:
# データ読み込み
data = pd.read_csv('example/k0801.csv')
data

Unnamed: 0,i,X,Z,Y
0,1,1,2,1
1,2,3,2,3
2,3,5,4,4
3,4,5,6,5
4,5,8,7,7
5,6,9,9,8


In [4]:
# 説明変数設定
X = data[['X', 'Z']]
X = sm.add_constant(X)
X

Unnamed: 0,const,X,Z
0,1,1,2
1,1,3,2
2,1,5,4
3,1,5,6
4,1,8,7
5,1,9,9


In [5]:
# 被説明変数設定
Y = data['Y']
Y

0    1
1    3
2    4
3    5
4    7
5    8
Name: Y, dtype: int64

In [6]:
# OLSの実行(Ordinary Least Squares: 最小二乗法)
model = sm.OLS(Y,X)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.988
Model:                            OLS   Adj. R-squared:                  0.980
Method:                 Least Squares   F-statistic:                     120.6
Date:                Fri, 17 Jul 2015   Prob (F-statistic):            0.00136
Time:                        22:15:54   Log-Likelihood:               -0.45977
No. Observations:                   6   AIC:                             6.920
Df Residuals:                       3   BIC:                             6.295
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
const          0.1767      0.330      0.536      0.6

  "samples were given." % int(n))


これから、Xの係数 $\hat{\beta}$ のP値が小さく有意水準5%でも有意ですが、Zの係数 $\hat{\gamma}$ のP値が大きく明らかに有意でないことがわかります。

In [7]:
# 説明変数設定
X = data['X']
X = sm.add_constant(X)
X

Unnamed: 0,const,X
0,1,1
1,1,3
2,1,5
3,1,5
4,1,8
5,1,9


In [8]:
# 説明変数をXのみにして推定
# OLSの実行(Ordinary Least Squares: 最小二乗法)
model = sm.OLS(Y,X)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.983
Model:                            OLS   Adj. R-squared:                  0.979
Method:                 Least Squares   F-statistic:                     235.1
Date:                Fri, 17 Jul 2015   Prob (F-statistic):           0.000106
Time:                        22:15:54   Log-Likelihood:                -1.3861
No. Observations:                   6   AIC:                             6.772
Df Residuals:                       4   BIC:                             6.356
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
const          0.2491      0.326      0.764      0.4

In [9]:
# 説明変数設定
X = data['Z']
X = sm.add_constant(X)
X

Unnamed: 0,const,Z
0,1,2
1,1,2
2,1,4
3,1,6
4,1,7
5,1,9


In [10]:
# 説明変数をZのみにして推定
# OLSの実行(Ordinary Least Squares: 最小二乗法)
model = sm.OLS(Y,X)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.919
Model:                            OLS   Adj. R-squared:                  0.898
Method:                 Least Squares   F-statistic:                     45.23
Date:                Fri, 17 Jul 2015   Prob (F-statistic):            0.00255
Time:                        22:15:54   Log-Likelihood:                -6.1274
No. Observations:                   6   AIC:                             16.25
Df Residuals:                       4   BIC:                             15.84
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
const          0.2917      0.732      0.398      0.7

In [11]:
# 標準偏差
data.std()

i    1.870829
X    2.994439
Z    2.828427
Y    2.581989
dtype: float64

In [12]:
# 平均
data.mean()

i    3.500000
X    5.166667
Z    5.000000
Y    4.666667
dtype: float64

In [13]:
# 相関係数
data.corr()

Unnamed: 0,i,X,Z,Y
i,1.0,0.981778,0.982708,0.993694
X,0.981778,1.0,0.94456,0.9916
Z,0.982708,0.94456,1.0,0.958514
Y,0.993694,0.9916,0.958514,1.0


以上の結果から、重回帰分析において $Z_{i}$ は有意ではなかったが、多重共線性によるものだったとうかがえる。

###赤池情報量基準(Akaike's Information Criterion: AIC)
自由度調整済決定係数 $\overline{R}^{2}$ と同様に、回帰係数の実質的な説明力を表す。


しかし、Statsmodelsにはステップワイズ法を使って変数選択をしてくれるメソッドがないらしいので、[ここ](http://planspace.org/20150423-forward_selection_with_statsmodels/)のページからforward_selected()を借りて変数選択を行う。

In [14]:
# データ読み込み
data2 = pd.read_csv('example/k0802.csv')
data2

Unnamed: 0,Y,X1,X2,X3,X4,X5,X6,X7,X8
0,208.7,312.8,7.7,6.5,24.2,300,322.1,278.1,92.9
1,174.0,686.9,14.0,8.4,22.3,367,434.7,273.6,90.3
2,206.5,497.6,13.7,6.2,32.5,397,177.3,387.5,92.1
3,173.2,264.9,6.2,6.9,13.6,372,581.9,502.1,89.6
4,182.0,471.2,11.1,6.1,38.4,383,213.4,317.3,88.6
5,186.1,375.0,10.9,4.8,28.0,405,597.8,524.8,93.0
6,138.8,267.3,9.2,6.0,27.7,386,368.0,481.3,90.1
7,171.0,275.9,7.4,5.9,17.8,446,423.6,1253.7,90.4
8,126.6,303.1,6.8,5.4,22.8,411,630.2,1305.2,91.9
9,131.4,369.5,6.5,5.7,18.8,367,679.8,1725.9,89.3


In [15]:
import statsmodels.formula.api as smf

def forward_selected(data, response):
    """Linear model designed by forward selection.

    Parameters:
    -----------
    data : pandas DataFrame with all possible predictors and response

    response: string, name of response column in data

    Returns:
    --------
    model: an "optimal" fitted statsmodels linear model
           with an intercept
           selected by forward selection
           evaluated by adjusted R-squared
    """
    remaining = set(data.columns)
    remaining.remove(response)
    selected = []
    current_score, best_new_score = 0.0, 0.0
    while remaining and current_score == best_new_score:
        scores_with_candidates = []
        for candidate in remaining:
            formula = "{} ~ {} + 1".format(response,
                                           ' + '.join(selected + [candidate]))
            score = smf.ols(formula, data).fit().rsquared_adj
            scores_with_candidates.append((score, candidate))
        scores_with_candidates.sort()
        best_new_score, best_candidate = scores_with_candidates.pop()
        if current_score < best_new_score:
            remaining.remove(best_candidate)
            selected.append(best_candidate)
            current_score = best_new_score
    formula = "{} ~ {} + 1".format(response,
                                   ' + '.join(selected))
    model = smf.ols(formula, data).fit()
    return model

In [16]:
# 第一引数にdata、第二引数に被説明変数のコラム名
model = forward_selected(data2, 'Y')
print(model.model.formula)

Y ~ X6 + X8 + X5 + 1


In [17]:
# OLS実行
X = data2[['X5', 'X6', 'X8']]
X = sm.add_constant(X)
Y = data2['Y']
model = sm.OLS(Y,X)
results = model.fit()
print(results.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.604
Model:                            OLS   Adj. R-squared:                  0.542
Method:                 Least Squares   F-statistic:                     9.674
Date:                Fri, 17 Jul 2015   Prob (F-statistic):           0.000433
Time:                        22:15:54   Log-Likelihood:                -96.881
No. Observations:                  23   AIC:                             201.8
Df Residuals:                      19   BIC:                             206.3
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
const       -620.9189    276.085     -2.249      0.0