## 5.6 回帰分析(4) 操作変数法

操作変数法は, 回帰モデルを正しく推定するために用いられ, 「内生性」の問題を解決するために役立つとされています。まずは内生変数と外生変数とは何か, というところから確認をしていきましょう。これは以下を参考にしています。

https://blog.deepblue-ts.co.jp/effect_verification/iv/

### 内生変数と外生変数
内生変数とは誤差項と相関を持つ説明変数であり, 外生変数は誤差項と相関を持たない説明変数です。数式で確認していきます。
以下のような単回帰モデルを考えてみます。

$ Y_i = \beta_0 + X_i\beta_i + \epsilon_i, i = 1, 2, ..., n\quad(1)$

ここで, $X_i$ が説明変数で, $\epsilon_i$は誤差項です。また, $E[\epsilon_i] = 0$とします。(単回帰分析の誤差の仮定より)

外生変数とは誤差項と相関を持たない変数でした。ここで, 相関係数が0ならば共分散も0となります。 

$X_i$と$\epsilon_i$の共分散は以下のような式になることからも0であることが確認できます。

(相関係数の出し方がわからない方は以下の記事など参考にしてみてください)

https://sci-pursuit.com/math/statistics/correlation-coefficient.html

$cov(X_i, \epsilon_i)$ 

$=E[X_i, \epsilon_i] - E[X_i]E[\epsilon_i]$

$=E[X_i]E[\epsilon_i] - E[X_i]E[\epsilon_i] (Xとεは独立なため)$

$=0 (E[\epsilon_i] = 0より)$

これが成り立っていれば, $X_i$は外生変数と言えます。

一方, 内生変数は共分散が0ではないということになるので,

$cov(X_i, \epsilon_i) ≠ 0$

となります。

### 内生変数によって生じる問題
内生性があることによって回帰係数が正しく推定できない, という問題が発生します。

まず, 外生変数である場合を考えてみます。
(1)の両辺の期待値をとると,

$E[Y_i] = \beta_0 + \beta_1E[X_i] + E[\epsilon_i]$

$\beta_0$について解くと,

$\beta_0 = E[Y_i] -\beta_1E[X_i]\quad(E[\epsilon_i] = 0より)$

よって, (1)は

$Y_i = E[Y_i] -\beta_1E[X_i] + X_i\beta_i + \epsilon_i$

$Y_i - E[Y_i] = (X_i - E[X_i])\beta_1 + \epsilon_i$ 

となります。さらに両辺に$X_i$をかけて, 期待値をとると,

$E[X_i(Y_i - E[Y_i]) = E[X_i(X_i - E[X_i])]\beta_1 + E[X_i\epsilon_i]$

$Cov(X_i, Y_i) = \beta_1Var(X_i) + Cov(X_i, \epsilon_i)\quad(2)$

両辺を$Var(X_i)$で割ると,

$\beta_1 = \frac{Cov(X_i, Y_i)}{Var(X_i)}\quad(Cov(X_i, \epsilon_i) = 0より)\quad(3)$

よって, それぞれを標本分散, 標本共分散に置き換えることで$\beta_1$を実際のデータ$X,Y$から正しく推定することができます。

では今度は内生変数の場合を考えます。

先ほどと異なる点は$Cov(X_i, \epsilon_i) \neq 0$です。

同様に(2)の両辺を$Var(X_i)$で割ると,

$\frac{Cov(X_i, Y_i)}{Var(X_i)} = \beta_1 + \frac{Cov(X_i, \epsilon_i)}{Var(X_i)}$

となってしまい, 誤差が生じます。この式の中では$\frac{Cov(X_i, \epsilon_i)}{Var(X_i)}$が該当し, 内生変数バイアスと呼ばれています。
(誤差がプラスかマイナスかは説明変数と被説明変数の相関が正か負かによります)

正しく効果を推定するにはこのバイアスをできるかぎり取り除く必要があります。そこで用いられるのが操作変数法です。

### 操作変数法の考え方
操作変数を一言であらわすと「内生変数との相関があり回帰モデルの誤差項と相関を持たないもの」となります。
具体例を考えてみましょう。
学歴を説明変数, 賃金を被説明変数として学歴が賃金に及ぼす影響を分析するとします。しかし学歴は内生変数である可能性が高いです。何故なら賃金のその他の決定要因は全て誤差項に含まれるわけですが, 個人の能力などは学歴と相関があると考えられます。従ってそのまま分析すると先ほどのバイアスが発生してしまいます。ここで操作変数として, 例えば「親の学歴」などを加えることが想定されます。これは本人が関与できない, という部分がポイントです。子どもの意思とは関係なく親が大学を出ていれば自分の子どもにも大学に行って欲しいと考える可能性が高そうだからです。

![image1.png](https://drive.google.com/uc?id=1-2imAmmeafyusF_P-SbDzXW6I-iiviTa&usp=drive_fs)

### 操作変数の導出
なんとなくイメージが掴めたところで数式的に操作変数を検討してみます。
操作変数を$Z_i$とします。これを式で表すと,

$X_i = \gamma_0 + Z_i\gamma_1 + u_i\quad(4)\\ E[Z_i\epsilon_1] = Cov(Z_i, \epsilon_1) = 0$

ただし$u_i$は誤差項で$E[u_i]=0, E[Z_iu_i]=0$ 

この式で$Z_i$が$X_i$に影響を与えていることと, 回帰モデルの誤差項と相関を持たないことを示せています。

さらに(1)を変形すると,

$Y_i = \beta_0 + (\gamma_0+Z_i\gamma_1 + u_i)\beta_1 + \epsilon_1$

$\quad = \beta_0 + (\gamma_0+Z_i\gamma_1)\beta_1 + u_i\beta_1 + \epsilon_i$

$\quad = \beta_0 + (\gamma_0+Z_i\gamma_1)\beta_1 + e_i$ 

となり, $u_i\beta_1 + \epsilon_i$は元々の誤差と説明変数を置き換えた誤差を加えたものでこれを, $e_i$とします。

ここで仮定より$E[e_i] = 0$です。

外生変数の時のようにただしく推定するには誤差項と説明変数が相関を持たないことが重要でした。

つまりここでは$(\gamma_0+Z_i\gamma_1)$が無相関である必要があります。つまり共分散が0となればいいので, そうなるかを確認してみます。

$Cov((\gamma_0+Z_i\gamma_1), e_i)$

$= E[(\gamma_0+Z_i\gamma_1)e_i]$

$= E[\gamma_0e_i]+E[Z_i\gamma_1e_i]$

$= \gamma_0E[e_i]+E[(Z_i\gamma_1)(u_i\beta_1 + \epsilon_i)]\quad(E[e_i]=0)$

$= 0 + \gamma_1\beta_1E[Z_iu_i] + \gamma_1E[Z_i\epsilon_1]\quad(E[Z_iu_i]=0, E[Z_i\epsilon_1]=0)$

$= 0$

従って, 内生変数バイアスが操作変数によって回避されます。実際$\beta_1$は,内生変数バイアスが消えることで,

$\beta_1 = \frac{Cov(\gamma_0+Z_i\gamma_1, Y_i)}{Var(\gamma_0+Z_i\gamma_1)}\quad(X_i = \gamma_0+Z_i\gamma_1より)$ 

### 操作変数法
操作変数法を実施するにあたり, 2段階最小二乗法という手法を用います。名前のとおり最小二乗法(線形回帰）を2回行うわけですが, ステップは以下の通りです。

1. (4)を最小二乗法（線形回帰）で推定して,$X_i$の予測値$\hat{X_i} = \hat{\gamma_0}+\hat{\gamma_1}Z_i$を得る

2. (1)の$X_i$を$\hat{X_i}$で置き換えて, 最小二乗法（線形回帰）で$\beta_1$を推定する

## 操作変数法のlinearmodelsを用いた実装方法について

https://bashtage.github.io/linearmodels/iv/examples/basic-examples.html

に掲載されている、例 Wages of Married Women から

まず、linearmodels　をインストールします。anaconda promptから

conda install -c conda-forge linearmodels

そして、以下を実行します。


In [1]:
#操作変数法のlinearmodelsを用いた実装
# https://bashtage.github.io/linearmodels/iv/examples/basic-examples.html
#に掲載されている、例 Wages of Married Women から
# まず、linearmodels　をインストールします。anaconda promptから
# conda install -c conda-forge linearmodels

import numpy as np
from linearmodels.datasets import mroz
from statsmodels.api import add_constant
#データの概要を表示する
print(mroz.DESCR)
data = mroz.load()
data = data.dropna()
data = add_constant(data, has_constant="add")


T.A. Mroz (1987), "The Sensitivity of an Empirical Model of Married Women's
Hours of Work to Economic and Statistical Assumptions," Econometrica 55,
765-799.

nlf        1 if in labor force, 1975
hours      hours worked, 1975
kidslt6    # kids < 6 years
kidsge6    # kids 6-18
age        woman's age in yrs
educ       years of schooling
wage       estimated wage from earns., hours
repwage    reported wage at interview in 1976
hushrs     hours worked by husband, 1975
husage     husband's age
huseduc    husband's years of schooling
huswage    husband's hourly wage, 1975
faminc     family income, 1975
mtr        fed. marginal tax rate facing woman
motheduc   mother's years of schooling
fatheduc   father's years of schooling
unem       unem. rate in county of resid.
city       =1 if live in SMSA
exper      actual labor mkt exper
nwifeinc   (faminc - wage*hours)/1000
lwage      log(wage)
expersq    exper^2



In [2]:
#操作変数法を利用するために、linearmodels.ivのIV2SLSパッケージをインポートする

from linearmodels.iv import IV2SLS

#まずは、通常の線形回帰と同じ分析をIV2SLSを用いて実施します。
#被説明変数として data.wage を対数化したもの(data.lwage)
#説明変数として const および educ を用いる
#IV2LS内のパラメータとしては
#IV2LS(被説明変数、説明変数、Endogenous、instruments)
#の順に指定する
#そのため、このモデルではEndotenousおよびInstrumentsは利用していない
res_ols = IV2SLS(np.log(data.wage), data[["const", "educ"]], None, None).fit(
    cov_type="unadjusted"
)
print(res_ols)

                            OLS Estimation Summary                            
Dep. Variable:                   wage   R-squared:                      0.1179
Estimator:                        OLS   Adj. R-squared:                 0.1158
No. Observations:                 428   F-statistic:                    57.196
Date:                Tue, Nov 15 2022   P-value (F-stat)                0.0000
Time:                        11:20:59   Distribution:                  chi2(1)
Cov. Estimator:            unadjusted                                         
                                                                              
                             Parameter Estimates                              
            Parameter  Std. Err.     T-stat    P-value    Lower CI    Upper CI
------------------------------------------------------------------------------
const         -0.1852     0.1848    -1.0022     0.3163     -0.5474      0.1770
educ           0.1086     0.0144     7.5628     0.00

In [3]:
res_ols = IV2SLS(data.lwage, data[["const", "educ"]], None, None).fit(
    cov_type="unadjusted"
)
print(res_ols)

                            OLS Estimation Summary                            
Dep. Variable:                  lwage   R-squared:                      0.1179
Estimator:                        OLS   Adj. R-squared:                 0.1158
No. Observations:                 428   F-statistic:                    57.196
Date:                Tue, Nov 15 2022   P-value (F-stat)                0.0000
Time:                        11:21:34   Distribution:                  chi2(1)
Cov. Estimator:            unadjusted                                         
                                                                              
                             Parameter Estimates                              
            Parameter  Std. Err.     T-stat    P-value    Lower CI    Upper CI
------------------------------------------------------------------------------
const         -0.1852     0.1848    -1.0022     0.3163     -0.5474      0.1770
educ           0.1086     0.0144     7.5628     0.00

この結果から、１年間の教育の増分は給与を10%ほど向上させることが確認できる。

In [4]:
#次に、上記モデルに操作変数を追加します。操作変数として「操作変数の考え方」にあるように、父親の教育を受けた期間を考えます。
#まずは、２段階最小二乗法の１回目の最小二乗法（線形回帰）を実施します。
#被説明変数：data.educ(女性が教育を受けた期間)
#説明変数：const および fatheduc(父親の教育を受けた期間)
#で通常の線形回帰を実施します。
#残差を引いた値（求めた回帰式に当てはまる値：予測値）を educ_hat　で保存する

res_first = IV2SLS(data.educ, data[["const", "fatheduc"]], None, None).fit(
    cov_type="unadjusted"
)
print(res_first)
data["educ_hat"] = data.educ - res_first.resids

                            OLS Estimation Summary                            
Dep. Variable:                   educ   R-squared:                      0.1726
Estimator:                        OLS   Adj. R-squared:                 0.1706
No. Observations:                 428   F-statistic:                    89.258
Date:                Tue, Nov 15 2022   P-value (F-stat)                0.0000
Time:                        11:23:35   Distribution:                  chi2(1)
Cov. Estimator:            unadjusted                                         
                                                                              
                             Parameter Estimates                              
            Parameter  Std. Err.     T-stat    P-value    Lower CI    Upper CI
------------------------------------------------------------------------------
const          10.237     0.2753     37.186     0.0000      9.6975      10.777
fatheduc       0.2694     0.0285     9.4476     0.00

父親の教育を受けた年数が女性が教育を受けた年数の増加に影響していることが確認できる

In [5]:
#そして、はじめのモデルに操作変数を追加し、IV2SLSで分析します。
#data.educ を Endogenous Variable
#data.fatheduc を Instruments Variable
#として利用する
res_second = IV2SLS(np.log(data.wage), data[["const"]], data.educ, data.fatheduc).fit(
    cov_type="unadjusted"
)
print(res_second)

                          IV-2SLS Estimation Summary                          
Dep. Variable:                   wage   R-squared:                      0.0934
Estimator:                    IV-2SLS   Adj. R-squared:                 0.0913
No. Observations:                 428   F-statistic:                    2.8487
Date:                Tue, Nov 15 2022   P-value (F-stat)                0.0914
Time:                        11:24:53   Distribution:                  chi2(1)
Cov. Estimator:            unadjusted                                         
                                                                              
                             Parameter Estimates                              
            Parameter  Std. Err.     T-stat    P-value    Lower CI    Upper CI
------------------------------------------------------------------------------
const          0.4411     0.4451     0.9911     0.3216     -0.4312      1.3134
educ           0.0592     0.0351     1.6878     0.09

操作変数をとして父親が教育を受けた年数をモデルに加えると、給与に対する女性の教育の効果が弱まることが確認できる。

In [6]:
#最後に、linearmodels.ivからcompareをインポートすることで、これまでの2つのモデル(線形回帰(OLS)と操作変数法(IV)）の出力結果を比較します。
#参考に、２段階最小二乗法の２回目の最小二乗法（線形回帰）で女性の教育年数の予測値と女性の賃金のlogとの線形回帰を行ったものも比較します。
#当然この結果はIVの出力と同じになります。

from linearmodels.iv import compare

res_direct = IV2SLS(np.log(data.wage), data[["const", "educ_hat"]], None, None).fit(
    cov_type="unadjusted"
)
print(compare({"OLS": res_ols, "2SLS": res_second, "Direct": res_direct}))

                         Model Comparison                        
                                OLS           2SLS         Direct
-----------------------------------------------------------------
Dep. Variable                 lwage           wage           wage
Estimator                       OLS        IV-2SLS            OLS
No. Observations                428            428            428
Cov. Est.                unadjusted     unadjusted     unadjusted
R-squared                    0.1179         0.0934         0.0060
Adj. R-squared               0.1158         0.0913         0.0037
F-statistic                  57.196         2.8487         2.5982
P-value (F-stat)          3.941e-14         0.0914         0.1070
const                       -0.1852         0.4411         0.4411
                          (-1.0022)       (0.9911)       (0.9465)
educ                         0.1086         0.0592               
                           (7.5628)       (1.6878)               
educ_hat  