### 操作変数法：内生変数バイアスへの対処
#### 内生変数を考慮しない回帰分析の場合
次の単純な回帰モデルを考える。

$$
Y_i=\beta_0+X_i\beta_1+\varepsilon_i,\hspace{50mm}i=1,\cdots,n
$$

説明変数は$X_i$のみで、$E[\varepsilon_i]=0$とする。
$X_i$が外生変数であるとき、$E[X_i\varepsilon_i]=Cov(X_i,\varepsilon_i)=0$が成立するから、
$$
\beta_1=\frac{Cov(X_i,Y_i)}{Var(X_i)}
$$

として$\beta_1$を求めることができる。
$Cov(X_i,\varepsilon_i),Var(X_i)$を標本分散、標本共分散に置き換えることで、実際のデータから$\beta_1$の値を推定することができる。

ここで、$X_i$が内生変数であるとき、$E[X_i\varepsilon_i]=Cov(X_i,\varepsilon_i)\neq0$となっているとする。
$$
Cov(X_i,Y_i)=Var(X_i)\beta_1+Cov(X_i,\varepsilon_i)
$$
だから、
$$
\frac{Cov(X_i,Y_i)}{Var(X_i)}=\beta_1+\frac{Cov(X_i,\varepsilon_i)}{Var(X_i)}\neq\beta_1
$$
となり、$\beta_1$に一致しない。特に、$Cov(X_i,\varepsilon_i)/Var(X_i)$は**内生変数バイアス**と呼ばれる。
内生変数バイアスの符号は、$Cov(X_i,\varepsilon_i)$に依存する。
#### 操作変数
**操作変数**とは、「内生変数の決定要因でありながら、回帰モデルの誤差項とは相関しない変数」のことを指す。
ここでは、操作変数を$Z_i$と書くこととする。
$$
X_i=\gamma_0+Z_i\gamma_1+u_i\\
E[Z_i\varepsilon_i]=Cov(Z_i,\varepsilon_i)=0
$$
を満たす。$E[u_i]=0,E[Z_iu_i]=0$であるとする。
$Z$は内生変数$X$の決定要因なので、$Z$の値を変化させることで、$X$の値を$\gamma_1$の値に応じて動かすことができる。
一方で、仮定より$Z$の変化に伴う$\varepsilon$の変化は平均的に無視できる。
したがって、「「$Z$に起因する$X$の値の変化」による$Y$への影響」を調べることで、間接的に$X$が$Y$に与える影響を調べることができる。
回帰モデルの$X_i$を「$Z_i$によって説明できる$X_i$の値」に置き換える。
$$
Y_i=\beta_0+(\gamma_0+Z_i\gamma_1)\beta_1+e_i
$$
ただし、
$$
\begin{align}
e_i&=[X_i-\gamma_0-Z_i\gamma_1]\beta_1+\varepsilon_i\\
&=u_i\beta_1+\varepsilon_i
\end{align}
$$
となり、仮定から$E[e_i]=0$が成立する。
ここで、説明変数に相当する$(\gamma_0+Z_i\gamma_1)$と誤差項$e_i$が無相関である必要がある。
$$
\begin{align}
E[(\gamma_0+Z_i\gamma_1)e_i]&=\gamma_0E[e_i]+E[(Z_i\gamma_1)(u_i\beta_1+\varepsilon_i)]\\
&=\gamma_1\beta_1E[Z_iu_i]+\gamma_1E[Z_i\varepsilon_i]\\
&=0
\end{align}
$$
が成立している。
説明変数$X_i$が内生変数であっても、適切な操作変数$Z_i$が存在すれば、$X_i$を$\gamma_0+Z_i\gamma_1$に置き換えて回帰分析を実行することで、内生変数バイアスを回避して$\beta_1$を求めることができる。
$$
\begin{align}
\beta_1&=\frac{Cov(\gamma_0+Z_i\gamma_1,Y_i)}{Var(\gamma_0+Z_i\gamma_1)}\\
&=\frac{Cov(Z_i\gamma_1,Y_i)}{Var(Z_i\gamma_1)}\\
&=\frac{Cov(Z_i,Y_i)}{Var(Z_i)\gamma_1}
\end{align}
$$
である。
### 操作変数法の実施：２段階最小二乗法
#### 2段階最小二乗法
ここでは、一般的な重回帰モデルを考える。

$$
Y_i=\beta_0+X_{1i}\beta_1+X_{2i}\beta_2+\varepsilon_i\\
X_{1i}=\gamma_0+Z_{i}\gamma_1+X_{2i}\gamma_2+u_i
$$

ここで、$X_{1i}$は内生変数($E{X_{1i}\varepsilon_i}=0$)、$X_{2i}$は外生変数であるとし($E{X_{2i}\varepsilon_i}\neq0$)、$X_{1i}$について操作変数$Z_i$が存在すると仮定する($E{Z_{i}\varepsilon_i}=0$)。
$X_{1i}$の式には、操作変数$Z_i$だけでなく、外生変数$X_{2i}$も説明変数として含まれる。
このように定式化することで、$X_{1i$に関する推定誤差が$X_{2i}$と相関することを防いでいる。
仮に$(\gamma_0,\gamma_1,\gamma_2)$の値がわかっているならば、$X_{1i}$を$\gamma_0+Z_{1i}\gamma_1+Z_{2i}\gamma_2$に置き換えて、$Y_i$を回帰すれば、$(\beta_0,\beta_1,\beta_2)$を求めることができる。
しかし、実際には未知であるので、それらを推定する必要がある。
いま、データとして$\{(Y_i,X_{1i},X_{2i},Z_i):i=1,\cdots,n\}$が得られているとする。
以下の手順で$(\beta_0,\beta_1,\beta_2)$の推定を行う。

1. 内生変数$X_{1i}$を回帰し、$(\gamma_0,\gamma_1,\gamma_2)$の推定値$(\hat{\gamma}_0,\hat{\gamma}_1,\hat{\gamma}_2)$を最小二乗法によって得る
2. 各$i$について、$\hat{X}_{1i}=\hat{\gamma}_0+Z_i\hat{\gamma}_1+X_{2i}\hat{\gamma}_2$を計算する
3. $Y_i$を回帰し、$(\beta_0,\beta_1,\beta_2)$の推定値$(\hat{\beta}_0,\hat{\beta}_1,\hat{\beta}_2)$を最小二乗法によって得る

このように最小二乗法を2段階で実施する推定方法を、2段階最小二乗法という。

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib

data = pd.read_csv('C:/Users/tanak/study/参考書/Rによる実証分析/R_EmpiricalAnalysis/02 演習用データ集/hwage_education.csv')
data.head()

Unnamed: 0,hwage,educ,exper,feduc,meduc
0,1745.660702,14,15,12,15
1,1620.548308,15,12,16,18
2,1193.837994,16,2,14,13
3,1447.032417,18,5,17,16
4,2632.137529,18,30,13,13


このデータは400人に関する、時給賃金(hwage)、教育年数(educ)、職業の経験年数(exper)、父親の教育年数(feduc)、母親の教育年数(meduc)のデータが含まれている。
このデータにおいて、教育年数1年の増加が時給に与える影響は、30円であることがあらかじめわかっている。
教育年数は賃金に関して内生変数であると見なされるが、まずは教育年数が外生変数であると仮定して回帰分析を実施する。

In [2]:
import  statsmodels.api as sm

df_X = sm.add_constant(data[['educ','exper']])
df_y = data['hwage']

model = sm.OLS(df_y, df_X)
result = model.fit()
print(result.summary())

                            OLS Regression Results                            
Dep. Variable:                  hwage   R-squared:                       0.995
Model:                            OLS   Adj. R-squared:                  0.995
Method:                 Least Squares   F-statistic:                 4.321e+04
Date:                Tue, 12 Apr 2022   Prob (F-statistic):               0.00
Time:                        19:57:25   Log-Likelihood:                -1937.1
No. Observations:                 400   AIC:                             3880.
Df Residuals:                     397   BIC:                             3892.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        494.3182     10.348     47.768      0.0

この結果では、教育年数$X_1$の係数$\beta_1$はおよそ37と推定されている。
ここで、$\beta_1$の真の値は30であったから、教育年数の効果を誤って過大評価しているようである。
次に、2段階最小二乗法によって推定を行う。

In [8]:
# 2段階最小二乗法
# 1段階目
df_Z = sm.add_constant(data[['exper','feduc', 'meduc']])
df_X1 = data['educ']

model1 = sm.OLS(df_X1, df_Z)
result1 = model1.fit()

# 推定値を説明変数とする
data['X1hat'] = result1.predict()

# 2段階目
df_X = sm.add_constant(data[['X1hat', 'exper']])
df_y = data['hwage']

model2 = sm.OLS(df_y, df_X)
result2 = model2.fit()
print(result2.summary())

                            OLS Regression Results                            
Dep. Variable:                  hwage   R-squared:                       0.961
Model:                            OLS   Adj. R-squared:                  0.961
Method:                 Least Squares   F-statistic:                     4933.
Date:                Tue, 12 Apr 2022   Prob (F-statistic):          4.21e-281
Time:                        20:06:37   Log-Likelihood:                -2364.1
No. Observations:                 400   AIC:                             4734.
Df Residuals:                     397   BIC:                             4746.
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const        589.9032     68.939      8.557      0.0

2段階最小二乗法によって得られた$\beta_1$の推定値はおよそ30.8で真の値である30により近い値となった。
#### 操作変数の強弱
操作変数の強弱は操作変数法の有効性を左右する問題である。
$\gamma_1=0$だとすると、$\hat{\beta}_1$は$\beta_1$の推定量として意味ある値をとらない。
操作変数の強弱を判定する簡単な方法は、$\gamma_1$の推定値が有意に0と異なるかを調べる方法である。

In [9]:
print(result1.summary())

                            OLS Regression Results                            
Dep. Variable:                   educ   R-squared:                       0.178
Model:                            OLS   Adj. R-squared:                  0.172
Method:                 Least Squares   F-statistic:                     28.63
Date:                Tue, 12 Apr 2022   Prob (F-statistic):           8.94e-17
Time:                        22:00:44   Log-Likelihood:                -882.10
No. Observations:                 400   AIC:                             1772.
Df Residuals:                     396   BIC:                             1788.
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          5.9323      1.119      5.301      0.0

今回の例の場合、1段目の推定において、父親の教育年数・母親の教育年数ともにその係数は有意に0ではない。
したがって、これらの操作変数は十分に強いとみなせる。
もし使用している操作変数が弱い場合には、問題の根本的な解決策は「他の操作変数を探す」以外ない。

### 因果分析としての解釈
#### モデル設定
操作変数法は因果分析と密接な関係がある。
ここでトリートメント変数$T_i$を1もしくは0の値をとる内生変数とする。
ルービンの因果モデルに従って、$T_i=1$のときに得られる成果を$Y_{1i}$、$T_i=0$のときに得られる成果を$Y_{0i}$とかく。
観測できる成果は
$$
Y_i=T_iY_{1i}+(1-T_i)Y_{0i}
$$
と表される。
さらに、内生変数$T_i$について操作変数$Z_i$が存在し、$Z_i$もまた1もしくは0の値をとるダミー変数であるとする。
たとえば、$Y_i$を個人$i$の賃金、$T_i$は個人$i$の最終学歴が大学以上ならば1を、未満ならば0をとる変数、$Z_i$は個人$i$が子供のころに大学の近くに住んでいれば1を、そうでないなら0をとる変数、といった状況がこの設定にあてはまる。
$T$と$Z$の組み合わせから、各個人$i$は次の4つのカテゴリに分類できる。

- Always-Taker　$Z$が(0,1)どちらの値であっても、必ず$T=1$を選択
「子供のころに大学の近くに住んでいようといまいと、大学に進学する」人たち
- Naver-Taker　$Z$が(0,1)どちらの値であっても、必ず$T=0$を選択
「子供のころに大学の近くに住んでいようといまいと、大学に進学しない」人たち
- Complier　　$Z=1$ならば$T=1$を選択し、$Z=0$ならば$T=0$を選択
「子供のころに大学の近くに住んでいれば大学に進学し、そうでないなら進学しない」人たち
- Defier　　$Z=0$ならば$T=1$を選択し、$Z=1$ならば$T=0$を選択
「子供のころに大学の近くに住んでいれば大学に進学せず、そうでないなら進学する」人たち

ここで、Defierに属するひねくれた人はいないと仮定する。
#### Local Average Treatment Effect
次のような回帰モデルを考える。

$$
Y_i=\beta_0+T_i\beta_1+\varepsilon_i\\
T_i=\gamma_0+Z_i\gamma_1+u_i
$$

すると、$\beta_1$は

$$
\beta_1=\frac{Cov(Z_i,Y_i)}{[Var(Z_i)\gamma_1]}
$$

として求めることができるが、実は$Z_i$が(0,1)の2値変数である場合には、

$$
\begin{align}
\beta_1&=\frac{Cov(Z_i,Y_i)}{[Var(Z_i)\gamma_1]}\\
&=\frac{E[Y_i|Z_i=1]-E[Y_i|Z_i=0]}{E[T_i|Z_i=1]-E[T_i|Z_i=0]}
\end{align}
$$

と表すことができる。(導出は参考書参照)
「$Z_i$と個人$i$がAlways-taker/Never-Taker/Complierのいずれかであるかは独立である」と仮定する。したがって、

$$
P(iがAlways-Taker|Z_i=1)=P(iがAlways-Taker|Z_i=0)=p_{AT}\\
P(iがNever-Taker|Z_i=1)=P(iがNever-Taker|Z_i=0)=p_{NT}\\
P(iがComplier|Z_i=1)=P(iがComplier|Z_i=0)=p_{C}
$$

のように書くことができる。
すると、

$$
\begin{align}
E[Y_i|Z_i=1]&=E[Y_i|Z_i=1,iがAlways-Taker]P(iがAlways-Taker|Z_i=1)+E[Y_i|Z_i=1,iがNever-Taker]P(iがNever-Taker|Z_i=1)+E[Y_i|Z_i=1,iがComplier]P(iがComplier|Z_i=1)\\
&=E[Y_{1i}|Z_i=1,iがAlways-Taker]p_{AT}+E[Y_{0i}|Z_i=1,iがNever-Taker]p_{NT}+E[Y_{1i}|Z_i=1,iがComplier]p_C
\end{align}
$$

を得る。同様に、

$$
E[Y_i|Z_i=0]=E[Y_{1i}|Z_i=0,iがAlways-Taker]p_{AT}+E[Y_{0i}|Z_i=0,iがNever-Taker]p_{NT}+E[Y_{0i}|Z_i=0,iがComplier]p_C
$$

したがって、

$$
E[Y_i|Z_i=1]-E[Y_i|Z_i=0]=\{E[Y_{1i}|Z_i=1,iがComplier]-E[Y_{0i}|Z_i=0,iがComplier]\}p_C
$$

と表すことがでｋる。
また、
$$
E[T_i|Z_i=1]=p_{AT}+p_C\\
E[T_i|Z_i=0]=p_{AT}
$$

である。
したがって、

$$
E[T_i|Z_i=1]-E[T_i|Z_i=0]=p_C
$$

となる。
結果として、

$$
\beta_1=E[Y_{1i}-Y_{0i}|iがComplier]
$$

が得られる。
操作変数法における$\beta_1$の値は、Complierに対する平均的なトリートメントの因果的効果に相当することが分かる。
この「Complierに対する平均トリートメント効果」を、**LATE(Local Average Treatment Effect)**と呼ぶ。