# 計量経済学（有斐閣）_７章_操作変数法勉強
[リンク](https://www.yuhikaku.co.jp/books/detail/9784641053854)

## これは何？
上記リンクの本の7章の操作変数について書籍で扱われているデータを元に実際に計算を試みることで、自分の計算理解があっているかを確認する

## モジュールインポート

In [42]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

## データ読み込み・確認

In [43]:
# 読み込み
df = pd.read_csv('ipehd_qje2009_master.csv')

# 必要なカラムのみを取得し、カラム名をリネームする
raw_df = df.copy()
df = df[['kmwittenberg', 'f_prot', 'f_rw']]
df = df.rename(columns={
    'kmwittenberg':'Z', # ヴィッテンベルクからの距離
    'f_prot':'D',       # 新教徒率
    'f_rw':'Y'          # 識字率

})
df

Unnamed: 0,Z,D,Y
0,703.280029,92.926834,68.606926
1,585.739990,98.280365,80.402878
2,611.419983,92.722054,90.051041
3,611.419983,99.350861,75.260162
4,653.890015,99.143509,68.227699
...,...,...,...
447,487.839996,0.609857,91.437187
448,486.739990,3.336322,98.423653
449,470.820007,1.951110,98.832687
450,470.630005,2.677881,97.414383


## p275: 実証例7.1 単回帰モデルの操作変数推定
書籍より、OLS推定の結果は、

識字率_hat_{i} = 82.374 + 0.080 × 新教徒率_{i} (7.5)

R_squared = 0.055, N = 452

In [44]:
# 説明変数（D）と目的変数（Y）を定義
X = df['D']
Y = df['Y']

# 定数項（切片）を追加
X = sm.add_constant(X)

# 回帰モデルの定義とフィッティング
model = sm.OLS(Y, X).fit()

# 結果を表示
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      Y   R-squared:                       0.057
Model:                            OLS   Adj. R-squared:                  0.055
Method:                 Least Squares   F-statistic:                     27.20
Date:                Sat, 29 Mar 2025   Prob (F-statistic):           2.80e-07
Time:                        16:09:54   Log-Likelihood:                -1775.4
No. Observations:                 452   AIC:                             3555.
Df Residuals:                     450   BIC:                             3563.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         82.3742      1.142     72.121      0.0

各数値がほぼほぼ一致していることから、データ・カラムの理解は誤っていないと考えられる

## p275: 実証例7.1 操作変数推定
書籍より、操作変数推定の結果は、

識字率_hat_{i} = 60.451 + 0.422 × 新教徒率_{i} (7.6)

N = 452

In [48]:
def calculate_iv_estimator(df: pd.DataFrame):
    '''操作変数推定量を算出
    
    Args:
        df(pd.DataFrame): 効果検証対象となるデータフレーム

    Returns:
        iv_estimator

    '''
    average_z = df['Z'].mean()
    average_y = df['Y'].mean()
    average_d = df['D'].mean()
    beta_hat_1_iv = np.sum((df['Z'] - average_z) * (df['Y'] - average_y)) / np.sum((df['Z'] - average_z) * (df['D'] - average_d))
    iv_estimator = beta_hat_1_iv
    
    return iv_estimator


In [49]:
iv_estimator = calculate_iv_estimator(df=df)
print(f'操作変数推定量: {iv_estimator:,.3f}')

操作変数推定量: 0.422


一致しており、操作変数推定量の計算は誤っていないと考えられる

## p280: 実証例7.2 操作変数推定量標準誤差
書籍より、操作変数推定の結果は、

識字率_hat_{i} = 60.451 + 0.422 × 新教徒率_{i} (7.10)

└標準誤差 0.071

N = 452

であり、操作変数推定量の標準誤差は0.071である

In [50]:
def calculate_iv_estimator_se(df: pd.DataFrame):    
    '''操作変数推定量の標準誤差を算出
    
    Args:
        df(pd.DataFrame): 効果検証対象となるデータフレーム

    Returns:
        iv_estimator_se

    '''
    iv_estimator = calculate_iv_estimator(df=df)
    
    # 操作変数推定量の標準誤差を算出する
    average_y = df['Y'].mean()
    average_d = df['D'].mean()
    beta_hat_0_iv = average_y - iv_estimator * average_d
    mu_hat_i = df['Y'] - beta_hat_0_iv -  iv_estimator * df['D']
    # ルート((1/N)*hoge)のhoge部分の分子と分母を計算する
    # 分子: N-2で割ることで自由度を修正する
    numerator = (((df['Z'] - df['Z'].mean())**2)*(mu_hat_i**2)).sum() / (len(df) - 2)
    # 分母
    denominator = ((((df['Z'] - df['Z'].mean()) * (df['D'] - df['D'].mean())) / len(df)).sum())**2
    # 操作変数推定量の標準誤差
    se_beta_hat_1_iv = np.sqrt((1/len(df))*(numerator/denominator))
    iv_estimator_se = se_beta_hat_1_iv

    return iv_estimator_se

In [51]:
iv_estimator_se = calculate_iv_estimator_se(df=df)
print(f'操作変数推定量の標準誤差: {iv_estimator_se:,.3f}')

操作変数推定量の標準誤差: 0.071


一致しており、操作変数推定量の標準誤差の計算は誤っていないと考えられる

## p298: 実証例7.4 操作変数の強さの判定
書籍より、1段階目の推定結果は

新教徒率_hat_{i} = -0.095 × 距離 + コントロール変数

└標準誤差 0.011

R_squared = 0.402, N = 452

であり、t値は -0.095 / 0.011 = -8.64

1つの係数に関するF統計量はt統計量の2乗であるので、おおよそ74.58

これは10より大幅に大きいため、操作変数は十分に強い

In [54]:
# 説明変数（D）と目的変数（Y）を定義
X = df['Z']
Y = df['D']

# 定数項（切片）を追加
X = sm.add_constant(X)

# 回帰モデルの定義とフィッティング
model = sm.OLS(Y, X).fit(ov_type='HC1')

# 結果を表示
print(model.summary())
print('')
Z_tstat = model.tvalues[1]
Z_fstat = Z_tstat**2
print(f'F統計量: {Z_fstat:,.2f}')

                            OLS Regression Results                            
Dep. Variable:                      D   R-squared:                       0.135
Model:                            OLS   Adj. R-squared:                  0.133
Method:                 Least Squares   F-statistic:                     70.46
Date:                Sat, 29 Mar 2025   Prob (F-statistic):           6.15e-16
Time:                        16:31:43   Log-Likelihood:                -2250.2
No. Observations:                 452   AIC:                             4504.
Df Residuals:                     450   BIC:                             4513.
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const         94.7005      3.995     23.702      0.0

各数値がほぼほぼ一致していることから、データ・カラムの理解は誤っていないと考えられる