$n$個のデータ$(x_1,y_1),...(x_n,y_n)$が観測され、各$y_i$が

$$
y_i=\alpha +\beta x_i+u_i,\ i=1,...,n
$$

が得られます。

最小二乗法による、
$$
\hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\frac{標本共分散(x_i,y_i)}{標本分散(x_i)}
$$

$$
\hat{\alpha}=\hat{y}-\hat{\beta}\bar{x}
$$

で回帰モデルの係数を推定することができる。

以下は、仮想データを作成し、回帰モデルの係数推定式によって計算した結果が真の値にどれほど近づくかを検証するためのコードである
このコードに基づいて、課題に解答しなさい。

In [1]:
# 線形回帰モデルのデータをシミュレーションで生成します
import numpy as np

# サンプルデータ
# パラメータ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# ノイズ項を標準正規分布から生成
epsilon = np.random.normal(loc=0, scale=1, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon

In [2]:
# パラメータの推定
x_mean = np.mean(x)
y_mean = np.mean(y)

# β₁の推定
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sum((x - x_mean) ** 2)
beta = numerator / denominator
print("beta: ", beta)
# β₀の推定
alpha = y_mean - beta * x_mean

print("alpha: ", alpha)

beta:  0.7636749316116201
alpha:  2.614096997822085


# 課題1

母集団回帰係数、誤差項とサンプルサイズを指定し、観測データ($x$,$y$)を生成する関数を作成しなさい

In [35]:
def sampledata(Beta_0, Beta_1, N):
    # 説明変数を一様分布から生成
    X = np.random.uniform(low=0, high=10, size=N)

    # ノイズ項を標準正規分布から生成
    Epsilon = np.random.normal(loc=0, scale=1, size=N)

    # 目的変数を生成
    Y = Beta_0 + Beta_1 * X + Epsilon

    return(X, Y)  


In [36]:
sampledata(2, 0.5, 25)

(array([4.7712034 , 7.73699324, 9.11386694, 4.66300466, 6.37714161,
        6.93857432, 0.23932892, 1.84533904, 7.88518658, 9.85950453,
        0.94634485, 3.61586326, 7.02824211, 8.14437155, 2.68832195,
        5.11153808, 2.35499986, 9.56702178, 1.6853712 , 2.92105158,
        4.91653382, 7.52336626, 9.93832809, 4.56935155, 7.38710447]),
 array([6.68974629, 6.24016233, 8.46119378, 4.24042015, 4.63831663,
        6.71472565, 2.70210867, 3.8814418 , 3.82825474, 7.64871962,
        3.57543183, 2.74188457, 5.53082196, 6.41834974, 3.24821273,
        3.7536155 , 1.73636117, 6.38630971, 2.26557781, 2.8453542 ,
        4.36196391, 4.56414042, 8.67528196, 3.76498162, 3.73717387]))

# 課題2

観測データ($x$,$y$)で、最小二乗法で回帰係数を推定する関数を作成しなさい

In [32]:
def estimate_ols(x, y):
    # パラメータの推定
    x_mean = np.mean(x)
    y_mean = np.mean(y)

    # β₁の推定
    numerator = np.sum((x - x_mean) * (y - y_mean))
    denominator = np.sum((x - x_mean) ** 2)
    beta = numerator / denominator
    
    # β₀の推定
    alpha = y_mean - beta * x_mean

    return alpha, beta

In [None]:
X1, Y1 = sampledata(2, 0.5, 25)
estimate_ols(X1, Y1)

(2.064556437599342, 0.5390005443311042)

# 課題3

- 一定な母集団回帰係数、誤差項サンプルサイズを設定し、観測データを作成し、回帰係数を推定するといった推定プロセスを100回を行いなさい。
- 毎回の推定値を格納し、その平均と標準偏差を計算しなさい。
- サンプルサイズが $20, 50, 100, 200, 500,1000$である場合、推定値の平均と標準偏差を比較しなさい

In [43]:
sample_size = [20, 50, 100, 200, 500, 1000]
for i in sample_size:
    list_beta = []
    list_alpha = []
    for j in range(100):
        X, Y = sampledata(2, 0.5, i)
        beta, alpha = estimate_ols(X, Y)
        list_beta.append(beta)
        list_alpha.append(alpha)
    mean_beta = np.mean(list_beta)
    mean_alpha = np.mean(list_alpha)
    sd_beta = np.std(list_beta)
    sd_alpha = np.std(list_alpha)
    print(f"サンプル数{i}のとき")
    print(f"傾きの推定値の平均：{mean_beta}、標準偏差：{sd_beta}")
    print(f"切片の推定値の平均：{mean_alpha}、標準偏差：{sd_alpha}")
    print("----------")


サンプル数20のとき
傾きの推定値の平均：2.0054300464507233、標準偏差：0.4163841601654253
切片の推定値の平均：0.49604095601586295、標準偏差：0.08365369088549152
----------
サンプル数50のとき
傾きの推定値の平均：2.006820228743492、標準偏差：0.2443231057033962
切片の推定値の平均：0.49445586255909474、標準偏差：0.03976091628935249
----------
サンプル数100のとき
傾きの推定値の平均：1.99192989043811、標準偏差：0.19342597178025653
切片の推定値の平均：0.5019045858247452、標準偏差：0.03176601207824797
----------
サンプル数200のとき
傾きの推定値の平均：1.983354396160823、標準偏差：0.132904042876727
切片の推定値の平均：0.5035812827053271、標準偏差：0.023176176812998106
----------
サンプル数500のとき
傾きの推定値の平均：1.9988087543614415、標準偏差：0.08513985501057046
切片の推定値の平均：0.5007746230283616、標準偏差：0.01480562097776544
----------
サンプル数1000のとき
傾きの推定値の平均：1.996384532674854、標準偏差：0.06847525137576337
切片の推定値の平均：0.5011479092165688、標準偏差：0.011578826270026777
----------
