$n$個のデータ$(x_1,y_1),...(x_n,y_n)$が観測され、各$y_i$が

$$
y_i=\alpha +\beta x_i+u_i,\ i=1,...,n
$$

が得られます。

最小二乗法による、
$$
\hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\frac{標本共分散(x_i,y_i)}{標本分散(x_i)}
$$

$$
\hat{\alpha}=\hat{y}-\hat{\beta}\bar{x}
$$

で回帰モデルの係数を推定することができる。

以下は、仮想データを作成し、回帰モデルの係数推定式によって計算した結果が真の値にどれほど近づくかを検証するためのコードである
このコードに基づいて、課題に解答しなさい。

In [None]:
# 線形回帰モデルのデータをシミュレーションで生成します
import numpy as np

# サンプルデータ
# パラメータ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# ノイズ項を標準正規分布から生成
epsilon = np.random.normal(loc=0, scale=1, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon

In [None]:
# パラメータの推定
x_mean = np.mean(x)
y_mean = np.mean(y)

# β₁の推定
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sum((x - x_mean) ** 2)
beta = numerator / denominator
print("beta: ", beta)
# β₀の推定
alpha = y_mean - beta * x_mean

print("alpha: ", alpha)

beta:  0.7886852620033131
alpha:  2.455219608724903


# 課題1

母集団回帰係数、誤差項とサンプルサイズを指定し、観測データ($x$,$y$)を生成する関数を作成しなさい

In [None]:
import numpy as np

def generate_data(beta_0, beta_1, sigma, n, x_low=0, x_high=10, random_seed=None):
    if random_seed is not None:
        np.random.seed(random_seed)
    x = np.random.uniform(low=x_low, high=x_high, size=n)
    epsilon = np.random.normal(loc=0, scale=sigma, size=n)
    y = beta_0 + beta_1 * x + epsilon
    return x, y

beta_0 = 1
beta_1 = 1
sigma = 1
n = 100

x, y = generate_data(beta_0, beta_1, sigma, n, random_seed=42)
print(x[:5])
print(y[:5])

[3.74540119 9.50714306 7.31993942 5.98658484 1.5601864 ]
[ 4.83244826 10.20813571  8.41170019  4.99901593  2.34051452]


# 課題2

観測データ($x$,$y$)で、最小二乗法で回帰係数を推定する関数を作成しなさい

In [None]:
import numpy as np

def ols_estimate(x, y):
    x_mean = np.mean(x)
    y_mean = np.mean(y)
    beta = np.sum((x - x_mean) * (y - y_mean)) / np.sum((x - x_mean) ** 2)
    alpha = y_mean - beta * x_mean
    return alpha, beta

# 課題3

- 一定な母集団回帰係数、誤差項サンプルサイズを設定し、観測データを作成し、回帰係数を推定するといった推定プロセスを100回を行いなさい。
- 毎回の推定値を格納し、その平均と標準偏差を計算しなさい。
- サンプルサイズが $20, 50, 100, 200, 500,1000$である場合、推定値の平均と標準偏差を比較しなさい

In [None]:
import numpy as np

def generate_data(beta_0, beta_1, sigma, n):
    x = np.random.uniform(0, 10, n)
    epsilon = np.random.normal(0, sigma, n)
    y = beta_0 + beta_1 * x + epsilon
    return x, y

def ols_estimate(x, y):
    x_mean = np.mean(x)
    y_mean = np.mean(y)
    beta = np.sum((x - x_mean) * (y - y_mean)) / np.sum((x - x_mean) ** 2)
    alpha = y_mean - beta * x_mean
    return alpha, beta

beta_0_true = 2.5
beta_1_true = 0.8
sigma = 1.0
sample_sizes = [20, 50, 100, 200, 500, 1000]

results = []

for n in sample_sizes:
    alpha_list = []
    beta_list = []
    for _ in range(100):
        x, y = generate_data(beta_0_true, beta_1_true, sigma, n)
        alpha_hat, beta_hat = ols_estimate(x, y)
        alpha_list.append(alpha_hat)
        beta_list.append(beta_hat)
    alpha_mean = np.mean(alpha_list)
    alpha_std = np.std(alpha_list)
    beta_mean = np.mean(beta_list)
    beta_std = np.std(beta_list)
    results.append((n, alpha_mean, alpha_std, beta_mean, beta_std))

for r in results:
    print(f"n={r[0]}  alpha_mean={r[1]:.4f}  alpha_std={r[2]:.4f}  beta_mean={r[3]:.4f}  beta_std={r[4]:.4f}")


n=20  alpha_mean=2.4818  alpha_std=0.4321  beta_mean=0.8065  beta_std=0.0769
n=50  alpha_mean=2.4902  alpha_std=0.2813  beta_mean=0.8004  beta_std=0.0494
n=100  alpha_mean=2.4949  alpha_std=0.2229  beta_mean=0.7989  beta_std=0.0393
n=200  alpha_mean=2.5040  alpha_std=0.1612  beta_mean=0.8002  beta_std=0.0274
n=500  alpha_mean=2.5072  alpha_std=0.0803  beta_mean=0.8003  beta_std=0.0148
n=1000  alpha_mean=2.5027  alpha_std=0.0589  beta_mean=0.7990  beta_std=0.0104
