$n$個のデータ$(x_1,y_1),...(x_n,y_n)$が観測され、各$y_i$が

$$
y_i=\alpha +\beta x_i+u_i,\ i=1,...,n
$$

が得られます。

最小二乗法による、
$$
\hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\frac{標本共分散(x_i,y_i)}{標本分散(x_i)}
$$

$$
\hat{\alpha}=\hat{y}-\hat{\beta}\bar{x}
$$

で回帰モデルの係数を推定することができる。

以下は、仮想データを作成し、回帰モデルの係数推定式によって計算した結果が真の値にどれほど近づくかを検証するためのコードである
このコードに基づいて、課題に解答しなさい。

In [1]:
# 線形回帰モデルのデータをシミュレーションで生成します
import numpy as np

# サンプルデータ
# パラメータ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# ノイズ項を標準正規分布から生成
epsilon = np.random.normal(loc=0, scale=1, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon

In [3]:
# パラメータの推定
x_mean = np.mean(x)
y_mean = np.mean(y)

# β₁の推定
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sum((x - x_mean) ** 2)
beta = numerator / denominator
print("beta: ", beta)
# β₀の推定
alpha = y_mean - beta * x_mean

print("alpha: ", alpha)

beta:  0.823481103136274
alpha:  2.471159826636163


# 課題1

母集団回帰係数、誤差項とサンプルサイズを指定し、観測データ($x$,$y$)を生成する関数を作成しなさい

In [9]:
import numpy as np

def simulate_data_generation(beta_0, beta_1, sigma, n):

    # 説明変数xを一様分布から生成
    x = np.random.uniform(low=0, high=10, size=n)

    # 誤差項epsilonを正規分布から生成
    epsilon = np.random.normal(loc=0, scale=sigma, size=n)

    # 目的変数yを線形回帰モデルに従って生成
    y = beta_0 + beta_1 * x + epsilon

    return x, y

In [14]:
# 使用例
x_sim, y_sim = simulate_data_generation(beta_0=2.5, beta_1=0.8, sigma=1.0, n=100)
print("x_sim:", x_sim[:5])
print("y_sim:", y_sim[:5])

x_sim: [6.51368107 3.67871934 3.3521553  8.59023837 7.35074347]
y_sim: [ 7.18244157  5.66264442  6.73839622 10.60350253  8.02393516]


# 課題2

観測データ($x$,$y$)で、最小二乗法で回帰係数を推定する関数を作成しなさい

In [16]:
def estimate_coefficients(x, y):

    x_mean = np.mean(x)
    y_mean = np.mean(y)

    numerator = np.sum((x - x_mean) * (y - y_mean))
    denominator = np.sum((x - x_mean) ** 2)
    beta_0 = numerator / denominator
    beta_1 = y_mean - beta_0 * x_mean

    return beta_0, beta_1

In [17]:
beta_0, beta_1 = estimate_coefficients(x_sim, y_sim)
print("推定された切片:", beta_0)
print("推定された傾き:", beta_1)

推定された切片: 0.8265490136328337
推定された傾き: 2.387570351200826


# 課題3

- 一定な母集団回帰係数、誤差項サンプルサイズを設定し、観測データを作成し、回帰係数を推定するといった推定プロセスを100回を行いなさい。
- 毎回の推定値を格納し、その平均と標準偏差を計算しなさい。
- サンプルサイズが $20, 50, 100, 200, 500,1000$である場合、推定値の平均と標準偏差を比較しなさい

In [11]:
beta_0_true = 2.5
beta_1_true = 0.8
sigma_true = 1.0
sample_sizes = [20, 50, 100, 200, 500, 1000]

In [18]:
def run_simulation(sample_size, beta_0_true, beta_1_true, sigma_true):
    x, y = simulate_data_generation(beta_0_true, beta_1_true, sigma_true, sample_size)
    beta_0_est, beta_1_est = estimate_coefficients(x, y)
    return beta_0_est, beta_1_est

In [20]:
for sample_size in sample_sizes:
    beta_0_est, beta_1_est = run_simulation(sample_size, beta_0_true, beta_1_true, sigma_true)
    print(f"サンプルサイズ: {sample_size}, 推定された切片: {beta_0_est:.3f}, 推定された傾き: {beta_1_est:.3f}")

サンプルサイズ: 20, 推定された切片: 0.786, 推定された傾き: 2.334
サンプルサイズ: 50, 推定された切片: 0.823, 推定された傾き: 2.240
サンプルサイズ: 100, 推定された切片: 0.759, 推定された傾き: 2.779
サンプルサイズ: 200, 推定された切片: 0.806, 推定された傾き: 2.528
サンプルサイズ: 500, 推定された切片: 0.813, 推定された傾き: 2.446
サンプルサイズ: 1000, 推定された切片: 0.808, 推定された傾き: 2.489
