$n$個のデータ$(x_1,y_1),...(x_n,y_n)$が観測され、各$y_i$が

$$
y_i=\alpha +\beta x_i+u_i,\ i=1,...,n
$$

が得られます。

最小二乗法による、
$$
\hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\frac{標本共分散(x_i,y_i)}{標本分散(x_i)}
$$

$$
\hat{\alpha}=\hat{y}-\hat{\beta}\bar{x}
$$

で回帰モデルの係数を推定することができる。

以下は、仮想データを作成し、回帰モデルの係数推定式によって計算した結果が真の値にどれほど近づくかを検証するためのコードである
このコードに基づいて、課題に解答しなさい。

In [2]:
# 線形回帰モデルのデータをシミュレーションで生成します
import numpy as np

# サンプルデータ
# パラメータ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# ノイズ項を標準正規分布から生成
epsilon = np.random.normal(loc=0, scale=1, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon

In [3]:
# パラメータの推定
x_mean = np.mean(x)
y_mean = np.mean(y)

# β₁の推定
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sum((x - x_mean) ** 2)
beta = numerator / denominator
print("beta: ", beta)
# β₀の推定
alpha = y_mean - beta * x_mean

print("alpha: ", alpha)

beta:  0.823481103136274
alpha:  2.471159826636163


# 課題1

母集団回帰係数、誤差項とサンプルサイズを指定し、観測データ($x$,$y$)を生成する関数を作成しなさい

In [None]:
def generate_regression_data(alpha, beta, sigma, n):

    #alpha: 母集団切片
    #beta: 母集団回帰係数
    #sigma: 誤差項の標準偏差
    #n: サンプルサイズ
    
  x = np.random.uniform(low=0, high=10, size=n)
  epsilon = np.random.normal(loc=0, scale=sigma, size=n)
  y = alpha + beta * x + epsilon
  return x, y


In [None]:
# 使用例
true_alpha = 5.0
true_beta = 1.5
error_sigma = 2.0
sample_size = 200

x_obs, y_obs = generate_regression_data(true_alpha, true_beta, error_sigma, sample_size)

# 生成されたデータの確認
print("Generated x:", x_obs[:5])
print("Generated y:", y_obs[:5])

# 課題2

観測データ($x$,$y$)で、最小二乗法で回帰係数を推定する関数を作成しなさい

In [None]:
def estimate_regression_coefficients(x, y):
   
    x_mean = np.mean(x)
    y_mean = np.mean(y)

    # βの推定
    numerator = np.sum((x - x_mean) * (y - y_mean))
    denominator = np.sum((x - x_mean) ** 2)
    beta_hat = numerator / denominator

    # αの推定
    alpha_hat = y_mean - beta_hat * x_mean

    return alpha_hat, beta_hat

In [None]:
# 使用例
estimated_alpha, estimated_beta = estimate_regression_coefficients(x_obs, y_obs)

print("推定されたalpha:", estimated_alpha)
print("推定されたbeta:", estimated_beta)

# 課題3

- 一定な母集団回帰係数、誤差項サンプルサイズを設定し、観測データを作成し、回帰係数を推定するといった推定プロセスを100回を行いなさい。
- 毎回の推定値を格納し、その平均と標準偏差を計算しなさい。
- サンプルサイズが $20, 50, 100, 200, 500,1000$である場合、推定値の平均と標準偏差を比較しなさい

In [None]:
# シミュレーション設定
num_simulations = 100
true_alpha = 5.0
true_beta = 1.5
error_sigma = 2.0
sample_sizes = [20, 50, 100, 200, 500, 1000]

#　結果保存用
results = {}

#　各サンプルサイズで100回シミュレーション
for n in sample_sizes:
  beta_estimates = []
  alpha_estimates = []

  for _ in range(num_simulations):
    # データ生成
    x_obs, y_obs = generate_regression_data(true_alpha, true_beta, error_sigma, n)

    # 係数推定
    alpha_hat, beta_hat = estimate_regression_coefficients(x_obs, y_obs)

    beta_estimates.append(beta_hat)
    alpha_estimates.append(alpha_hat)

  # 結果の格納
  results[n] = {
      'beta_mean': np.mean(beta_estimates),
      'beta_std': np.std(beta_estimates),
      'alpha_mean': np.mean(alpha_estimates),
      'alpha_std': np.std(alpha_estimates)
  }

# 結果の表示
print("サンプルサイズ別の推定値の平均と標準偏差:")
for n, data in results.items():
  print(f"サンプルサイズ n={n}:")
  print(f"  beta の推定値 平均: {data['beta_mean']:.4f}, 標準偏差: {data['beta_std']:.4f}")
  print(f"  alpha の推定値 平均: {data['alpha_mean']:.4f}, 標準偏差: {data['alpha_std']:.4f}")

# サンプルサイズごとの結果比較
print("サンプルサイズごとの結果比較:")
for n in sample_sizes:
  print(f"n={n}: beta_mean={results[n]['beta_mean']:.4f}, beta_std={results[n]['beta_std']:.4f}, alpha_mean={results[n]['alpha_mean']:.4f}, alpha_std={results[n]['alpha_std']:.4f}")