$n$個のデータ$(x_1,y_1),...(x_n,y_n)$が観測され、各$y_i$が

$$
y_i=\alpha +\beta x_i+u_i,\ i=1,...,n
$$

が得られます。

最小二乗法による、
$$
\hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\frac{標本共分散(x_i,y_i)}{標本分散(x_i)}
$$

$$
\hat{\alpha}=\hat{y}-\hat{\beta}\bar{x}
$$

で回帰モデルの係数を推定することができる。

以下は、仮想データを作成し、回帰モデルの係数推定式によって計算した結果が真の値にどれほど近づくかを検証するためのコードである
このコードに基づいて、課題に解答しなさい。

In [None]:
# 線形回帰モデルのデータをシミュレーションで生成します
import numpy as np

# サンプルデータ
# パラメータ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# ノイズ項を標準正規分布から生成
epsilon = np.random.normal(loc=0, scale=1, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon

In [None]:
# パラメータの推定
x_mean = np.mean(x)
y_mean = np.mean(y)

# β₁の推定
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sum((x - x_mean) ** 2)
beta = numerator / denominator
print("beta: ", beta)
# β₀の推定
alpha = y_mean - beta * x_mean

print("alpha: ", alpha)

beta:  0.829303787809783
alpha:  2.366439339543943


# 課題1

母集団回帰係数、誤差項とサンプルサイズを指定し、観測データ($x$,$y$)を生成する関数を作成しなさい

In [None]:
import numpy as np

def generate_data(beta_0, beta_1, n, error_std):
  x=np.random.uniform(low=0,high=10,size=n)
  epsilon=np.random.normal(loc=0,scale=error_std,size=n)
  y=beta_0+beta_1*x+epsilon
  return x,y

# 課題2

観測データ($x$,$y$)で、最小二乗法で回帰係数を推定する関数を作成しなさい

In [None]:
def estimate_parameters(x, y):
  x_mean=np.mean(x)
  y_mean=np.mean(y)
  numerator=np.sum((x-x_mean)*(y-y_mean))
  denominator=np.sum((x-x_mean)**2)

  bata=numerator/denominator
  alpha=y_mean-bata*x_mean
  return alpha,bata

# 課題3

- 一定な母集団回帰係数、誤差項サンプルサイズを設定し、観測データを作成し、回帰係数を推定するといった推定プロセスを100回を行いなさい。
- 毎回の推定値を格納し、その平均と標準偏差を計算しなさい。
- サンプルサイズが $20, 50, 100, 200, 500,1000$である場合、推定値の平均と標準偏差を比較しなさい

In [None]:
def regression_analysis(beta_0, beta_1, error_std, sample_sizes, num_simulations=100):
    results={} # Change to dictionary
    for n in sample_sizes:
      estimates=[]

      for _ in range(num_simulations):
        x,y=generate_data(beta_0,beta_1,n,error_std)
        alpha,bata=estimate_parameters(x,y)
        estimates.append((alpha, bata))

      alpha_vals=np.array([est[0] for est in estimates])
      beta_vals=np.array([est[1] for est in estimates])

      results[n]={ # Corrected dictionary creation
          "alpha_mean":np.mean(alpha_vals),
          "alpha_std":np.std(alpha_vals),
          "beta_mean":np.mean(beta_vals),
          "beta_std":np.std(beta_vals),
      }

    return results

sample_sizes=[20,50,100,200,500,1000]
# Corrected function name to regression_analysis
simulation_results=regression_analysis(beta_0=2.5, beta_1=0.8, error_std=1.0, sample_sizes=sample_sizes)

for n, result in simulation_results.items():
  print(f"Sample Size: {n}")
  # Corrected print statement syntax
  print(f"Alpha Mean: {result['alpha_mean']:.4f}, Alpha Std: {result['alpha_std']:.4f}")
  print(f"Beta Mean: {result['beta_mean']:.4f}, Beta Std: {result['beta_std']:.4f}")

Sample Size: 20
Alpha Mean: 2.4624, Alpha Std: 0.4499
Beta Mean: 0.8018, Beta Std: 0.0811
Sample Size: 50
Alpha Mean: 2.4678, Alpha Std: 0.2607
Beta Mean: 0.8065, Beta Std: 0.0470
Sample Size: 100
Alpha Mean: 2.4867, Alpha Std: 0.1939
Beta Mean: 0.8034, Beta Std: 0.0327
Sample Size: 200
Alpha Mean: 2.4791, Alpha Std: 0.1374
Beta Mean: 0.8033, Beta Std: 0.0235
Sample Size: 500
Alpha Mean: 2.4874, Alpha Std: 0.0884
Beta Mean: 0.8021, Beta Std: 0.0139
Sample Size: 1000
Alpha Mean: 2.4976, Alpha Std: 0.0697
Beta Mean: 0.7997, Beta Std: 0.0120
