$n$個のデータ$(x_1,y_1),...(x_n,y_n)$が観測され、各$y_i$が

$$
y_i=\alpha +\beta x_i+u_i,\ i=1,...,n
$$

が得られます。

最小二乗法による、
$$
\hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\frac{標本共分散(x_i,y_i)}{標本分散(x_i)}
$$

$$
\hat{\alpha}=\hat{y}-\hat{\beta}\bar{x}
$$

で回帰モデルの係数を推定することができる。

以下は、仮想データを作成し、回帰モデルの係数推定式によって計算した結果が真の値にどれほど近づくかを検証するためのコードである
このコードに基づいて、課題に解答しなさい。

In [1]:
# 線形回帰モデルのデータをシミュレーションで生成します
import numpy as np

# サンプルデータ
# パラメータ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# ノイズ項を標準正規分布から生成
epsilon = np.random.normal(loc=0, scale=1, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon

In [2]:
# パラメータの推定
x_mean = np.mean(x)
y_mean = np.mean(y)

# β₁の推定
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sum((x - x_mean) ** 2)
beta = numerator / denominator
print("beta: ", beta)
# β₀の推定
alpha = y_mean - beta * x_mean

print("alpha: ", alpha)

beta:  0.7608616948436211
alpha:  2.7593033566493856


# 課題1

母集団回帰係数、誤差項とサンプルサイズを指定し、観測データ($x$,$y$)を生成する関数を作成しなさい

In [3]:
def data_a(beta_0, beta_1, epsilon, n):
  x = np.random.uniform(low=0, high=10, size=n)
  epsilon = np.random.normal(loc=0, scale=1, size=n)
  y = beta_0 + beta_1 * x + epsilon
  return x, y

# 課題2

観測データ($x$,$y$)で、最小二乗法で回帰係数を推定する関数を作成しなさい

In [4]:
def estimate_a(x,y):
  x_mean = np.mean(x)
  y_mean = np.mean(y)
  numerator = np.sum((x - x_mean) * (y - y_mean))
  denominator = np.sum((x - x_mean) ** 2)
  beta_1 = numerator / denominator
  alpha = y_mean - beta * x_mean
  return alpha, beta

# 課題3

- 一定な母集団回帰係数、誤差項サンプルサイズを設定し、観測データを作成し、回帰係数を推定するといった推定プロセスを100回を行いなさい。
- 毎回の推定値を格納し、その平均と標準偏差を計算しなさい。
- サンプルサイズが $20, 50, 100, 200, 500,1000$である場合、推定値の平均と標準偏差を比較しなさい

In [5]:
beta_0 = 2.5
beta_1 = 0.8
n = 100
repeat = 100

#推定プロセス100回
for i in range(repeat):
  x, y = data_a(beta_0, beta_1, epsilon, n)
  alpha, beta = estimate_a(x,y)

#平均と標準偏差の計算
estimate_mean = np.mean(estimate_a(x, y))
estimate_std = np.std(estimate_a(x, y))
print(estimate_mean, estimate_std)

1.7426037909164596 0.9817420960728385


In [6]:
#異なるサンプルサイズの場合
sample_size = [20, 50, 100, 200, 500, 1000]

for i in range(len(sample_size)):
  i = sample_size[i]
  x, y = data_a(beta_0, beta_1, epsilon, n)
  alpha, beta = estimate_a(x,y)
  estimate_mean = np.mean(estimate_a(x, y))
  estimate_std = np.std(estimate_a(x, y))
  print(f"sample size:{n}, mean estimete:{estimate_mean:.4f},std estimate:{estimate_std:.4f}" )

sample size:100, mean estimete:1.7544,std estimate:0.9936
sample size:100, mean estimete:1.7105,std estimate:0.9496
sample size:100, mean estimete:1.7262,std estimate:0.9653
sample size:100, mean estimete:1.7862,std estimate:1.0253
sample size:100, mean estimete:1.7723,std estimate:1.0115
sample size:100, mean estimete:1.6595,std estimate:0.8986
