<a href="https://colab.research.google.com/github/FukasakuRino/chss_2025_assignment/blob/rino/assignment6_fukasaku_ipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

$n$個のデータ$(x_1,y_1),...(x_n,y_n)$が観測され、各$y_i$が

$$
y_i=\alpha +\beta x_i+u_i,\ i=1,...,n
$$

が得られます。

最小二乗法による、
$$
\hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\frac{標本共分散(x_i,y_i)}{標本分散(x_i)}
$$

$$
\hat{\alpha}=\hat{y}-\hat{\beta}\bar{x}
$$

で回帰モデルの係数を推定することができる。

以下は、仮想データを作成し、回帰モデルの係数推定式によって計算した結果が真の値にどれほど近づくかを検証するためのコードである
このコードに基づいて、課題に解答しなさい。

In [None]:
# 線形回帰モデルのデータをシミュレーションで生成します
import numpy as np

# サンプルデータ
# パラメータ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# ノイズ項を標準正規分布から生成
epsilon = np.random.normal(loc=0, scale=1, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon

In [None]:
# パラメータの推定
x_mean = np.mean(x)
y_mean = np.mean(y)

# β₁の推定
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sum((x - x_mean) ** 2)
beta = numerator / denominator
print("beta: ", beta)
# β₀の推定
alpha = y_mean - beta * x_mean

print("alpha: ", alpha)

beta:  0.8085312157066454
alpha:  2.484083236085345


# 課題1

母集団回帰係数、誤差項とサンプルサイズを指定し、観測データ($x$,$y$)を生成する関数を作成しなさい

In [None]:
import numpy as np

#母集団回帰係数
#誤差項
#サンプルサイズ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数
epsilon = 0.5

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon

print(x,y)

[0.83385175 1.35808268 7.02295348 6.46074206 9.34310259 1.0849489
 8.01391558 7.35553935 5.53300039 9.63996851 6.90245892 9.04626397
 0.44147342 0.52054779 8.736592   4.62505007 6.66403196 6.31065659
 6.55220386 7.84425814 2.54884481 2.96786788 6.49134163 4.49659155
 2.27485627 9.1892172  7.79034966 8.15795105 4.73951662 0.97421124
 7.19831129 5.3140298  7.17677663 0.31706456 4.28916119 2.81420832
 0.2855218  3.55500748 3.18686505 8.3064965  8.42415074 8.17593445
 2.60564862 7.05068189 3.35449579 4.33014772 8.48479064 8.30190477
 0.05168412 4.18484576 1.86915799 2.63862735 0.9358791  8.85226939
 3.84252328 6.91536693 4.46093815 4.9149078  2.13493861 0.42339572
 9.84995071 8.79760652 8.14517266 4.46484257 1.57261101 8.73315202
 2.25468394 4.13291409 6.43231137 9.38757944 2.13665288 4.31899065
 5.06248957 8.24320608 2.2644256  1.49811307 8.03328362 5.88433777
 3.35838967 7.02018725 7.86747414 9.27519055 6.91233215 3.57831618
 3.13388121 7.71071762 4.84755953 1.33535144 3.8895192  8.70875

# 課題2

観測データ($x$,$y$)で、最小二乗法で回帰係数を推定する関数を作成しなさい

In [None]:
mean_x = np.mean(x)
mean_y = np.mean(y)

numerator = np.sum((x - mean_x) * (y - mean_y))
denominator = np.sum((x - mean_x) ** 2)
beta = numerator / denominator
print("beta: ", beta)

alpha = y_mean - beta * x_mean
print("alpha: ", alpha)

beta:  0.8
alpha:  3.0000000000000004


# 課題3

- 一定な母集団回帰係数、誤差項サンプルサイズを設定し、観測データを作成し、回帰係数を推定するといった推定プロセスを100回を行いなさい。
- 毎回の推定値を格納し、その平均と標準偏差を計算しなさい。
- サンプルサイズが $20, 50, 100, 200, 500,1000$である場合、推定値の平均と標準偏差を比較しなさい

In [None]:
import numpy as np
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
epsilon = 0.5 #誤差項
sample_size = [20,50,100,200,500,1000] #サンプルサイズ

In [None]:
for i in sample_size:
  beta_list = []
  alpha_list = []

  for j in range(100):
      # 説明変数を一様分布から生成
      x = np.random.uniform(low=0, high=10, size=n)
      # 目的変数を生成
      y = beta_0 + beta_1 * x + epsilon
      # パラメータの推定
      x_mean = np.mean(x)
      y_mean = np.mean(y)
      # β₁の推定
      numerator = np.sum((x - x_mean) * (y - y_mean))
      denominator = np.sum((x - x_mean) ** 2)
      beta = numerator / denominator
      beta_list.append(beta)
      # β₀の推定
      alpha = y_mean - beta * x_mean
      alpha_list.append(alpha)

  beta_mean = np.mean(beta_list)
  beta_std = np.std(beta_list)
  alpha_mean = np.mean(alpha_list)
  alpha_std = np.std(alpha_list)
  print(f"Saple Size: {i}")
  print("beta_mean: ", beta_mean)
  print("beta_std: ", beta_std)
  print("alpha_mean: ", alpha_mean)
  print("alpha_std: ", alpha_std)
  print("-"*20)

Saple Size: 20
beta_mean:  0.7999999999999998
beta_std:  2.5316980181136773e-16
alpha_mean:  3.0
alpha_std:  1.0676628719049671e-15
--------------------
Saple Size: 50
beta_mean:  0.8
beta_std:  1.3506446028928518e-16
alpha_mean:  3.0
alpha_std:  1.1699032740181795e-15
--------------------
Saple Size: 100
beta_mean:  0.8
beta_std:  1.530336829712622e-16
alpha_mean:  3.0
alpha_std:  1.2832564590325902e-15
--------------------
Saple Size: 200
beta_mean:  0.7999999999999997
beta_std:  3.512588446676096e-16
alpha_mean:  3.0
alpha_std:  1.0676628719049671e-15
--------------------
Saple Size: 500
beta_mean:  0.8
beta_std:  1.2994827337208942e-16
alpha_mean:  3.0
alpha_std:  1.0759430181993072e-15
--------------------
Saple Size: 1000
beta_mean:  0.8
beta_std:  1.4390135079995447e-16
alpha_mean:  3.0
alpha_std:  1.1477794699850183e-15
--------------------
