$n$個のデータ$(x_1,y_1),...(x_n,y_n)$が観測され、各$y_i$が

$$
y_i=\alpha +\beta x_i+u_i,\ i=1,...,n
$$

が得られます。

最小二乗法による、
$$
\hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\frac{標本共分散(x_i,y_i)}{標本分散(x_i)}
$$

$$
\hat{\alpha}=\hat{y}-\hat{\beta}\bar{x}
$$

で回帰モデルの係数を推定することができる。

以下は、仮想データを作成し、回帰モデルの係数推定式によって計算した結果が真の値にどれほど近づくかを検証するためのコードである
このコードに基づいて、課題に解答しなさい。

In [7]:
# 線形回帰モデルのデータをシミュレーションで生成します
import numpy as np

# サンプルデータ
# パラメータ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# ノイズ項を標準正規分布から生成
epsilon = np.random.normal(loc=0, scale=1, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon

In [8]:
# パラメータの推定
x_mean = np.mean(x)
y_mean = np.mean(y)

# β₁の推定
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sum((x - x_mean) ** 2)
beta = numerator / denominator
print("beta: ", beta)
# β₀の推定
alpha = y_mean - beta * x_mean

print("alpha: ", alpha)

beta:  0.766990727679516
alpha:  2.6444881248605303


# 課題1

母集団回帰係数、誤差項とサンプルサイズを指定し、観測データ($x$,$y$)を生成する関数を作成しなさい

In [None]:
def data(alpha,beta,n):

    # 説明変数を一様分布から生成
    x = np.random.uniform(low=0, high=10, size=n)

    # ノイズ項を標準正規分布から生成
    epsilon = np.random.normal(loc=0, scale=1, size=n)

    # 目的変数を生成
    y = alpha + beta * x + epsilon

    return x, y

# 課題2

観測データ($x$,$y$)で、最小二乗法で回帰係数を推定する関数を作成しなさい

In [80]:
def guess(x,y):
    # パラメータの推定
    x_mean = np.mean(x)
    y_mean = np.mean(y)

    # β₁の推定
    numerator = np.sum((x - x_mean) * (y - y_mean))
    denominator = np.sum((x - x_mean) ** 2)
    beta = numerator / denominator
    # β₀の推定
    alpha = y_mean - beta * x_mean
    return alpha, beta

# 課題3

- 一定な母集団回帰係数、誤差項サンプルサイズを設定し、観測データを作成し、回帰係数を推定するといった推定プロセスを100回を行いなさい。
- 毎回の推定値を格納し、その平均と標準偏差を計算しなさい。
- サンプルサイズが $20, 50, 100, 200, 500,1000$である場合、推定値の平均と標準偏差を比較しなさい

In [92]:
#一定な母集団回帰係数、誤差項サンプルサイズを設定し、
# 観測データを作成し、回帰係数を推定するといった
# 推定プロセスを100回を行いなさい。
n=100
guess_list = np.array([]) 
for i in range(100):
    x,y=data(2.5,0.8,n)
    alpha,beta=guess(x,y)
    guess_list = np.append(guess_list, [alpha, beta])
guess_list=guess_list.reshape(100,2)
# print(guess_list)
print(guess_list)

[[2.72137355 0.78240442]
 [2.5162127  0.79649584]
 [2.07859764 0.86542969]
 [2.54490148 0.81791934]
 [1.98210522 0.8710095 ]
 [2.17482873 0.85725595]
 [2.56356272 0.81243747]
 [2.595315   0.79390357]
 [2.60527506 0.80223841]
 [2.71282524 0.74831025]
 [2.28949163 0.85018898]
 [2.44089091 0.78290279]
 [2.19386909 0.83869622]
 [2.58825679 0.77077037]
 [2.75549766 0.770892  ]
 [2.40431386 0.8154982 ]
 [2.65059573 0.79800291]
 [2.71811893 0.78020842]
 [2.6668138  0.78778784]
 [2.81404868 0.74034887]
 [2.52527755 0.81661174]
 [2.40322865 0.7983206 ]
 [2.44264895 0.78314352]
 [2.40674954 0.7930285 ]
 [2.60355962 0.80308588]
 [2.56692966 0.77713225]
 [2.30243175 0.84517391]
 [2.68618765 0.76754023]
 [2.62333309 0.77168912]
 [2.50748732 0.81749271]
 [2.29069147 0.81203721]
 [2.28456541 0.8496865 ]
 [2.18166636 0.8435732 ]
 [2.74072024 0.75593146]
 [2.54015209 0.78119577]
 [2.33179207 0.83336618]
 [2.39783088 0.8211163 ]
 [2.61464422 0.79402681]
 [2.60495015 0.79230997]
 [2.13575339 0.83753477]


In [93]:
#毎回の推定値を格納し、
#その平均と標準偏差を計算しなさい。
n=100
guess_list = np.array([]) 
for i in range(100):
    x,y=data(2.5,0.8,n)
    alpha,beta=guess(x,y)
    guess_list = np.append(guess_list, [alpha, beta])
guess_list=guess_list.reshape(100,2)
# print(guess_list)
alpha_list=guess_list[:,0]
beta_list=guess_list[:,1]
alpha_mean = np.mean(alpha_list)
alpha_std = np.std(alpha_list)
beta_mean = np.mean(beta_list)
beta_std = np.std(beta_list)
print(alpha_mean,alpha_std)
print(beta_mean,beta_std)

2.5095083177070534 0.19956993091139544
0.7949534040627791 0.03690248651851979


In [95]:
#サンプルサイズが $20, 50, 100, 200, 500,1000$である場合
# 推定値の平均と標準偏差を比較しなさい
n_list=[20, 50, 100, 200, 500, 1000]
data_list = np.array([]) 
for n in n_list:
    guess_list = np.array([]) 
    for i in range(100):
        x,y = data(2.5,0.8,n)
        alpha,beta=guess(x,y)
        guess_list = np.append(guess_list, [alpha, beta])
    guess_list=guess_list.reshape(100,2)
    # print(guess_list)
    alpha_list=guess_list[:,0]
    beta_list=guess_list[:,1]
    alpha_mean = np.mean(alpha_list)
    alpha_std = np.std(alpha_list)
    beta_mean = np.mean(beta_list)
    beta_std = np.std(beta_list)

    data_list = np.append(data_list, [n,alpha_mean,beta_mean,alpha_std,beta_std])

data_list = data_list.reshape(6,5)

print(data_list)

[[2.00000000e+01 2.54153461e+00 7.88574920e-01 4.98989886e-01
  8.30776083e-02]
 [5.00000000e+01 2.49463797e+00 7.95766307e-01 3.09172150e-01
  5.38083537e-02]
 [1.00000000e+02 2.49662929e+00 8.01316855e-01 2.03937999e-01
  3.48079202e-02]
 [2.00000000e+02 2.50821909e+00 8.00800333e-01 1.44074931e-01
  2.57551368e-02]
 [5.00000000e+02 2.48815022e+00 8.00698844e-01 7.93236871e-02
  1.48178844e-02]
 [1.00000000e+03 2.49786944e+00 8.00927823e-01 6.25598509e-02
  1.03468010e-02]]


一番左の列がサンプルサイズで、右から二番目が切片の標準偏差、一番右が傾きの標準偏差です。
これを見る限り、サンプル数が増加するにつれて、標準偏差は小さくなり、より真の値に近づいていると思います。