$n$個のデータ$(x_1,y_1),...(x_n,y_n)$が観測され、各$y_i$が

$$
y_i=\alpha +\beta x_i+u_i,\ i=1,...,n
$$

が得られます。

最小二乗法による、
$$
\hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\frac{標本共分散(x_i,y_i)}{標本分散(x_i)}
$$

$$
\hat{\alpha}=\hat{y}-\hat{\beta}\bar{x}
$$

で回帰モデルの係数を推定することができる。

以下は、仮想データを作成し、回帰モデルの係数推定式によって計算した結果が真の値にどれほど近づくかを検証するためのコードである
このコードに基づいて、課題に解答しなさい。

In [25]:
# 線形回帰モデルのデータをシミュレーションで生成します
import numpy as np

# サンプルデータ
# パラメータ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# ノイズ項を標準正規分布から生成
epsilon = np.random.normal(loc=0, scale=1, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon

In [26]:
# パラメータの推定
x_mean = np.mean(x)
y_mean = np.mean(y)

# β₁の推定
numerator = np.sum((x - x_mean) * (y - y_mean)) #標本共分散
denominator = np.sum((x - x_mean) ** 2) # 標本分散
beta = numerator / denominator
print("beta: ", beta)
# β₀の推定
alpha = y_mean - beta * x_mean

print("alpha: ", alpha)

beta:  0.7633474945571439
alpha:  2.621336883031409


# 課題1

母集団回帰係数、誤差項とサンプルサイズを指定し、観測データ($x$,$y$)を生成する関数を作成しなさい

In [27]:
import numpy as np
import matplotlib.pyplot as plt

def generate_data(beta_0, beta_1, sigma, n):
    """
    母集団回帰係数(beta_0, beta_1)、誤差項、サンプルサイズに基づいて観測データx(説明変数), y(目的変数)のarrayをそれぞれ返す
    beta_0: 切片
    beta_1: 傾き
    sigma = 誤差項の標準偏差

    """
    # 説明変数xを一様分布に基づいて生成
    x = np.random.uniform(low=0, high=10, size=n)

    # 誤差項を正規分布(平均0, 標準偏差sigma)から生成
    epsilon = np.random.normal(loc=0, scale=sigma, size=n)

    # 線形モデル (y = ß0 + ß1*x + epsilon) に基づいて目的変数yを生成
    y = beta_0 + beta_1 * x + epsilon

    return x, y

# 課題2

観測データ($x$,$y$)で、最小二乗法で回帰係数を推定する関数を作成しなさい

In [28]:
def estimate_regression_coeeficients(x, y):
    """
    説明変数x, 目的変数y (x, yはデータのarray)をもとに、最小二乗法を使って回帰係数（切片beta_0, 傾きbeta_1）を推定
    """
    x_mean = np.mean(x)
    y_mean = np.mean(y)

    # 標本共分散
    numerator = np.sum((x - x_mean)*(y - y_mean))

    # 標本分散
    denominator = np.sum((x - x_mean)**2)

    beta_1 = numerator / denominator
    beta_0 = y_mean - beta_1 * x_mean

    return beta_0, beta_1

# 課題3

- 一定な母集団回帰係数、誤差項サンプルサイズを設定し、観測データを作成し、回帰係数を推定するといった推定プロセスを100回を行いなさい。
- 毎回の推定値を格納し、その平均と標準偏差を計算しなさい。
- サンプルサイズが $20, 50, 100, 200, 500,1000$である場合、推定値の平均と標準偏差を比較しなさい

In [29]:
# 与えられたすべてのサンプルサイズに対して、変数生成・推定を行い、推定値の平均と標準偏差を表示する関数を実装する。

def estimates_mean_std(sample_sizes, beta_0, beta_1, sigma, num_simulations):
    """
    与えられたサンプルサイズ・係数・誤差の標準偏差・試行回数をもとに、
    （サンプルサイズごとに）回帰係数の推定値の平均と標準偏差を計算する
    """

    for n in sample_sizes:

        # 推定された回帰係数を格納するリストたち
        beta_0_estimates = [] # 切片を格納しておくリスト
        beta_1_estimates = [] # 傾きを格納しておくリスト


        for i in range(num_simulations):
            x, y = generate_data(beta_0, beta_1, sigma, n)
            b0, b1 = estimate_regression_coeeficients(x, y)
            beta_0_estimates.append(b0)
            beta_1_estimates.append(b1)

        # 計算のため、リストをNumPy Array に変換する
        beta_0_estimates = np.array(beta_0_estimates)
        beta_1_estimates = np.array(beta_1_estimates)

        # 推定された回帰係数の平均・標準偏差を計算・整理
        print(f"===[Sample Size: {n}]===")

        print("beta_0(切片)の平均: ", np.mean(beta_0_estimates))
        print("beta_0（切片）の標準偏差", np.std(beta_0_estimates))

        print("beta_1（傾き）の平均: ", np.mean(beta_1_estimates))
        print("beta_1(傾き)の標準偏差: ", np.std(beta_1_estimates))
        print("\n")

    return

In [30]:
# 回帰係数・誤差の標準偏差・試行回数を設定
beta_0 = 2
beta_1 = 3
sigma = 1.0
num_simulations = 100

sample_sizes = [20, 50, 100, 200, 500, 1000]

estimates_mean_std(sample_sizes, beta_0, beta_1, sigma, num_simulations)

# 結果をみると、サンプルサイズが大きいほど
# 1. 推定値平均は実際の回帰係数（この場合は beta_0 = 2, beta_1 = 3）に近づく
# 2. 推定値の標準偏差（ばらつき）は小さくなる
# ...ということがわかる

===[Sample Size: 20]===
beta_0(切片)の平均:  2.0131211711772705
beta_0（切片）の標準偏差 0.5248100520747792
beta_1（傾き）の平均:  2.997551998246322
beta_1(傾き)の標準偏差:  0.0883126976065592


===[Sample Size: 50]===
beta_0(切片)の平均:  2.0094281817121225
beta_0（切片）の標準偏差 0.30154384316357197
beta_1（傾き）の平均:  2.9996745875488724
beta_1(傾き)の標準偏差:  0.05228616438387368


===[Sample Size: 100]===
beta_0(切片)の平均:  2.00316060539329
beta_0（切片）の標準偏差 0.21720061151364894
beta_1（傾き）の平均:  2.99912752813708
beta_1(傾き)の標準偏差:  0.03911060842459911


===[Sample Size: 200]===
beta_0(切片)の平均:  2.0072930377271705
beta_0（切片）の標準偏差 0.15765585014603373
beta_1（傾き）の平均:  3.0000630204684957
beta_1(傾き)の標準偏差:  0.027848968514429494


===[Sample Size: 500]===
beta_0(切片)の平均:  1.9904318106564358
beta_0（切片）の標準偏差 0.08412581226237123
beta_1（傾き）の平均:  3.0010643990003985
beta_1(傾き)の標準偏差:  0.015662329947921612


===[Sample Size: 1000]===
beta_0(切片)の平均:  2.001328239626036
beta_0（切片）の標準偏差 0.05833676020752959
beta_1（傾き）の平均:  2.999459722148136
beta_1(傾き)の標準偏差:  0.00