$n$個のデータ$(x_1,y_1),...(x_n,y_n)$が観測され、各$y_i$が

$$
y_i=\alpha +\beta x_i+u_i,\ i=1,...,n
$$

が得られます。

最小二乗法による、
$$
\hat{\beta}=\frac{\sum_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n (x_i-\bar{x})^2}=\frac{標本共分散(x_i,y_i)}{標本分散(x_i)}
$$

$$
\hat{\alpha}=\hat{y}-\hat{\beta}\bar{x}
$$

で回帰モデルの係数を推定することができる。

以下は、仮想データを作成し、回帰モデルの係数推定式によって計算した結果が真の値にどれほど近づくかを検証するためのコードである
このコードに基づいて、課題に解答しなさい。

In [None]:
# 線形回帰モデルのデータをシミュレーションで生成します
import numpy as np

# サンプルデータ
# パラメータ
beta_0 = 2.5  # 切片
beta_1 = 0.8  # 傾き
n = 100  # データ数

# 説明変数を一様分布から生成
x = np.random.uniform(low=0, high=10, size=n)

# 誤差項を標準正規分布から生成
epsilon = np.random.normal(loc=0, scale=1, size=n)

# 目的変数を生成
y = beta_0 + beta_1 * x + epsilon


In [3]:
# パラメータの推定
x_mean = np.mean(x)
y_mean = np.mean(y)

# β₁の推定
numerator = np.sum((x - x_mean) * (y - y_mean))
denominator = np.sum((x - x_mean) ** 2)
beta = numerator / denominator
print("beta: ", beta)
# β₀の推定
alpha = y_mean - beta * x_mean

print("alpha: ", alpha)

beta:  0.823481103136274
alpha:  2.471159826636163


# 課題1

母集団回帰係数、誤差項とサンプルサイズを指定し、観測データ($x$,$y$)を生成する関数を作成しなさい

In [6]:
import numpy as np

def simulate_linear_data(beta_0, beta_1, sigma, n, x_min=0.0, x_max=10.0, random_seed=None):
    """
    単回帰モデル y = beta_0 + beta_1 * x + ε に従う
    観測データ (x, y) を生成する関数。

    Args:
        beta_0 (float): 切片 (母集団回帰係数)
        beta_1 (float): 傾き (母集団回帰係数)
        sigma (float): 誤差項 ε の標準偏差（ε ~ N(0, sigma^2)）
        n (int): サンプルサイズ
        x_min (float): x の最小値（デフォルト 0.0）
        x_max (float): x の最大値（デフォルト 10.0）
        random_seed (int or None): 乱数シード（再現性を持たせたいとき）

    Returns:
        x (np.ndarray): 説明変数 x、形状 (n,)
        y (np.ndarray): 目的変数 y、形状 (n,)
    """
    rng = np.random.default_rng(seed=random_seed)

    # x を一様分布 U(x_min, x_max) から生成
    x = rng.uniform(low=x_min, high=x_max, size=n)

    # 誤差項 ε を N(0, sigma^2) から生成
    epsilon = rng.normal(loc=0.0, scale=sigma, size=n)

    # モデルに従って y を計算
    y = beta_0 + beta_1 * x + epsilon

    return x, y


ModuleNotFoundError: No module named 'numpy'

# 課題2

観測データ($x$,$y$)で、最小二乗法で回帰係数を推定する関数を作成しなさい

In [None]:
import numpy as np

def estimate_lsq_coefficients(x: np.ndarray, y: np.ndarray):
    """
    最小二乗法により単回帰 y = β₀ + β₁ x を推定する関数。

    Args:
        x (np.ndarray): 説明変数（1次元配列、形状 (n,)）
        y (np.ndarray): 目的変数（1次元配列、形状 (n,)）

    Returns:
        beta_0_hat (float): 切片の推定値
        beta_1_hat (float): 傾きの推定値
    """
    # サンプルサイズ
    n = x.size

    # 平均
    x_mean = np.mean(x)
    y_mean = np.mean(y)

    # 分子・分母
    SS_xy = np.sum((x - x_mean) * (y - y_mean))
    SS_xx = np.sum((x - x_mean)**2)

    # 推定値
    beta_1_hat = SS_xy / SS_xx
    beta_0_hat = y_mean - beta_1_hat * x_mean

    return beta_0_hat, beta_1_hat


# 課題3

- 一定な母集団回帰係数、誤差項サンプルサイズを設定し、観測データを作成し、回帰係数を推定するといった推定プロセスを100回を行いなさい。
- 毎回の推定値を格納し、その平均と標準偏差を計算しなさい。
- サンプルサイズが $20, 50, 100, 200, 500,1000$である場合、推定値の平均と標準偏差を比較しなさい




In [7]:
import numpy as np

def simulate_linear_data(beta_0, beta_1, sigma, n, x_min=0.0, x_max=10.0, rng=None):
    x = rng.uniform(low=x_min, high=x_max, size=n)
    epsilon = rng.normal(loc=0.0, scale=sigma, size=n)
    y = beta_0 + beta_1 * x + epsilon
    return x, y

def estimate_lsq_coefficients(x, y):
    x_mean, y_mean = x.mean(), y.mean()
    SS_xy = ((x - x_mean) * (y - y_mean)).sum()
    SS_xx = ((x - x_mean)**2).sum()
    b1 = SS_xy / SS_xx
    b0 = y_mean - b1 * x_mean
    return b0, b1

def simulate_and_summarize(beta_0, beta_1, sigma, n, reps=100, seed=None):
    rng = np.random.default_rng(seed)
    b0_list = []
    b1_list = []
    for i in range(reps):
        x, y = simulate_linear_data(beta_0, beta_1, sigma, n, rng=rng)
        b0_hat, b1_hat = estimate_lsq_coefficients(x, y)
        b0_list.append(b0_hat)
        b1_list.append(b1_hat)
    b0_arr = np.array(b0_list)
    b1_arr = np.array(b1_list)
    return {
        'n': n,
        'b0_mean': b0_arr.mean(),
        'b0_std':  b0_arr.std(ddof=1),
        'b1_mean': b1_arr.mean(),
        'b1_std':  b1_arr.std(ddof=1)
    }

if __name__ == "__main__":
    # 母集団パラメータ
    beta_0 = 2.5

ModuleNotFoundError: No module named 'numpy'