# 最小二乗法のイメージ

2024/10/28 K.Takiuchi

直線回帰と最小自乗法の説明

データ

$$
\{ (x_1,y_1), (x_2,y_2), \cdots, (x_n,y_n)\}
$$

について，データが従っていそうな，もっともらしい直線の式を求めたい

$$
\hat{y}_i = a x_i + b\\
$$
この式の$a$と$b$を求めたい

残差平方和の式

$$
S_e=\sum_{i=0}^{n}(y_i-\hat{y}_i)^2
$$
を最小にする $a,b$ の組が求めたい式と考えてよさそうである

Jupyter Lab やGoogle Colab などで実行するとスライダーで直線が変更できる。
傾き(Slope)と切片(Intercept)を動かして直線と灰色の残差の関係$S_e$をみてみよう。

[\[Google Colab で実行\]](https://colab.research.google.com/github/taki3kb/stat/blob/main/regressoins_03.ipynb)
![liner_reg](./liner_reg.png)

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from ipywidgets import interactive, FloatSlider
from IPython.display import display

# データの準備
np.random.seed(42)
x = np.linspace(0, 10, 20)  # データ点の数を20に
y = 3 * x + 5 + np.random.normal(0, 5, 20)  # y = 3x + 5 をベースの式としてノイズを追加

# 最小にするa,bの値
n = len(x)
a = (np.dot(x, y) - y.sum() * x.sum() / n) / ((x ** 2).sum() - x.sum()**2 / n)
b = (y.sum() - a * x.sum()) / n
ys = a * x + b

# 誤差平方和を計算する関数
def residuals_sum_of_squares(y_true, y_pred):
    return np.sum((y_true - y_pred) ** 2)

# 散布図と回帰直線を描画する関数
def plot_regression_line(slope=3.0, intercept=5.0):
    y_pred = slope * x + intercept

    # 図の初期化
    fig, ax = plt.subplots(figsize=(8, 6)) 

    # 散布図の描画
    ax.scatter(x, y, label='Data points')

    # 回帰直線の描画
    ax.plot(x, y_pred, color='red', label=f'Line: y = {slope:.2f}x + {intercept:.2f}')

    # 誤差線の描画
    for xi, yi, ypi in zip(x, y, y_pred):
        ax.plot([xi, xi], [yi, ypi], color='gray', linestyle='--')

    # 誤差平方和の表示
    rss = residuals_sum_of_squares(y, y_pred)
    ax.set_title(f'Sum of Squared Errors: {rss:.2f}')
    ax.legend()
    ax.set_xlabel('x')
    ax.set_ylabel('y')

    # グラフの範囲を固定
    ax.set_xlim(0, 10)
    ax.set_ylim(min(y) - 10, max(y) + 10)

    # 図全体にテキストを追加 (aとbの値を表示)
    fig.text(0.5, 0.01, f'Regression model: a = {a:.2f}, b = {b:.2f}, Sum of Squared Errors = {sse:.2f}', 
             ha='center', fontsize=10, color='gray')
    
    ax.grid(True)
    plt.show()

sse = residuals_sum_of_squares(y, ys)

# インタラクティブなウィジェットの作成
slope_slider = FloatSlider(value=3.0, min=-10, max=10, step=0.1, description='Slope')
intercept_slider = FloatSlider(value=5.0, min=-5, max=15, step=0.1, description='Intercept')

interactive_plot = interactive(plot_regression_line, slope=slope_slider, intercept=intercept_slider)

# インタラクティブなグラフの表示
display(interactive_plot)


interactive(children=(FloatSlider(value=3.0, description='Slope', max=10.0, min=-10.0), FloatSlider(value=5.0,…