# 単回帰分析

単回帰分析では、式を暗記するより、計算の意味をコードで検証する姿勢を優先します。


## 概念の土台

単回帰分析に入る前に、つまずきやすい用語を先にそろえます。以降のコードでは、変数がどの概念を表しているかを対応付けながら読んでください。

- **特徴量**: モデルが予測に使う入力変数です。列の作り方が精度に直結します。
- **目的変数**: 当てたい値です。回帰では連続値、分類ではラベルになります。
- **損失関数**: 予測のずれを数値化する関数です。学習はこの値を下げる方向に進みます。
- **回帰直線**: 入力 x と出力 y の関係を直線で近似したモデルです。
- **最小二乗法**: 誤差二乗和が最小になる係数を求める推定法です。

このノートでは、ここで定義した語を実験セルの変数・式に直接対応させて確認します。


## 実験 1: 単回帰データを作る

単回帰の前提を確認するため、直線関係が見える最小データを作ります。


In [None]:
x = [1, 2, 3, 4, 5]
y = [2.1, 4.2, 6.1, 8.2, 10.1]
pairs = list(zip(x, y))
print('task = simple-regression')
print('pairs =', pairs)

このデータを基準に、係数推定と誤差評価の流れを追います。

この節では、特徴量 が入出力のどこを決めるかを中心に読める状態になれば十分です。


## 実験 2: 単回帰を手で計算する

次に、最小二乗法の係数を手計算で求めます。既存ライブラリを使う前に中身を一度体験すると理解が安定します。


In [None]:
x_bar = sum(x) / len(x)
y_bar = sum(y) / len(y)
num = sum((xi - x_bar) * (yi - y_bar) for xi, yi in pairs)
den = sum((xi - x_bar) ** 2 for xi in x)
w1 = num / den; w0 = y_bar - w1 * x_bar
print('w0, w1 =', round(w0, 4), round(w1, 4))

式の記号は抽象的に見えますが、コードでは平均・差分・和に分解されます。難しい式ほど、実装で部品に分けて確認するのが有効です。

この節では、特徴量 が入出力のどこを決めるかを中心に読める状態になれば十分です。


## 式と実装の往復

1. $\hat{y} = f_{\theta}(x)$
2. $L(\theta) = \frac{1}{N}\sum_i \ell(\hat{y}_i, y_i)$


## 実験 3: 予測と誤差を見る

ここで、求めた係数で予測を出し、誤差を数値化します。モデル改善は誤差の観察から始まります。


In [None]:
pred = [w0 + w1 * xi for xi in x]
residual = [yi - pi for yi, pi in zip(y, pred)]
mse = sum((r ** 2) for r in residual) / len(residual)
print('pred =', pred)
print('mse =', round(mse, 8))

誤差を観察するときは、平均値だけでなく個別の残差も見てください。偏りがあると、モデル構造の見直しが必要になります。

この節では、特徴量 が入出力のどこを決めるかを中心に読める状態になれば十分です。


## 実験 4: 特徴量を拡張する

次に、特徴量を追加したときに表現力がどう変わるかを確認します。特徴量設計は精度に直接効く実装作業です。


In [None]:
x2 = [xi ** 2 for xi in x]
feature = list(zip(x, x2))
print('feature sample =', feature[:3])
scaled_x = [(xi - x_bar) / (max(x) - min(x)) for xi in x]
print('scaled_x =', [round(v, 4) for v in scaled_x])

特徴量を増やすと表現力は上がりますが、同時に過学習リスクも増えます。増やす理由を説明できる特徴だけを採用する姿勢が重要です。

この節では、特徴量 が入出力のどこを決めるかを中心に読める状態になれば十分です。


## 実験 5: 評価分割を体験する

最後に、学習と評価を分ける意味をコードで確かめます。分割しない評価は自己採点に近く、実運用の性能を過大評価しがちです。


In [None]:
train_x, test_x = x[:3], x[3:]
train_y, test_y = y[:3], y[3:]
pred_test = [w0 + w1 * xi for xi in test_x]
mae_test = sum(abs(yi - pi) for yi, pi in zip(test_y, pred_test)) / len(test_y)
print('test mae =', round(mae_test, 6))

検証データでの誤差が急に悪化したら、モデルより先にデータ分布の差を疑ってください。この視点は実務で非常に重要です。

この節では、特徴量 が入出力のどこを決めるかを中心に読める状態になれば十分です。


## 振り返り

今回のノートで押さえておくべき誤解しやすい点を整理します。

1. 訓練データと評価データの分布差を見ない
2. 単一スコアだけでモデルを選んでしまう
3. 前処理の漏れを評価後に気づく
