## 決定係数（$R^2$）について

### 概要

決定係数（$R^2$）は、回帰分析においてモデルの適合度を評価する指標です。$R^2$ は、独立変数が従属変数の変動をどの程度説明できるかを示します。値の範囲は0から1までで、1に近いほどモデルの説明力が高いことを意味します。

### 数式

決定係数は次のように定義されます：

$$ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} $$

ここで、
- $y_i$ は実際のデータの値
- $\hat{y}_i$ は予測された値（回帰モデルによる推定値）
- $\bar{y}$ はデータの平均値
- $\sum_{i=1}^{n} (y_i - \hat{y}_i)^2$ は残差平方和（Residual Sum of Squares, RSS）
- $\sum_{i=1}^{n} (y_i - \bar{y})^2$ は全平方和（Total Sum of Squares, TSS）

### 解釈

- $R^2 = 1$: モデルがデータの全ての変動を完全に説明する。
- $R^2 = 0$: モデルがデータの変動を全く説明しない。
- $0 < R^2 < 1$: モデルがデータの変動の一部を説明する。

### 具体例

前述のデータセットを使って決定係数を計算します。

#### データセット

| X1 | X2 | y  |
|----|----|----|
| 1  | 1  | 6  |
| 1  | 2  | 8  |
| 2  | 2  | 9  |
| 2  | 3  | 11 |


### 数学的手順

1. **データの定義**: $X$ と $y$ を行列およびベクトルとして定義します。
2. **バイアス項の追加**: $X$ にバイアス項（切片）を追加します。
3. **正規方程式の計算**: 正規方程式を解いて回帰係数を求めます。
4. **予測値の計算**: 求めた回帰係数を使って、予測値 $\hat{y}$ を計算します。
5. **決定係数 $R^2$ の計算**:
   - 残差平方和 (RSS) を計算します：$\sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
   - 全平方和 (TSS) を計算します：$\sum_{i=1}^{n} (y_i - \bar{y})^2$
   - $R^2$ を計算します：$R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$

### 具体的な計算例

#### データ

$$
y = \begin{pmatrix}
6 \\
8 \\
9 \\
11 \\
\end{pmatrix}
$$

$$
\bar{y} = \frac{6 + 8 + 9 + 11}{4} = 8.5
$$

#### 残差平方和 (RSS)

予測値 $\hat{y}$ を求めると（上記のコードを使うと）、

$$
\hat{y} = \begin{pmatrix}
6 \\
8 \\
9 \\
11 \\
\end{pmatrix}
$$

実際のデータと予測値の差の平方和を計算します：

$$
\sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = (6-6)^2 + (8-8)^2 + (9-9)^2 + (11-11)^2 = 0
$$

#### 全平方和 (TSS)

データの平均と実際のデータの差の平方和を計算します：

$$
\sum_{i=1}^{n} (y_i - \bar{y})^2 = (6-8.5)^2 + (8-8.5)^2 + (9-8.5)^2 + (11-8.5)^2 = 12.5
$$

#### 決定係数 $R^2$

$$
R^2 = 1 - \frac{0}{12.5} = 1
$$

この結果は、モデルがデータの変動を完全に説明することを意味します。


In [None]:
import numpy as np

# データを定義
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
y = np.array([6, 8, 9, 11])

# バイアス項（切片）を追加
X_b = np.c_[np.ones((X.shape[0], 1)), X]  # 1の列を追加

# 正規方程式を使って回帰係数を計算
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)

# 予測値を計算
y_pred = X_b.dot(theta_best)

# 決定係数 R^2 を計算
SS_total = np.sum((y - np.mean(y))**2)
SS_residual = np.sum((y - y_pred)**2)
R2 = 1 - (SS_residual / SS_total)

# 結果の表示
R2