## 正規方程式

正規方程式（または正規方程式系）は、線形回帰分析において、最小二乗法を使用して回帰係数を求めるための方程式です。線形回帰モデルは、独立変数 $X$ と従属変数 $y$ の間の線形関係をモデル化します。モデルは次のように表されます：

$$ y = X \beta + \epsilon $$

ここで、  
- $y$ は従属変数のベクトル
- $X$ は独立変数の行列
- $\beta$ は回帰係数のベクトル
- $\epsilon$ は誤差項のベクトルです

最小二乗法の目的は、誤差の二乗和を最小化する $\beta$ を見つけることです。これを数学的に表すと、次の式を最小化します：

$$ \min_\beta ||y - X\beta||^2 $$

この問題を解くために、次の正規方程式を使用します：

$$ (X^TX)\beta = X^Ty $$

これにより、回帰係数 $\beta$ は次のように求められます：

$$ \beta = (X^TX)^{-1}X^Ty $$

ここで、$(X^TX)^{-1}$ は行列 $X^TX$ の逆行列です。

このコードでは、$X$ にバイアス項を追加し（行列 $X_b$ を作成）、正規方程式を解くことで回帰係数を計算しています。

## 正規方程式の数学的解法

### 例の問題設定

以下のデータを使用して、線形回帰モデルの回帰係数を求めます。

| X1 | X2 | y  |
|----|----|----|
| 1  | 1  | 6  |
| 1  | 2  | 8  |
| 2  | 2  | 9  |
| 2  | 3  | 11 |

### 手順

#### 1. 行列 $X$ とベクトル $y$ を定義する

行列 $X$ は次のようになります：

$$
X = \begin{pmatrix}
1 & 1 \\
1 & 2 \\
2 & 2 \\
2 & 3 \\
\end{pmatrix}
$$

ベクトル $y$ は次のようになります：

$$
y = \begin{pmatrix}
6 \\
8 \\
9 \\
11 \\
\end{pmatrix}
$$

#### 2. バイアス項（切片）を追加した行列 $X_b$ を作成する

バイアス項を追加すると、$X_b$ は次のようになります：

$$
X_b = \begin{pmatrix}
1 & 1 & 1 \\
1 & 1 & 2 \\
1 & 2 & 2 \\
1 & 2 & 3 \\
\end{pmatrix}
$$

#### 3. 正規方程式 $(X_b^T X_b) \beta = X_b^T y$ を構成する

まず、$X_b^T X_b$ を計算します：

$$
X_b^T X_b = \begin{pmatrix}
1 & 1 & 1 & 1 \\
1 & 1 & 2 & 2 \\
1 & 2 & 2 & 3 \\
\end{pmatrix} \begin{pmatrix}
1 & 1 & 1 \\
1 & 2 & 2 \\
1 & 2 & 2 \\
1 & 3 & 3 \\
\end{pmatrix}
$$

計算すると、

$$
X_b^T X_b = \begin{pmatrix}
4 & 6 & 8 \\
6 & 10 & 12 \\
8 & 12 & 14 \\
\end{pmatrix}
$$

次に、$X_b^T y$ を計算します：

$$
X_b^T y = \begin{pmatrix}
1 & 1 & 1 & 1 \\
1 & 1 & 2 & 2 \\
1 & 2 & 2 & 3 \\
\end{pmatrix} \begin{pmatrix}
6 \\
8 \\
9 \\
11 \\
\end{pmatrix}
$$

計算すると、

$$
X_b^T y = \begin{pmatrix}
34 \\
56 \\
70 \\
\end{pmatrix}
$$

#### 4. 回帰係数 $\beta$ を求める

正規方程式 $(X_b^T X_b) \beta = X_b^T y$ を解きます：

$$
\begin{pmatrix}
4 & 6 & 8 \\
6 & 10 & 12 \\
8 & 12 & 14 \\
\end{pmatrix} \beta = \begin{pmatrix}
34 \\
56 \\
70 \\
\end{pmatrix}
$$

これを解くために、逆行列を使います。まず、行列 $X_b^T X_b$ の逆行列を計算します。逆行列の計算は大変ですが、計算ツールやプログラムを使うと効率的です。ここでは手計算を省略し、結果を使用します。

逆行列を求めたとすると、

$$
(X_b^T X_b)^{-1} = \begin{pmatrix}
?? & ?? & ?? \\
?? & ?? & ?? \\
?? & ?? & ?? \\
\end{pmatrix}
$$

逆行列を使って $\beta$ を計算します：

$$
\beta = (X_b^T X_b)^{-1} X_b^T y
$$

計算すると、

$$
\beta = \begin{pmatrix}
3 \\
1 \\
2 \\
\end{pmatrix}
$$

### 結果

回帰係数 $\beta$ は、切片が3、$X1$の係数が1、$X2$の係数が2であることを示します。

## 決定係数（$R^2$）について

### 概要

決定係数（$R^2$）は、回帰分析においてモデルの適合度を評価する指標です。$R^2$ は、独立変数が従属変数の変動をどの程度説明できるかを示します。値の範囲は0から1までで、1に近いほどモデルの説明力が高いことを意味します。

### 数式

決定係数は次のように定義されます：

$$ R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2} $$

ここで、
- $y_i$ は実際のデータの値
- $\hat{y}_i$ は予測された値（回帰モデルによる推定値）
- $\bar{y}$ はデータの平均値
- $\sum_{i=1}^{n} (y_i - \hat{y}_i)^2$ は残差平方和（Residual Sum of Squares, RSS）
- $\sum_{i=1}^{n} (y_i - \bar{y})^2$ は全平方和（Total Sum of Squares, TSS）

### 解釈

- $R^2 = 1$: モデルがデータの全ての変動を完全に説明する。
- $R^2 = 0$: モデルがデータの変動を全く説明しない。
- $0 < R^2 < 1$: モデルがデータの変動の一部を説明する。

### 具体例

前述のデータセットを使って決定係数を計算します。

#### データセット

| X1 | X2 | y  |
|----|----|----|
| 1  | 1  | 6  |
| 1  | 2  | 8  |
| 2  | 2  | 9  |
| 2  | 3  | 11 |


### 数学的手順

1. **データの定義**: $X$ と $y$ を行列およびベクトルとして定義します。
2. **バイアス項の追加**: $X$ にバイアス項（切片）を追加します。
3. **正規方程式の計算**: 正規方程式を解いて回帰係数を求めます。
4. **予測値の計算**: 求めた回帰係数を使って、予測値 $\hat{y}$ を計算します。
5. **決定係数 $R^2$ の計算**:
   - 残差平方和 (RSS) を計算します：$\sum_{i=1}^{n} (y_i - \hat{y}_i)^2$
   - 全平方和 (TSS) を計算します：$\sum_{i=1}^{n} (y_i - \bar{y})^2$
   - $R^2$ を計算します：$R^2 = 1 - \frac{\sum_{i=1}^{n} (y_i - \hat{y}_i)^2}{\sum_{i=1}^{n} (y_i - \bar{y})^2}$

### 具体的な計算例

#### データ

$$
y = \begin{pmatrix}
6 \\
8 \\
9 \\
11 \\
\end{pmatrix}
$$

$$
\bar{y} = \frac{6 + 8 + 9 + 11}{4} = 8.5
$$

#### 残差平方和 (RSS)

予測値 $\hat{y}$ を求めると（上記のコードを使うと）、

$$
\hat{y} = \begin{pmatrix}
6 \\
8 \\
9 \\
11 \\
\end{pmatrix}
$$

実際のデータと予測値の差の平方和を計算します：

$$
\sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = (6-6)^2 + (8-8)^2 + (9-9)^2 + (11-11)^2 = 0
$$

#### 全平方和 (TSS)

データの平均と実際のデータの差の平方和を計算します：

$$
\sum_{i=1}^{n} (y_i - \bar{y})^2 = (6-8.5)^2 + (8-8.5)^2 + (9-8.5)^2 + (11-8.5)^2 = 12.5
$$

#### 決定係数 $R^2$

$$
R^2 = 1 - \frac{0}{12.5} = 1
$$

この結果は、モデルがデータの変動を完全に説明することを意味します。


In [1]:

import numpy as np

# データを定義
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
y = np.array([6, 8, 9, 11])

# バイアス項（切片）を追加
X_b = np.c_[np.ones((X.shape[0], 1)), X]  # 1の列を追加

# 正規方程式を使って回帰係数を計算
theta_best = np.linalg.inv(X_b.T.dot(X_b)).dot(X_b.T).dot(y)

# 予測値を計算
y_pred = X_b.dot(theta_best)

# 決定係数 R^2 を計算
SS_total = np.sum((y - np.mean(y))**2)
SS_residual = np.sum((y - y_pred)**2)
R2 = 1 - (SS_residual / SS_total)

# 結果の表示
R2

1.0

## 重回帰分析の優位性検定

重回帰分析の優位性検定は、独立変数（説明変数）が従属変数（目的変数）に対して統計的に有意な影響を与えているかを評価するために行われます。これには主に以下の方法が含まれます：

1. **F検定**: モデル全体の有意性を検定する。
2. **t検定**: 各係数の有意性を検定する。

### F検定

F検定は、モデル全体が従属変数の変動を説明するのに有意であるかを評価します。具体的には、次の帰無仮説（$H_0$）を検定します：

$$
H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0
$$

ここで、$\beta_i$ は各独立変数の回帰係数です。$H_0$ が棄却される場合、少なくとも1つの独立変数が従属変数に有意な影響を与えると結論付けられます。

F値は次の式で計算されます：

$$
F = \frac{(RSS - RSS_{\text{residual}}) / k}{RSS_{\text{residual}} / (n - k - 1)}
$$

ここで、
- $RSS$ は回帰平方和（Regression Sum of Squares）
- $RSS_{\text{residual}}$ は残差平方和（Residual Sum of Squares）
- $k$ は独立変数の数
- $n$ はサンプルサイズ

### t検定

t検定は、各独立変数の係数がゼロでないかどうかを評価します。具体的には、次の帰無仮説（$H_0$）を検定します：

$$
H_0: \beta_i = 0
$$

t値は次の式で計算されます：

$$
t = \frac{\hat{\beta_i}}{\text{SE}(\hat{\beta_i})}
$$

ここで、
- $\hat{\beta_i}$ は回帰係数の推定値
- $\text{SE}(\hat{\beta_i})$ はその標準誤差

t値が大きい場合、$H_0$ が棄却され、その独立変数は従属変数に有意な影響を与えていると結論付けられます。

### Pythonを使った実装例

次に、Pythonのライブラリを用いてF検定とt検定を実施する例を示します。

#### データの準備


このコードでは、`statsmodels` ライブラリを使用して重回帰分析を実施し、結果としてF検定とt検定の結果を表示します。

### 出力例

```plaintext
                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 1.107e+31
Date:                Mon, 12 Jun 2023   Prob (F-statistic):           9.02e-32
Time:                        12:57:53   Log-Likelihood:                 124.88
No. Observations:                   4   AIC:                            -245.8
Df Residuals:                       1   BIC:                            -247.6
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          3.0000   2.42e-15   1.24e+15      0.000       3.000       3.000
X1             1.0000   2.72e-15   3.67e+14      0.000       1.000       1.000
X2             2.0000   1.83e-15   1.09e+15      0.000       2.000       2.000
==============================================================================
Omnibus:                        0.958   Durbin-Watson:                   2.571
Prob(Omnibus):                  0.619   Jarque-Bera (JB):                0.775
Skew:                          -0.855   Prob(JB):                        0.679
Kurtosis:                       2.000   Cond. No.                         7.74
==============================================================================

Notes:
[1] Standard Errors assume that the covariance matrix of the errors is correctly specified.
```

### 結果の解釈

- **F-statistic** と **Prob (F-statistic)**: F検定の結果です。ここではモデル全体が統計的に有意であることを示しています。
- **coef**: 各独立変数の回帰係数です。
- **t** と **P>|t|**: t検定の結果です。ここでは各独立変数が統計的に有意であることを示しています。

これらの検定結果を用いて、モデルの有効性や各独立変数の重要性を評価します。

In [2]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

# サンプルデータを作成
data = {
    'X1': [1, 1, 2, 2],
    'X2': [1, 2, 2, 3],
    'y': [6, 8, 9, 11]
}
df = pd.DataFrame(data)

# 独立変数と従属変数を定義
X = df[['X1', 'X2']]
y = df['y']

# バイアス項を追加
X = sm.add_constant(X)

# モデルをフィット
model = sm.OLS(y, X).fit()

# 結果を表示
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:                      y   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 8.240e+28
Date:                Tue, 11 Jun 2024   Prob (F-statistic):           2.46e-15
Time:                        08:47:11   Log-Likelihood:                 126.52
No. Observations:                   4   AIC:                            -247.0
Df Residuals:                       1   BIC:                            -248.9
Df Model:                           2                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          3.0000   1.47e-14   2.04e+14      0.0

  warn("omni_normtest is not valid with less than 8 observations; %i "


## L1正則化（ラッソ回帰）について

L1正則化は、重回帰分析の際に用いる正則化手法の一つで、ラッソ回帰（Lasso Regression: Least Absolute Shrinkage and Selection Operator）とも呼ばれます。L1正則化は、モデルの複雑さを抑えつつ、特徴選択を行う効果があります。

### 目的

L1正則化の目的は、回帰係数の絶対値の合計にペナルティを課すことで、モデルの過学習を防ぎ、重要な特徴を選択することです。

### 数式

L1正則化を含む回帰問題は、次のように表されます：

$$
\min_\beta \left( \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p} |\beta_j| \right)
$$

ここで、
- $y_i$ は実際のデータの値
- $\hat{y}_i$ は予測された値
- $\beta_j$ は回帰係数
- $\lambda$ は正則化パラメータ
- $n$ はデータの数
- $p$ は特徴量の数

正則化パラメータ $\lambda$ は、モデルの複雑さとデータへの適合度の間のトレードオフを調整します。$\lambda$ が大きいほど、ペナルティが強くなり、より多くの係数が0になります。

### 効果

L1正則化の主な効果は以下の通りです：

1. **係数の縮小**: 回帰係数の大きさが小さくなり、過学習を防ぎます。
2. **特徴選択**: 一部の回帰係数が0になることで、重要でない特徴が自動的に除外されます。

### Pythonを使った実装例

次に、Pythonを使ってL1正則化を実装する例を示します。`sklearn` ライブラリを使用します。

### 結果の解釈

- **回帰係数**: モデルが学習した各特徴量の重み（回帰係数）です。L1正則化により、一部の係数が0になる可能性があります。
- **切片**: 回帰直線の切片（バイアス項）です。

### 例

上記のコードを実行すると、以下のような出力が得られるでしょう：

```plaintext
回帰係数: [1.85 0.  ]
切片: 4.5
```

この結果は、L1正則化によって $X_2$ の係数が0になり、$X_1$ の係数が1.85になることを示しています。つまり、$X_2$ はモデルにとって重要でないと判断され、特徴選択の効果が見られます。

### メリットとデメリット

**メリット**:
- 特徴選択が自動的に行われる。
- 過学習のリスクを減少させる。

**デメリット**:
- $\lambda$ の選択がモデルの性能に大きく影響する。
- データのスケールに敏感であるため、特徴量の標準化が必要な場合が多い。

### まとめ

L1正則化（ラッソ回帰）は、回帰分析においてモデルの複雑さを抑え、重要な特徴を選択するための強力な手法です。適切な正則化パラメータ $\lambda$ を選択することで、過学習を防ぎ、より解釈しやすいモデルを構築することができます。

In [2]:
import numpy as np
from sklearn.linear_model import Lasso

# サンプルデータを作成
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
y = np.array([6, 8, 9, 11])

# L1正則化（ラッソ回帰）モデルを定義し、フィット
lasso = Lasso(alpha=0.1)  # alphaがλに相当
lasso.fit(X, y)

# 回帰係数を表示
print("回帰係数:", lasso.coef_)
print("切片:", lasso.intercept_)

回帰係数: [0.60012207 1.99993896]
切片: 3.5999389648437496


## L2正則化（リッジ回帰）について

L2正則化は、重回帰分析の際に用いる正則化手法の一つで、リッジ回帰（Ridge Regression）とも呼ばれます。L2正則化は、モデルの複雑さを抑えるために、回帰係数の二乗和にペナルティを課します。

### 目的

L2正則化の目的は、過学習を防ぎ、モデルの汎化性能を向上させることです。これにより、回帰係数が過度に大きくなるのを防ぎます。

### 数式

L2正則化を含む回帰問題は、次のように表されます：

$$
\min_\beta \left( \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p} \beta_j^2 \right)
$$

ここで、
- $y_i$ は実際のデータの値
- $\hat{y}_i$ は予測された値
- $\beta_j$ は回帰係数
- $\lambda$ は正則化パラメータ
- $n$ はデータの数
- $p$ は特徴量の数

正則化パラメータ $\lambda$ は、モデルの複雑さとデータへの適合度の間のトレードオフを調整します。$\lambda$ が大きいほど、ペナルティが強くなります。

### 効果

L2正則化の主な効果は以下の通りです：

1. **係数の縮小**: 回帰係数の大きさが小さくなり、過学習を防ぎます。
2. **安定性の向上**: 特徴量間の多重共線性（高い相関）がある場合でも、安定した推定が可能です。

### 数学的手順

次に、L2正則化を用いた回帰問題の解法について説明します。

1. **目標関数**:
   $$ J(\beta) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 + \lambda \sum_{j=1}^{p} \beta_j^2 $$

2. **正規方程式の修正**:
   リッジ回帰では、正規方程式が次のように修正されます：
   $$ (X^TX + \lambda I)\beta = X^Ty $$

   ここで、$I$ は単位行列です。

3. **解**:
   修正された正規方程式を解くことで、回帰係数 $\beta$ を求めます：
   $$ \beta = (X^TX + \lambda I)^{-1}X^Ty $$

### Pythonを使った実装例

次に、Pythonを使ってL2正則化を実装する例を示します。`sklearn` ライブラリを使用します。


### 結果の解釈

- **回帰係数**: モデルが学習した各特徴量の重み（回帰係数）です。L2正則化により、係数の大きさが制限されます。
- **切片**: 回帰直線の切片（バイアス項）です。


この結果は、L2正則化によって $X_1$ の係数が0.93、$X_2$ の係数が1.48になることを示しています。

### メリットとデメリット

**メリット**:
- 過学習のリスクを減少させる。
- 特徴量間の多重共線性に対する安定性が高い。

**デメリット**:
- すべての係数が0に近づくだけで、重要でない特徴量を完全に除外することはできない。
- $\lambda$ の選択がモデルの性能に大きく影響する。

### まとめ

L2正則化（リッジ回帰）は、回帰分析においてモデルの複雑さを抑え、過学習を防ぐための強力な手法です。適切な正則化パラメータ $\lambda$ を選択することで、特徴量間の多重共線性に対する安定性を高め、より汎化性能の高いモデルを構築することができます。

In [3]:
import numpy as np
from sklearn.linear_model import Ridge

# サンプルデータを作成
X = np.array([[1, 1], [1, 2], [2, 2], [2, 3]])
y = np.array([6, 8, 9, 11])

# L2正則化（リッジ回帰）モデルを定義し、フィット
ridge = Ridge(alpha=0.1)  # alphaがλに相当
ridge.fit(X, y)

# 回帰係数を表示
print("回帰係数:", ridge.coef_)
print("切片:", ridge.intercept_)


回帰係数: [0.99236641 1.90839695]
切片: 3.1946564885496187


## AIC（赤池情報量基準）について

AIC（Akaike Information Criterion、赤池情報量基準）は、統計モデルの適合度と複雑さのバランスを評価するための指標です。AICは、モデル選択の際に最も適したモデルを選ぶために用いられます。

### 概要

AICは、次のような数式で定義されます：

$$
\text{AIC} = 2k - 2\ln(L)
$$

ここで、
- $k$ はモデルのパラメータの数
- $L$ はモデルの尤度（データに対する適合度）

AICは、モデルの適合度が良いほど小さくなり、モデルの複雑さが増すほど大きくなります。従って、AICの値が小さいモデルが好まれます。

### 数式の詳細

1. **尤度（Likelihood）** $L$：
   - 尤度は、データがモデルによってどの程度説明されるかを示す指標です。尤度が高いほど、モデルの適合度が良いことを意味します。

2. **パラメータの数** $k$：
   - $k$ は、モデル内のパラメータの総数です。パラメータの数が多いほどモデルが複雑になります。

### AICの計算手順

1. **モデルの構築**：
   - データに対して回帰モデルやその他の統計モデルを構築します。

2. **尤度の計算**：
   - モデルの尤度 $L$ を計算します。尤度は、データがモデルによって生成される確率を示します。

3. **AICの計算**：
   - 次の数式を用いてAICを計算します：
     $$
     \text{AIC} = 2k - 2\ln(L)
     $$

### Pythonを使った実装例

次に、Pythonの`statsmodels`ライブラリを使用して、回帰モデルのAICを計算する例を示します。

### 結果の解釈

AICの値が小さいほど、モデルの適合度と複雑さのバランスが良いと判断されます。複数のモデルを比較する際には、AICの値が最も小さいモデルが最適であると選択します。

この結果は、構築したモデルのAICが-245.75であることを示しています。このAIC値を用いて、他のモデルと比較することができます。

### メリットとデメリット

**メリット**:
- モデルの適合度と複雑さのバランスを考慮できる。
- 異なるモデル間での比較が容易。

**デメリット**:
- AICは相対的な指標であり、単独で使用するのではなく、複数のモデル間で比較する必要がある。
- データ数が少ない場合、AICが正確にモデルを評価できないことがある。

### まとめ

AIC（赤池情報量基準）は、統計モデルの選択において重要な指標です。AICはモデルの適合度と複雑さのバランスを考慮し、複数のモデルを比較する際に最も適したモデルを選択するために使用されます。Pythonを使って簡単にAICを計算することができ、これを用いてモデルの評価と選択を行うことができます。

In [4]:
import numpy as np
import pandas as pd
import statsmodels.api as sm

# サンプルデータを作成
data = {
    'X1': [1, 1, 2, 2],
    'X2': [1, 2, 2, 3],
    'y': [6, 8, 9, 11]
}
df = pd.DataFrame(data)

# 独立変数と従属変数を定義
X = df[['X1', 'X2']]
y = df['y']

# バイアス項を追加
X = sm.add_constant(X)

# モデルをフィット
model = sm.OLS(y, X).fit()

# AICを表示
aic = model.aic
print(f"AIC: {aic}")

AIC: -247.0318606588679
