<a href="https://colab.research.google.com/github/kiryu-3/Prmn2023/blob/main/Python/Python_Machine/Machine_Learning_1_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 重回帰分析ー知識編

In [None]:
# 最初にインポートしてください
from sklearn.datasets import fetch_openml

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 日本語を利用するためにimport
!pip install japanize-matplotlib
import japanize_matplotlib

## 説明変数と目的変数

「何かの原因となっている変数」を**説明変数**、  
「その原因を受けて発生した結果となっている変数」を**目的変数**、  
といいます。

説明変数と目的変数にはいくつかの表現があります。  
詳しくは[こちら](https://bit.ly/3kl6M6S)を参照してください。

## 回帰

**目的変数**$y$について**説明変数**$x$を使った式で表すことを**回帰**といいます。

例として、身長から体重を予測することを考えてみましょう。

身長170cmである場合の平均的な体重を予測しようとしたとき、  
「身長が170cm」という条件付きでの体重の平均を，**条件付き平均**といいます。

この**条件付き平均**を以下のような**回帰直線**（**線形回帰**ともいう）を使って求めるのが回帰です。

$$
\hat{y}=\theta_0+\theta_1x_1+\theta_2x_2+ … + \theta_nx_n
$$

$\hat{y}$は、$x$に対する$y$の条件付き平均です。

### 最小二乗法

パラメータ $\theta_0 , \theta_1 , \theta_2, ･･･ \theta_n,$ を求めることができれば、  
回帰直線が一つに定まります。

予測値と実測値の差のことを**残差**と呼びます。  
（よく聞く「**誤差**」というワードと「**残差**」の違いについては[こちら](https://bit.ly/3KHNXFo)を参照してください。）

**残差の二乗和を最小にする**アルゴリズムを**最小二乗法**と呼びます。


特徴量が一つの場合を例とします。  
このとき、回帰直線は以下のように定まるものとします。

$$
\hat{f}(x_i) = a + bx_i　(a=\theta_0 , b=\theta_1)
$$

$\hat{y}$ は**条件付き平均**、つまり予測値であるので、  
実際のデータとは多少の誤差があると考えられます。

![リンクテキスト](https://imgur.com/pAMsBS6.png)


残差は以下のようにして求めることができます。

![リンクテキスト](https://imgur.com/PMQhVAu.png)


**残差の二乗の和**が最小になるような $a$ と$b$ を求めるのが、最小二乗法になります。

$$
\sum^{n}_{i=1}{e_i^2}=\sum^{n}_{i=1}{\left\{y_i-(a+bx_i)\right\}^2} = \sum^{n}_{i=1}({y_i-\hat{f}(x_i))^2}
$$

上の式のように、「**予測値と実測値のずれを計算する関数**」のことを**損失関数**と呼びます。

残差の二乗和を損失関数として使ってもいいんですが、  
計算を楽にするために残差の二乗の平均を使うことが多いようです。

$$
MSE = \frac{1}{m}\sum^{m}_{i=1}({y_i-\hat{f}(x_i))^2}
$$

今回の場合であれば後は $a$ と $b$ の値を求めて、  
損失関数を「最小化」していくのみとなります。

ここまでは特徴量が一つの場合を見てきましたが、特徴量が複数になっても基本的な流れは同じです。

## 重回帰分析

複数の説明変数 $x_i$ ($i=1,2,3,…n$)を用いて目的変数$y$を表す回帰分析を  
**重回帰分析**といいます。

### 重回帰分析の流れ

① **モデル**を決める  
② **損失関数**を決める  
③ 損失関数を「**最小化**」する

#### モデルを決める

今回は特徴量が複数なので、各データの値を$x_{ij}$とし、  
$j$番目の特徴量の$i$番目のデータという風にします。

予測値 $\hat{y}_i$ は以下の式で表されます。

$$
\hat{y}_i = \theta_1x_{i1} + \theta_2x_{i2} + … + \theta_nx_{in}
$$

説明変数の重要度が高いものはパラメータ $\theta$ の値が大きくなります。

$$
\hat{f}(X)=\theta_0+\theta_1X_1+\theta_2X_2+ … + \theta_nX_n
$$

#### 損失関数を決める

**最小二乗法**によって求めます。   
損失関数は残差の二乗の平均を使います。  


$$
\frac{1}{m}\sum^{m}_{i=1}{e_i^2}=\frac{1}{m}\ \sum^{m}_{i=1}({y_i-\hat{f}(x_i))^2}
$$

#### 損失関数を「最小化」する

パラメータ $\theta$ は通常、簡単には求めることができません。

線形回帰の場合、導出方法は2つほどあります。

##### 最急降下法

**最急降下法**は、最も急になる方向に少しずつパラメータを動かして最適解を探る方法です。

機械学習ではこのように、パラメータを徐々に最適解に近づけていくことを  
**「学習する」**といいます。

回帰式を $\hat{f}(X)=\theta_0+\theta_1X_1+\theta_2X_2+ … + \theta_nX_n$ としたとき、  
損失関数を以下のように表すとします。

$$
L(\theta)=\frac{1}{m}\sum^{m}_{i=1}(y_i-\hat{f}(x_i))^2
$$




最急降下法のイメージ図は以下のような感じです。  
（参考：https://shorturl.at/uS156 ）

![](https://imgur.com/EZKpssC.png)

ある地点での接線の傾きの係数は微分で求めることができます。  
（参考：https://shorturl.at/ozEZ3 ）

![](https://imgur.com/pXDUIIx.png)

それぞれのパラメータを以下の式で同時に更新していきます。

$$
\theta_0 := \theta_0 – \alpha\frac{\partial}{\partial\theta_0}L(\theta)
$$

$$
\theta_1 := \theta_1 – \alpha\frac{\partial}{\partial\theta_1}L(\theta)
$$


$$
・
$$
$$  
・  
$$
$$  
・  
$$

$$
\theta_n := \theta_n – \alpha\frac{\partial}{\partial\theta_n}L(\theta)
$$

偏微分の結果は以下のようになります。

$$
\frac{\partial}{\partial\theta_0}L(\theta)=-\frac{2}{m}\sum^{m}_{i=1}(y_i-(\theta_0+\theta_1x_{i1} … \theta_nx_{in}))
$$

$$
\frac{\partial}{\partial\theta_1}L(\theta)=-\frac{2}{m}\sum^{m}_{i=1}(y_i-(\theta_0+\theta_1x_{i1} … \theta_nx_{in}))x_{i1}
$$

$$
\frac{\partial}{\partial\theta_n}L(\theta)=-\frac{2}{m}\sum^{m}_{i=1}(y_i-(\theta_0+\theta_1x_{i1} … \theta_nx_{in}))x_{in}
$$

※計算過程の詳細について  
①カメさんのブログ：https://shorturl.at/bzPY5  
②からっぽのしょこさんのブログ：https://www.anarchive-beta.com/entry/2021/08/15/203504

##### 正規方程式

回帰式を $\hat{f}(X)=\theta_0+\theta_1X_1+\theta_2X_2+ … + \theta_nX_n$ としたとき、  
損失関数を以下のように表すとします。

$$
L(\theta)=\frac{1}{m}\sum^{m}_{i=1}(y_i-\hat{f}(x_i))^2
$$




誤差を考慮する必要があるので、これを $b$（**バイアス**）で表します。

式を書き直すと以下のようになります。

$$
\hat{f}(x_i) = \theta_1x_{i1} + \theta_2x_{i2} + … + \theta_nx_{in} + b
$$

$b = \theta_0×x_0 = \theta_0×1$ とダミーの変数を用いることで、  
形式を他の項に合わせることができます。

$$
\hat{f}(x_i) = \theta_1x_{i1} + \theta_2x_{i2} + … + \theta_nx_{in} + \theta_0x_{i0}
$$

これを行列の形に変形します。

$$
\begin{bmatrix}
\hat{y}_1 \\
\hat{y}_2 \\
\vdots \\
\hat{y}_{m-1} \\
\hat{y}_m \\
\end{bmatrix}
=
\begin{bmatrix}
x_{10} & x_{11} & \cdots & x_{1n-1} & x_{1n}   \\
x_{20} & x_{21} & \cdots & x_{2n-1} & x_{2n}   \\
\vdots & \vdots & \cdots & \vdots & \vdots \\
x_{m-10} & x_{m-11} & \cdots & x_{m-1n-1} & x_{m-1n}   \\
x_{m0} & x_{m1} & \cdots & x_{mn-1} & x_{mn}   \\
\end{bmatrix}
\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\vdots \\
\vdots \\
\theta_{n-1} \\
\theta_n \\
\end{bmatrix}
$$

これを行列の形に変形します。

$$
\begin{bmatrix}
\hat{y}_1 \\
\hat{y}_2 \\
\vdots \\
\hat{y}_{m-1} \\
\hat{y}_m \\
\end{bmatrix}
=
\begin{bmatrix}
x_{10} & x_{11} & \cdots & x_{1n-1} & x_{1n}   \\
x_{20} & x_{21} & \cdots & x_{2n-1} & x_{2n}   \\
\vdots & \vdots & \cdots & \vdots & \vdots \\
x_{m-10} & x_{m-11} & \cdots & x_{m-1n-1} & x_{m-1n}   \\
x_{m0} & x_{m1} & \cdots & x_{mn-1} & x_{mn}   \\
\end{bmatrix}
\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\vdots \\
\vdots \\
\theta_{n-1} \\
\theta_n \\
\end{bmatrix}
$$

それぞれの行列およびベクトルを $\mathbf{\hat{y}},\mathbf{X},\theta$ とすると、

$$
\mathbf{\hat{y}}=\mathbf{X}\mathbf{\theta}
$$

と表すことができます。

損失関数は以下のように計算できます。

$$
\begin{align*}
\sum^{m}_{i=1}(y_i-\hat{y_i})^2&=(\mathbf{y}-\mathbf{X}\mathbf{\theta})^T(\mathbf{y}-\mathbf{X}\mathbf{\theta})\\
&=(\mathbf{y}^T-\mathbf{\theta}^T\mathbf{X}^T)(\mathbf{y}-\mathbf{X}\mathbf{\theta})\\
&=\mathbf{y}^T\mathbf{y}-2\mathbf{\theta}^T\mathbf{X}^T\mathbf{y}+\mathbf{\theta}^T\mathbf{X}^T\mathbf{X}\theta
\end{align*}
$$



これを$\theta$で偏微分して、0になる$\theta$が最適解になります。

$$
\begin{align*}
-2\mathbf{X}^T\mathbf{y}+2\mathbf{X}^T\mathbf{X}\theta=0
\end{align*}
$$

損失関数を計算すると、以下のような結果が得られます。

$$
\theta=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}
$$

（答えの導出過程は[こちら](https://bit.ly/3lTzKuL) を参照してください。)

##### 最急降下法と正規方程式

一発の数式でパッと解を出せるのが**正規方程式**の大きな特徴です。

しかし、特徴量の数$n$が多すぎると$(\mathbf{X}^T\mathbf{X})^{-1}$の計算に時間がかかります。  
計算量は$n^3$のペースで増えていくようです。

$n$が大きい場合（1万とか？）は、**最急降下法**を使って解くことが一般的なようです。