<a href="https://colab.research.google.com/github/kiryu-3/Prmn2023/blob/main/Python/Python_Machine/Machine_Learning_1_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 重回帰分析ー知識編

In [None]:
# 最初にインポートしてください
from sklearn.datasets import fetch_openml

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 日本語を利用するためにimport
!pip install japanize-matplotlib
import japanize_matplotlib

## 説明変数と目的変数

「何かの原因となっている変数」を**説明変数**、  
「その原因を受けて発生した結果となっている変数」を**目的変数**、  
といいます。

説明変数と目的変数にはいくつかの表現があります。  
詳しくは[こちら](https://bit.ly/3kl6M6S)を参照してください。

## 回帰

**目的変数**$y$について**説明変数**$x$を使った式で表すことを**回帰**といいます。

例として、身長から体重を予測することを考えてみましょう。

身長170cmである場合の平均的な体重を予測しようとしたとき、  
「身長が170cm」という条件付きでの体重の平均を，**条件付き平均**といいます。

この**条件付き平均**を以下のような**回帰直線**（**線形回帰**ともいう）を使って求めるのが回帰です。

$$
\hat{y}=\theta_0+\theta_1x_1+\theta_2x_2+ … + \theta_nx_n
$$

$\hat{y}$は、$x$に対する$y$の条件付き平均です。

### 最小二乗法

パラメータ $\theta_0 , \theta_1 , \theta_2, ･･･ \theta_n,$ を求めることができれば、  
回帰直線が一つに定まります。

予測値と実測値の差のことを**残差**と呼びます。  
（よく聞く「**誤差**」というワードと「**残差**」の違いについては[こちら](https://bit.ly/3KHNXFo)を参照してください。）

**残差の二乗和を最小にする**アルゴリズムを**最小二乗法**と呼びます。


特徴量が一つの場合を例とします。  
このとき、回帰直線は以下のように定まるものとします。

$$
\hat{f}(x_i) = a + bx_i　(a=\theta_0 , b=\theta_1)
$$

$\hat{y}$ は**条件付き平均**、つまり予測値であるので、  
実際のデータとは多少の誤差があると考えられます。

![リンクテキスト](https://imgur.com/pAMsBS6.png)


残差は以下のようにして求めることができます。

![リンクテキスト](https://imgur.com/PMQhVAu.png)


**残差の二乗の和**が最小になるような $a$ と$b$ を求めるのが、最小二乗法になります。

$$
\sum^{n}_{i=1}{e_i^2}=\sum^{n}_{i=1}{\left\{y_i-(a+bx_i)\right\}^2} = \sum^{n}_{i=1}({y_i-\hat{f}(x_i))^2}
$$

上の式のように、「**予測値と実測値のずれを計算する関数**」のことを**損失関数**と呼びます。

残差の二乗和を損失関数として使ってもいいんですが、  
計算を楽にするために残差の二乗の平均を使うことが多いようです。

$$
MSE = \frac{1}{m}\sum^{m}_{i=1}({y_i-\hat{f}(x_i))^2}
$$

今回の場合であれば後は $a$ と $b$ の値を求めて、  
損失関数を「最小化」していくのみとなります。

ここまでは特徴量が一つの場合を見てきましたが、特徴量が複数になっても基本的な流れは同じです。

## 重回帰分析

複数の説明変数 $x_i$ ($i=1,2,3,…n$)を用いて目的変数$y$を表す回帰分析を  
**重回帰分析**といいます。

### 重回帰分析の流れ

① **モデル**を決める  
② **損失関数**を決める  
③ 損失関数を「**最小化**」する

#### モデルを決める

今回は特徴量が複数なので、各データの値を$x_{ij}$とし、  
$j$番目の特徴量の$i$番目のデータという風にします。

予測値 $\hat{y}_i$ は以下の式で表されます。

$$
\hat{y}_i = \theta_1x_{i1} + \theta_2x_{i2} + … + \theta_nx_{in}
$$

説明変数の重要度が高いものはパラメータ $\theta$ の値が大きくなります。

$$
\hat{f}(X)=\theta_0+\theta_1X_1+\theta_2X_2+ … + \theta_nX_n
$$

#### 損失関数を決める

**最小二乗法**によって求めます。   
損失関数は残差の二乗の平均を使います。  


$$
\frac{1}{m}\sum^{m}_{i=1}{e_i^2}=\frac{1}{m}\ \sum^{m}_{i=1}({y_i-\hat{f}(x_i))^2}
$$

#### 損失関数を「最小化」する

パラメータ $\theta$ は通常、簡単には求めることができません。

線形回帰の場合、導出方法は2つほどあります。

##### 最急降下法

**最急降下法**は、最も急になる方向に少しずつパラメータを動かして最適解を探る方法です。

機械学習ではこのように、パラメータを徐々に最適解に近づけていくことを  
**「学習する」**といいます。

回帰式を $\hat{f}(X)=\theta_0+\theta_1X_1+\theta_2X_2+ … + \theta_nX_n$ としたとき、  
損失関数を以下のように表すとします。

$$
L(\theta)=\frac{1}{m}\sum^{m}_{i=1}(y_i-\hat{f}(x_i))^2
$$




最急降下法のイメージ図は以下のような感じです。  
（参考：https://shorturl.at/uS156 ）

![](https://imgur.com/EZKpssC.png)

ある地点での接線の傾きの係数は微分で求めることができます。  
（参考：https://shorturl.at/ozEZ3 ）

![](https://imgur.com/pXDUIIx.png)

それぞれのパラメータを以下の式で同時に更新していきます。

$$
\theta_0 := \theta_0 – \alpha\frac{\partial}{\partial\theta_0}L(\theta)
$$

$$
\theta_1 := \theta_1 – \alpha\frac{\partial}{\partial\theta_1}L(\theta)
$$


$$
・
$$
$$  
・  
$$
$$  
・  
$$

$$
\theta_n := \theta_n – \alpha\frac{\partial}{\partial\theta_n}L(\theta)
$$

偏微分の結果は以下のようになります。

$$
\frac{\partial}{\partial\theta_0}L(\theta)=-\frac{2}{m}\sum^{m}_{i=1}(y_i-(\theta_0+\theta_1x_{i1} … \theta_nx_{in}))
$$

$$
\frac{\partial}{\partial\theta_1}L(\theta)=-\frac{2}{m}\sum^{m}_{i=1}(y_i-(\theta_0+\theta_1x_{i1} … \theta_nx_{in}))x_{i1}
$$

$$
\frac{\partial}{\partial\theta_n}L(\theta)=-\frac{2}{m}\sum^{m}_{i=1}(y_i-(\theta_0+\theta_1x_{i1} … \theta_nx_{in}))x_{in}
$$

※計算過程の詳細について  
①カメさんのブログ：https://shorturl.at/bzPY5  
②からっぽのしょこさんのブログ：https://www.anarchive-beta.com/entry/2021/08/15/203504

##### 正規方程式

回帰式を $\hat{f}(X)=\theta_0+\theta_1X_1+\theta_2X_2+ … + \theta_nX_n$ としたとき、  
損失関数を以下のように表すとします。

$$
L(\theta)=\frac{1}{m}\sum^{m}_{i=1}(y_i-\hat{f}(x_i))^2
$$




誤差を考慮する必要があるので、これを $b$（**バイアス**）で表します。

式を書き直すと以下のようになります。

$$
\hat{f}(x_i) = \theta_1x_{i1} + \theta_2x_{i2} + … + \theta_nx_{in} + b
$$

$b = \theta_0×x_0 = \theta_0×1$ とダミーの変数を用いることで、  
形式を他の項に合わせることができます。

$$
\hat{f}(x_i) = \theta_1x_{i1} + \theta_2x_{i2} + … + \theta_nx_{in} + \theta_0x_{i0}
$$

これを行列の形に変形します。

$$
\begin{bmatrix}
\hat{y}_1 \\
\hat{y}_2 \\
\vdots \\
\hat{y}_{m-1} \\
\hat{y}_m \\
\end{bmatrix}
=
\begin{bmatrix}
x_{10} & x_{11} & \cdots & x_{1n-1} & x_{1n}   \\
x_{20} & x_{21} & \cdots & x_{2n-1} & x_{2n}   \\
\vdots & \vdots & \cdots & \vdots & \vdots \\
x_{m-10} & x_{m-11} & \cdots & x_{m-1n-1} & x_{m-1n}   \\
x_{m0} & x_{m1} & \cdots & x_{mn-1} & x_{mn}   \\
\end{bmatrix}
\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\vdots \\
\vdots \\
\theta_{n-1} \\
\theta_n \\
\end{bmatrix}
$$

これを行列の形に変形します。

$$
\begin{bmatrix}
\hat{y}_1 \\
\hat{y}_2 \\
\vdots \\
\hat{y}_{m-1} \\
\hat{y}_m \\
\end{bmatrix}
=
\begin{bmatrix}
x_{10} & x_{11} & \cdots & x_{1n-1} & x_{1n}   \\
x_{20} & x_{21} & \cdots & x_{2n-1} & x_{2n}   \\
\vdots & \vdots & \cdots & \vdots & \vdots \\
x_{m-10} & x_{m-11} & \cdots & x_{m-1n-1} & x_{m-1n}   \\
x_{m0} & x_{m1} & \cdots & x_{mn-1} & x_{mn}   \\
\end{bmatrix}
\begin{bmatrix}
\theta_0 \\
\theta_1 \\
\vdots \\
\vdots \\
\theta_{n-1} \\
\theta_n \\
\end{bmatrix}
$$

それぞれの行列およびベクトルを $\mathbf{\hat{y}},\mathbf{X},\theta$ とすると、

$$
\mathbf{\hat{y}}=\mathbf{X}\mathbf{\theta}
$$

と表すことができます。

損失関数は以下のように計算できます。

$$
\begin{align*}
\sum^{m}_{i=1}(y_i-\hat{y_i})^2&=(\mathbf{y}-\mathbf{X}\mathbf{\theta})^T(\mathbf{y}-\mathbf{X}\mathbf{\theta})\\
&=(\mathbf{y}^T-\mathbf{\theta}^T\mathbf{X}^T)(\mathbf{y}-\mathbf{X}\mathbf{\theta})\\
&=\mathbf{y}^T\mathbf{y}-2\mathbf{\theta}^T\mathbf{X}^T\mathbf{y}+\mathbf{\theta}^T\mathbf{X}^T\mathbf{X}\theta
\end{align*}
$$



これを$\theta$で偏微分して、0になる$\theta$が最適解になります。

$$
\begin{align*}
-2\mathbf{X}^T\mathbf{y}+2\mathbf{X}^T\mathbf{X}\theta=0
\end{align*}
$$

損失関数を計算すると、以下のような結果が得られます。

$$
\theta=(\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}
$$

（答えの導出過程は[こちら](https://bit.ly/3lTzKuL) を参照してください。)

##### 最急降下法と正規方程式

一発の数式でパッと解を出せるのが**正規方程式**の大きな特徴です。

しかし、特徴量の数$n$が多すぎると$(\mathbf{X}^T\mathbf{X})^{-1}$の計算に時間がかかります。  
計算量は$n^3$のペースで増えていくようです。

$n$が大きい場合（1万とか？）は、**最急降下法**を使って解くことが一般的なようです。

## 特徴量スケーリング

**特徴量スケーリング(feature scaling)**は、尺度が異なる特徴量を揃える前処理の一つです。

最急降下法のような勾配法を使用したアルゴリズムや距離を使うアルゴリズムでは必要となります。


### 標準化


平均を0、分散を1にすることを**標準化**といいます。  
次の式で表されます。$x$が変数です。

$$
z=\frac{x-μ}{σ}
$$

この計算を通して得られた値を**$z$得点**といいます。

標準化することによって尺度を揃えることができ、比較することが可能となります。

また、学習を安定させる効果もあります。

### 使用するデータセット

標準化のテストとして、今回は、seabornのサンプル用データセット"tips"を利用します。

データセットは、pandas.DataFrameオブジェクトとして取得することができます。

（参考サイト：[こちら](https://biotech-lab.org/articles/1408#i)）

In [None]:
tips = sns.load_dataset('tips')
tips.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 7 columns):
 #   Column      Non-Null Count  Dtype   
---  ------      --------------  -----   
 0   total_bill  244 non-null    float64 
 1   tip         244 non-null    float64 
 2   sex         244 non-null    category
 3   smoker      244 non-null    category
 4   day         244 non-null    category
 5   time        244 non-null    category
 6   size        244 non-null    int64   
dtypes: category(4), float64(2), int64(1)
memory usage: 7.4 KB


"tips"のデータの説明は以下の通りです。

- total_bill : 総支払額(食事代、税込み)　(USドル)
- tip : チップ(USドル)
- sex : 性別
- smoker : 喫煙者か否か
- day : 曜日(木・金・土・日のいずれか)
- time : 食事の時間(昼食か夕食か)
- size : 人数

また、今回のデータには欠損値はなさそうです。

### Pythonで標準化

今回は"tips"データセットの、"tip"カラムと"size"カラムを使って標準化を試してみます。



In [None]:
tips[["tip", "size"]][:10]

Unnamed: 0,tip,size
0,1.01,2
1,1.66,3
2,3.5,3
3,3.31,2
4,3.61,4
5,4.71,4
6,2.0,2
7,3.12,4
8,1.96,2
9,3.23,2


"tip"カラムはドル、"size"カラムは人数なので、変数のスケールがそもそも違います。  
標準化によって、それぞれの特徴量空間のスケールを合わせます。


In [None]:
# 標準化
from sklearn.preprocessing import StandardScaler

# インスタンス生成
scaler = StandardScaler()

# fitする（データの平均・標準偏差を求めるイメージ）
scaler.fit(tips[["tip", "size"]])

# transformする（実際に変換する）
tips_scaled = scaler.transform(tips[["tip", "size"]])

## fitとtransformをいっぺんに
# scaler.fit_transform(tips[["tip", "size"]])

# データを10件表示
pd.DataFrame(tips_scaled[:10] , columns=["tip", "size"])

Unnamed: 0,tip,size
0,-1.439947,-0.600193
1,-0.969205,0.453383
2,0.363356,0.453383
3,0.225754,-0.600193
4,0.44302,1.506958
5,1.239659,1.506958
6,-0.722971,-0.600193
7,0.088153,1.506958
8,-0.75194,-0.600193
9,0.167817,-0.600193


### 正規化


値の範囲を0～1にrescaleする処理を**正規化**といいます。

$$
\frac{x-x_{min}}{x_{max}-x_{min}}
$$



必ず、最小の値$x_{min}$は0に、 最大の値$x_{max}$は1になるのが大きな特徴です。  
**標準化に比べて、外れ値の影響を強く受けます**。

### Pythonで正規化

今回は"tips"データセットの、"tip"カラムと"size"カラムを使って正規化を試してみます。



In [None]:
tips[["tip", "size"]][:10]

Unnamed: 0,tip,size
0,1.01,2
1,1.66,3
2,3.5,3
3,3.31,2
4,3.61,4
5,4.71,4
6,2.0,2
7,3.12,4
8,1.96,2
9,3.23,2


"tip"カラムはドル、"size"カラムは人数なので、変数のスケールがそもそも違います。  
正規化によって、それぞれの特徴量空間のスケールを合わせます。


In [None]:
# 標準化
from sklearn.preprocessing import MinMaxScaler

# インスタンス生成
scaler = MinMaxScaler()

# fitする（データの最大値・最小値を求めるイメージ）
scaler.fit(tips[["tip", "size"]])

# transformする（実際に変換する）
tips_scaled = scaler.transform(tips[["tip", "size"]])

## fitとtransformをいっぺんに
# scaler.fit_transform(tips[["tip", "size"]])

# データを10件表示
pd.DataFrame(tips_scaled[:10] , columns=["tip", "size"])

Unnamed: 0,tip,size
0,0.001111,0.2
1,0.073333,0.4
2,0.277778,0.4
3,0.256667,0.2
4,0.29,0.6
5,0.412222,0.6
6,0.111111,0.2
7,0.235556,0.6
8,0.106667,0.2
9,0.247778,0.2


最大値と最小値が本当に0と1に変換されているか確認してみましょう。

In [None]:
# データフレームに変換
tips_scaled_df = pd.DataFrame(tips_scaled , columns=["tip", "size"])

print(f'正規化前の"tip"カラムの最大値：{max(tips["tip"])}')
print(f'正規化後の"tip"カラムの最大値：{max(tips_scaled_df["tip"])}')
print(f'正規化前の"size"カラムの最大値：{max(tips["size"])}')
print(f'正規化後の"size"カラムの最大値：{max(tips_scaled_df["size"])}')
print("-----------------------------------------------")
print(f'正規化前の"tip"カラムの最小値：{min(tips["tip"])}')
print(f'正規化後の"tip"カラムの最小値：{min(tips_scaled_df["tip"])}')
print(f'正規化前の"size"カラムの最小値：{min(tips["size"])}')
print(f'正規化後の"size"カラムの最小値：{min(tips_scaled_df["size"])}')

正規化前の"tip"カラムの最大値：10.0
正規化後の"tip"カラムの最大値：1.0
正規化前の"size"カラムの最大値：6
正規化後の"size"カラムの最大値：1.0000000000000002
-----------------------------------------------
正規化前の"tip"カラムの最小値：1.0
正規化後の"tip"カラムの最小値：0.0
正規化前の"size"カラムの最小値：1
正規化後の"size"カラムの最小値：0.0


### 特徴量スケーリングの注意点

まず一つ目に、**リスケールするのはあくまでも特徴量毎である**点です。

今回でいうなら、"tip"カラムと"size"カラムそれぞれでパラメータを求めます。

二つ目に、**目的変数のリスケールは不要である**点です。



三つ目に、学習データとテストデータを分ける場合は、  
**学習データのリスケールに使ったパラメータをテストデータのリスケールに使用する**点です。

標準化で例えると以下のようになります。

＜学習データの標準化（正解）＞
$$
\frac{x_{train}-\bar{x}_{train}}{s_{train}}
$$

＜テストデータの標準化（正解）＞
$$
\frac{x_{test}-\bar{x}_{train}}{s_{train}}
$$

＜テストデータの標準化（不正解）＞
$$
\frac{x_{test}-\bar{x}_{test}}{s_{test}}
$$

### どちらを使うべきか

標準化と正規化、どちらを使うべきかというところですが、明確な基準はないようです。

生データ，標準化したデータ，正規化したデータで、  
学習したそれぞれのモデルの精度を比較して決めるのが良いとも言われています。


データが正規分布に従っている場合や、外れ値の影響を受けたくない場合は  
特に**標準化**が好まれるようです。

いかなる場合でも、概ね**標準化**の方が使われやすく好まれる傾向にあります。
