# 線型回帰分析　( 単回帰分析 )

- 目的変数を説明する説明変数の方程式を求める
$$y=ax+b$$

# 回帰分析

### まずは...
- *全ての data が必要か？ を見極める*
    - パラメータ同士の相関関係を数値化する
    - 相関関係のないパラメータ同士では回帰分析は出来ない
    - **相関係数（そうかんけいすう）**で相関関係があるかどうか判断する
        - 共分散と標準偏差を求めることにより計算可能

### 共分散（きょうぶんさん）の式
- **共分散** … 2つの変数の関係を表す値
- 「事象$X$が起こるときに事象$Y$も起こる傾向があるか」のように2つの確率変数の関係性を表す
    - 共分散が大きい（正）→ $X$ が大きいとき$Y$も大きい傾向がある
    - 共分散が 0 に近い→ $X$と$Y$にあまり関係はない
    - 共分散が小さい（負）→ $X$が大きいとき$Y$も小さい傾向がある
- 事象$X$,$Y$の$n$個のデータ $X=\{x_1,x_2,⋯x_n\}$、$Y=\{y_1,y_2,⋯,y_n\}$

$$
    s_{xy} = \frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})(y_i-\overline{y})
$$
<center>
($\overline{x}$: $X$の平均　$\overline{y}$: $Y$の平均)
</center>

### X,Yの標準偏差
$$
    s_x=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\overline{x})^2 \quad}  s_y=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\overline{y})^2 \quad}
$$



### 相関係数の式
- $X$,$Y$の値の共分散を$X$の標準偏差と$Y$の標準偏差で割ったもの
- 共分散の問題点…客観的な評価が出来ない　→　相関係数を使用

$$
r = \frac{s_{xy}}{s_x×s_y}
$$


### 相関係数の値
|相関係数|相関の強さ|
|:---|:---|
|0.7 〜 1.0|強い正の相関|
|0.4 〜 0.7|正の相関|
|0.2 〜 0.4|弱い正の相関|
|-0.2 〜 0.2|ほとんど相関関係がない|
|-0.4 〜 -0.2|弱い負の相関|
|-0.7 〜 -0.4|負の相関|
|-1.0 〜 -0.7|強い負の相関|

### **回帰分析を行う**
1. data を学習用, test用に 7 : 3 に分割する
1. LinearRegression class の instance を生成
1. fit method で学習 data を与える
1. `最小二乗法`
    - 単回帰直線を求める
    - 誤差の2乗の和を最小にすることで、最も確からしい関係式を求める
1. 説明変数の係数と切片が得られる


### 得られる式
$$y　=　ax+b$$


|パラメータ|概要|
|:---:|:---|
|$x$|説明変数|
|$y$|目的変数
|$a$|説明変数$x$の係数|
|$b$|切片|


- **X or Y _train**
    - X or Y の学習用 data : 70%


- **X or Y _test**
    - X or Y の test用 data : 30%


- **train_test_split**
    - random に中でシャッフルしている
    - random.seed(1) で種を指定しているので同じ検証結果が返ってくる


## 回帰分析の評価
- **予測結果が妥当かどうかを調べる必要がある**


- 残差を plot して回帰分析の性能を視覚的に評価
- 回帰直線, 散布図の点の差を描画
    - *縦軸　:　残差*
    - *横軸　:　予測値*

### `平均二乗誤差`
- *Mean Squared Error*
    - **機械学習の場合 Error は 誤差という意味**
        - Mean　:　平均
        - Squared　:　異常
        - Error　:　誤差


- **実際の値と線形回帰モデルによる予測値のズレ（誤差）がどれだけあるかを示す**
    - 値が小さければ小さいほど良いモデル


<div>
<img src="../Resources/img/regression_difference.png">
</div>


$$
    MSE = \frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y_i})^2
$$
<center>
($y_i$:$i$番目の実際の値　　$\hat{y_i}$:$i$番目の予測値)
</center>


### 誤差の２乗の平均　=　MSE

## 決定係数

- 決定係数$R^2$スコア
- 0.0〜1.0の範囲の値をとる
- 値が大きいほどモデルが適切にデータを表現できている
- MSEよりも客観的な評価が可能

$$
    R^2 = 1 - \frac{\sum_{i=1}^{n}(y_i-\hat{y_i})^2}{\sum_{i=1}^{n}(y_i-\bar{y})^2}
$$

<center>
($y_i$:$i$番目の実際の値　
$\bar{y}$:実際の値の平均値　
$\hat{y_i}$:$i$番目の予測値)
</center>

### 決定係数の判断基準の目安
|$R^2$|判断内容|
|---|:---|
|0.6以下|モデルとして意味なしていない|
|0.8～0.9|かなり良いモデル|
|0.9以上|過学習の可能性がある|

# 重回帰分析

- 目的変数を説明する説明変数の方程式を求める


- 「$y = a_1x_1 + a_2x_2 + …　+ a_nx_n +b$」の形式


|記号|概要|
|:---:|:---|
|$y$|予想結果|
|$x_1$ … $x_n$|説明変数|
|$a_1$ … $a_n$|説明変数の係数|
|$b$|切片|

### data の標準化
- dataの `標準化` を行う
    - 複数の異なるスケールの説明変数を元に回帰分析を行う時には必須の方法
    - data scale を小さくして学習速度を上げる
    -  scale の異なる複数の説明変数の scale を埋める事で予想性能の向上
        - *計算誤差を小さくできる*

        

- <u>PC の場合 scale がバラバラの計算は誤差が出やすい</u>
- <u>誤差が大きいと予測が正しくなくなる</u>

    - *0.1,　100,　30.5,　-250,　0.065*
        - **なので標準化が必要になってくる**


### `StandardScaler` class の instance を生成
- *fit_transform method で paramerter を標準化できる*


$$
X' = \frac{X-\mu}{\sigma} 
$$


- $X$　:　標準化前の説明変数 
- $X'$　:　標準化後の説明変数 
- $\mu$　:　説明変数の平均値 
- $\sigma$　:　説明変数の標準偏差


# 汎化性能と過学習
- **汎化性能（はんかせいのう）** … 未知のデータへの対応能力。
- **過学習（かがくしゅう）** … 学習データに適応しすぎ未知のデータへの対応能力低くなる状態。

<div style="text-align:center;">
    <b>線形回帰の過学習</b>
    <img src="../Resources/img/overtraining_linear_regression.png" width="600px">
</div>