# 必要なパッケージのインポート

In [1]:
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

warnings.filterwarnings('ignore')

%matplotlib inline

# 回帰問題の評価指標

## RMSE （Root Mean Square Error）二乗平均平方根誤差

$$
RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}\left( y_{i} - \hat{y_{i}} \right)^{2}} \
$$

2乗をすることで、差の正負を無視することができ、平方根を取ることで実際にどれほどの誤差があったか評価することができる。  
2乗平均誤差同様、外れ値を含む場合、その誤差が大きくなりRMSEの値を大きく狂わせる要因となる。

### 手計算

以下のサンプルデータを用いてRMSEを手計算してみる  
身長の予測は年齢、体重などの変量から回帰で求められたものとする。

In [2]:
sample = pd.read_csv("sample.csv",sep="\t")
sample

Unnamed: 0,名前,性別,身長,身長(予測)
0,A,male,171,173
1,B,female,168,165
2,C,female,146,146
3,D,male,178,178
4,E,female,153,153
5,F,female,156,158


RMSE＝ 1.87

Aの実際の身長を205㎝(外れ値)とした。その場合のRMSEを算出する。

In [3]:
sample2 = pd.read_csv("sample2.csv",sep='\t')
sample2

Unnamed: 0,名前,性別,身長,身長(予測)
0,A,male,205,173
1,B,female,168,165
2,C,female,146,146
3,D,male,178,178
4,E,female,153,153
5,F,female,156,158


RMSE= 13.17  
外れ値の影響を大きく受けてしまったことがわかる

## MAE （Mean Absolute Error）平均絶対誤差

$$
MAE = \dfrac{1}{n}\displaystyle\sum_{k=1}^n|f_i-y_i|^2
$$

二乗平均誤差よりも外れ値の影響を受けにくい。  
実際にどれほどの誤差があるか、実際のデータと同じ尺度で見ることができる。

以下のサンプルデータを用いてMAEを算出する。

In [4]:
sample

Unnamed: 0,名前,性別,身長,身長(予測)
0,A,male,171,173
1,B,female,168,165
2,C,female,146,146
3,D,male,178,178
4,E,female,153,153
5,F,female,156,158


MAE＝ 1.5

Aの実際の身長を205㎝(外れ値)とした。その場合のRMSEを算出する。

In [5]:
sample2

Unnamed: 0,名前,性別,身長,身長(予測)
0,A,male,205,173
1,B,female,168,165
2,C,female,146,146
3,D,male,178,178
4,E,female,153,153
5,F,female,156,158


MAE = 6.5  
RMSEほど外れ値の影響を受けなかった。

## RMSE/MAEによる評価

RMSEとMAEは小さいほどよいが、RMSE/MAEの値が$\sqrt{\frac2π}$　= 1.253に近づくとモデルの特徴をよくとらえられているといえる。  
https://www.magellanic-clouds.com/blocks/blog/hints/accuracy_and_indicator_for_regression/

## 決定係数

回帰によって導出された式のデータに対する当てはまり度合いを0～1で示した値  
RSMEはMAEはスケールの違うものを対象としたモデルの比較には向いていない。  
決定係数の場合は同じ尺度でモデルの精度を評価することができる。

### 手計算

以下のサンプルデータを用いて決定係数を算出する。

In [6]:
sample

Unnamed: 0,名前,性別,身長,身長(予測)
0,A,male,171,173
1,B,female,168,165
2,C,female,146,146
3,D,male,178,178
4,E,female,153,153
5,F,female,156,158


決定係数 = 0.91

Aの実際の身長を205㎝(外れ値)とした。その場合の決定係数を算出する。

In [7]:
sample2

Unnamed: 0,名前,性別,身長,身長(予測)
0,A,male,205,173
1,B,female,168,165
2,C,female,146,146
3,D,male,178,178
4,E,female,153,153
5,F,female,156,158


決定係数　= 0.29  
外れ値を含む場合、データに対するフィッテングが悪いという結果になる。

実際のデータを使った試行は割愛