# 準備

In [1]:
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression

warnings.filterwarnings('ignore')

%matplotlib inline

# 二乗平均平方根誤差(RMSE)

## 評価指標・導出方法

Root Mean Square Errorの略称。観測値と予測値の差の二乗平均の平方根をとった値。  
観測値を$y_i$、モデルから計算した予測値を$\hat{y_i}$とすると以下の式で求められる。

$$
RMSE = \sqrt{\frac{1}{n}\sum_{i=1}^{n}\left( y_{i} - \hat{y_{i}} \right)^{2}} 
$$

## 評価指標の特性

- 観測値と予測値の差が小さいとき、RMSEの値は小さくなる
- 外れ値の影響を強く受ける。観測値と予測値の2乗和平均をとるため、観測値と予測値の差が大きいと著しくRMSEの値が大きくなるためである。
- 分布の裾野が比較的狭く、外れ値があまりないデータを評価するときに使用するとよい（ex 正規分布）

## sklearnにおける使用例

In [2]:
from sklearn.metrics import mean_squared_error

# データの準備
boston = load_boston()
X_train, X_test, y_train, y_test = train_test_split(boston.data[:,12], boston.target, test_size=0.3, random_state=1)

# モデル構築(LinearRegression)
logistic_regression = LinearRegression()
logistic_regression.fit(X_train.reshape(-1,1), y_train)

# 2乗平均誤差の平方根 = 二乗平方平均誤差 の計算
RMSE = np.sqrt(mean_squared_error(y_test, logistic_regression.predict(X_test.reshape(-1,1))))

print(f'RMSE: {RMSE:.3f}')

RMSE: 6.528


# 平均絶対誤差(MAE)

## 評価指標・導出方法

Mean Abusolute Errorの略。観測値と予測値の差の絶対値の平均をとった値。  
観測値を$y_i$、モデルから計算した予測値を$\hat{y_i}$とすると以下の式で求められる。

$$
MAE = \frac{1}{n}\sum_{i=1}^{n}| y_{i} - \hat{y_{i}} |
$$

## 評価指標の特性

- 観測値と予測値の差が小さいとき、MAEの値は小さくなる
- RMSEより外れ値の影響を受けにくい。観測値と予測値の差の絶対値和を計算しているためである。
- 分布の裾野が比較的広く、外れ値が多少あるようなデータに対して使用することができる（ex ラプラス分布）

## sklearnにおける使用例

In [3]:
from sklearn.metrics import mean_absolute_error

# データの準備
boston = load_boston()
X_train, X_test, y_train, y_test = train_test_split(boston.data[:,12], boston.target, test_size=0.3, random_state=1)

# モデル構築(LinearRegression)
logistic_regression = LinearRegression()
logistic_regression.fit(X_train.reshape(-1,1), y_train)

# 平均絶対値誤差(MAE)の計算
RAE = mean_absolute_error(y_test, logistic_regression.predict(X_test.reshape(-1,1)))

print(f'RAE: {RAE:.3f}')

RAE: 4.815


# 決定係数(R²)

## 評価指標・導出方法

観測値と予測値の相関係数を示す値。  
観測値を$y_i$、観測値の平均を$\bar{y}$、予測値を$\hat{y_i}$とすると以下の式で示される。

$$
R^{2} = 1 -\frac{\sum_{i=1}^{n}\left(y_{i} - \hat{y_{i}}\right)^{2}}{\sum_{i=1}^{n}\left( 
y_{i} - \bar{y} \right)^{2}}
$$

## 評価指標の特性

- 観測値と予測値の差が小さいとき、$R^2$は1に近くなる。
- 係数で評価できるため、評価するデータのオーダーに関係なくモデルの評価を行う事ができる。

## sklearnにおける使用例

In [4]:
from sklearn.metrics import r2_score

# データセットの読み込み(ボストンデータセット)
boston = load_boston()
X_test, X_train, y_test, y_train = train_test_split(boston.data[:,12], boston.target, test_size=0.3 ,random_state=1)

# モデル構築
linear_regression = LinearRegression()
linear_regression.fit(X_train.reshape(-1, 1), y_train)

# 決定係数(R2)の計算
R2 = r2_score(y_test, linear_regression.predict(X_test.reshape(-1, 1)))

print(f'R2: {R2:.3f}')

R2: 0.534


# 備考

RMSEとMAEを比較する（比をとること）で、予測値と観測値との誤差の分布がどのようになっているか(正規分布、ラプラス分布など)がわかる。  
これによって、モデル構築やデータセットに対してどのような対策をとるべきか評価する事ができる。  
詳細は参考[1]の "RMSEとMAEの見方(まとめ)" の項参考。  

手計算はEXCELで実施しました。（手計算とは。。。。）

# 参考URL
[1]Instruction of chemoinformatics  
https://funatsu-lab.github.io/open-course-ware/basic-theory/accuracy-index/#rmse

おわり