In [3]:
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

warnings.filterwarnings('ignore')

%matplotlib inline

# 回帰問題での評価指標
1. RMSE(Root Mean Squared Error)
2. MAE(Mean Absolute Error)
3. 決定係数(R2 Score)

---
## RMSE (二乗平均平方根誤差)
### ・導出方法
観測値を $y_i(i=1,2,3,...,n)$、  モデルから算出する予測値を $\hat{y}_i$ とすると、以下のように定義される。  

 $$
 RMSE=\sqrt
 {\frac{1}{n}
 \sum_{i=1}^{n} (y_i-\hat{y}_i)^2}
 $$ 

### ・特性
- 観測値と計算値（予測値）が遠くなると、RMSE が著しく増える   
→ RMSE は**外れ値の影響を受けやすい**
- 大きいエラーを重要視する(大きな誤差を許容できない)場合に適している
- 誤差は正規分布に従う


## MAE (平均絶対誤差)
### ・導出方法
観測値を $y_i(i=1,2,3,...,n)$、  モデルから算出する予測値を $\hat{y}_i$ とすると、以下のように定義される。  

 $$MAE=\frac{1}{n}\sum_{i=1}^{n} |y_i-\hat{y}_i|$$ 

### ・特性
- 観測値と予測値が近づくほど、MAE は小さくなる
- 誤差を二乗していない→ 外れ値の影響を受けにくい
- 多くの外れ値が存在するデータの誤差を評価したい、あるいは外れ値にあまり影響されない評価を行いたい場合に適している
- 最大誤差がRSMEに比べて大きくなる傾向


## R<sup>2</sup> (決定係数)
### ・導出方法
観測値を $y_i(i=1,2,3,...,n)$、  モデルから算出する予測値を $\hat{y}_i$、観測地の平均を $\overline{y}$ とすると、以下のように定義される(他の定義も存在する)。  

 $$
 R^2=1-\frac
 {\sum_{i=1}^{n} (y_i-\hat{y}_i)^2}
 {\sum_{i=1}^{n} (y_i-\overline{y})^2}
 $$



### ・特性
- モデルの当てはまりの良さを示す
- 観測値と予測値が近いほど1に近づく。
- 逆に観測値と予測値がかけ離れていると、分子が大きな値となり、1から離れた値となる。  
  → 1に近いほど予測の精度が高い

## 手計算
5つの整数(ランダムに生成)を予測値とする。  
誤差をランダムに生成し、予測値に足したものを観測値とする。

In [98]:
np.random.seed(seed=50)

# 予測値
predicted_value = np.random.randint(1,50,5)

# 誤差
noise=np.random.rand(5)

# 観測値
observed_value = predicted_value + noise

print(f'Predicted Value : {predicted_value}')
print(f'Observed Value  : {observed_value}')

Predicted Value : [49 33 12 46 34]
Observed Value  : [49.60993813 33.02143623 12.15220072 46.95470613 34.80468256]


### RMSE

In [92]:
rmse=np.sqrt(sum((observed_value-predicted_value)**2)/5)
rmse

0.6252402591399473

### MAE

In [93]:
mae=sum(abs(observed_value-predicted_value))/5
mae

0.5085927545283905

### R<sup>2</sup>

In [94]:
ov_mean=np.mean(observed_value)

1-(sum((observed_value-predicted_value)**2)/sum((observed_value-ov_mean)**2))

0.9977835277957383