# モデルの評価指標

## 1. ライブラリの読み込み

In [1]:
%matplotlib inline
import pandas as pd
import numpy as np

# モデルを表すクラス
from sklearn.linear_model import LinearRegression, SGDClassifier

# 回帰問題における評価指標を計算する関数
from sklearn.metrics import mean_squared_error, mean_absolute_error, mean_absolute_percentage_error, r2_score 

# 分類問題における評価指標を計算する関数
from  sklearn.metrics import accuracy_score, precision_recall_fscore_support, confusion_matrix

## 2. 回帰問題の評価指標
- 回帰問題で用いる指標は、主に以下の3つ
    - MSE：平均二乗誤差
    - RMSE：平方根平均二乗誤差
    - MAE：平均絶対値誤差
- 他にも以下の指標がある
    - MAPE：平均絶対パーセント誤差
    - $R^2$：決定係数

### 2-1. 疑似データの作成
今回使用する中古住宅のデータ
* Price : 値段(百万円)
* AreaSize : 土地面積($\mathrm{m}^2$)
* HouseSize : 家面積($\mathrm{m}^2$)
* PassedYear : 経過年数(年)
* Train : 電車での最寄り駅から主要駅までの所要時間(分)
* Walk : 徒歩での最寄り駅から家までの所要時間(分)

In [2]:
# 疑似データの作成
df_house = pd.DataFrame({
        "Price":[24.8, 59.5, 7, 7.5, 9.8, 13.5, 14.9, 27, 27, 28, 28.5, 23, 12.9, 18, 23.7, 29.8, 17.8, 5.5, 8.7, 10.3, 14.5, 17.6, 16.8],
        "AreaSize":[98.4, 379.8, 58.6, 61.5, 99.6, 76.2, 115.7, 165.2, 215.2, 157.8, 212.9, 137.8, 87.2, 139.6, 172.6, 151.9, 179.5, 50, 105, 132, 174, 176, 168.7],
        "HouseSize":[74.2, 163.7, 50.5, 58, 66.4, 66.2, 59.6, 98.6, 87.4, 116.9, 96.9, 82.8, 75.1, 77.9, 125, 85.6, 70.1, 48.7, 66.5, 51.9, 82.3, 86.1, 80.8],
        "PassedYear":[4.8, 9.3, 13, 12.8, 14, 6, 14.7, 13.6, 13.3, 6.7, 3.1, 10.3, 11.6, 10.5, 3.8, 5.4, 4.5, 14.6, 13.7, 13, 10.3, 4.4, 12.8],
        "Train":[5, 12, 16, 16, 16, 16, 16, 16, 16, 16, 16, 19, 23, 23, 23, 28, 32, 37, 37, 37, 37, 37, 41],
        "Walk":[6, 12, 2, 1, 5, 1, 4, 2, 7, 6, 5, 20, 8, 3, 5, 4, 2, 3, 11, 6, 18, 10, 2]
    })
df_house.index.name="id"
df_house.head()

Unnamed: 0_level_0,Price,AreaSize,HouseSize,PassedYear,Train,Walk
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,24.8,98.4,74.2,4.8,5,6
1,59.5,379.8,163.7,9.3,12,12
2,7.0,58.6,50.5,13.0,16,2
3,7.5,61.5,58.0,12.8,16,1
4,9.8,99.6,66.4,14.0,16,5


### 2-2. モデルの構築・学習

In [3]:
# 目的変数と説明変数を分割
y = df_house["Price"].values
X = df_house[["AreaSize", "Train"]].values

# 線形回帰モデルの構築
regr = LinearRegression(fit_intercept=True)
# モデルの学習
regr.fit(X, y)

### 2-3. モデルの評価
- $ \mathrm{MAE} = \frac{1}{n}\sum_{i=1}^n |y_i-\hat{y}_i|$
- $ \mathrm{MSE} = \frac{1}{n}\sum_{i=1}^n (y_i-\hat{y}_i)^2$
- $ \mathrm{RMSE} = \sqrt{\frac{1}{n}\sum_{i=1}^n (y_i-\hat{y}_i)^2}$
- $ \mathrm{MAPE} = \frac{100}{n}\sum_{i=1}^n \frac{|y_i-\hat{y}_i|}{|y_i|} $
- $ R^2 = 1 - \frac{\sum_{i=1}^n (y_i-\hat{y}_i)^2}{\sum_{i=1}^n (y_i-\bar{y})^2}$

In [4]:
# 値を予測
y_pred = regr.predict(X)

# MAEを計算
mae = mean_absolute_error(y, y_pred) 
print("MAE = %s"%round(mae,3) )

# MSEを計算
mse = mean_squared_error(y, y_pred) 
print("MSE = %s"%round(mse,3) )  

# RMSEを計算
rmse = np.sqrt(mse)
print("RMSE = %s"%round(rmse, 3) )

# MAPEを計算
mape = mean_absolute_percentage_error(y, y_pred) 
print("MAPE = %s"%round(mape*100,3),"%")  

# 決定係数を計算
r2 = r2_score(y, y_pred) 
print("r2 = %s"%round(r2,3) )  

MAE = 3.057
MSE = 14.885
RMSE = 3.858
MAPE = 20.8 %
r2 = 0.884


## 3. 分類問題の評価指標
- 分類問題で用いる指標は、主に以下の4つ
  - Accuracy
  - Precision
  - Recall
  - F1(f1-score)
- これらを計算するためには、混同行列を用意する
  - TP(True Positive)
  - FP(False Positive)
  - FN(False Negative)
  - TN(True Negative)

### 3-1. 疑似データの作成

In [5]:
# Priceの値を2000万以上ならTrue，そうでなければFalseに変更
df_house['Price'] = df_house['Price'] >= 20
df_house.head()

Unnamed: 0_level_0,Price,AreaSize,HouseSize,PassedYear,Train,Walk
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,True,98.4,74.2,4.8,5,6
1,True,379.8,163.7,9.3,12,12
2,False,58.6,50.5,13.0,16,2
3,False,61.5,58.0,12.8,16,1
4,False,99.6,66.4,14.0,16,5


### 3-2. モデルの構築

In [6]:
# 目的変数と説明変数を分割
y = df_house["Price"].values
X = df_house[["AreaSize", "Train"]].values

# ロジスティック回帰モデルの構築
clf = SGDClassifier(loss='log_loss',  max_iter=10000, fit_intercept=True, 
                    random_state=1234, tol=1e-3)
# モデルの学習
clf.fit(X, y)

### 3-3. モデルの評価
- [scikit-learnの混同行列](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.ConfusionMatrixDisplay.html#sklearn.metrics.ConfusionMatrixDisplay)
    - 縦軸（列）が予測ラベル、横軸（行）が正解ラベル
    - 左側・上側から0, 1の順に並んでいる

|| 予測：0 |　予測：1  |
|----| ---- | ---- |
|正解：0| TN | FP |
|正解：1| FN | TP |

In [7]:
# ラベルを予測
y_pred = clf.predict(X)


# 予測値と正解のクロス集計（混同行列）
conf_mat = confusion_matrix(y, y_pred)

conf_mat = pd.DataFrame(conf_mat, 
                        index=['正解 = 2000万未満', '正解 = 2000万以上'], 
                        columns=['予測 = 2000万未満', '予測 = 2000万以上'])
conf_mat

Unnamed: 0,予測 = 2000万未満,予測 = 2000万以上
正解 = 2000万未満,13,1
正解 = 2000万以上,1,8


#### 混同行列を元に算出する評価指標
- $ \mathrm{Accuracy = \frac{TP+TN}{TP+TN+FN+FP} }$
- $ \mathrm{Recall = \frac{TP}{TP+FN} }$
- $ \mathrm{Precision = \frac{TP}{TP+FP} }$
- $ \mathrm{F1 = \frac{2\times Recall \times Precision}{Recall+Precision} }$

In [8]:
# 正解率を計算
accuracy =  accuracy_score(y, y_pred)
print('正解率（Accuracy） = {:.3f}%'.format(100 * accuracy))

# Precision, Recall, F1-scoreを計算
precision, recall, f1_score, _ = precision_recall_fscore_support(y, y_pred)

# カテゴリ「2000万以上」に関するPrecision, Recall, F1-scoreを表示
print('適合率（Precision） = {:.3f}%'.format(100 * precision[1]))
print('再現率（Recall） = {:.3f}%'.format(100 * recall[1]))
print('F1値（F1-score） = {:.3f}%'.format(100 * f1_score[1]))

正解率（Accuracy） = 91.304%
適合率（Precision） = 88.889%
再現率（Recall） = 88.889%
F1値（F1-score） = 88.889%
