## 分類期の評価指標

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score,precision_score, recall_score
%matplotlib inline

In [2]:
# データ取得
iris = load_iris()

# ndarrayからdfに変換
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['species'] = iris.target_names[iris.target]

# hold-outでデータを分割する
X = df.loc[:, df.columns!='species']
y = df['species'] 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, shuffle=True, random_state=0)

# 学習
model = LogisticRegression(penalty='none')
model.fit(X_train, y_train)

# 予測
y_pred = model.predict(X_test)

### Accuracy (正解率)
正解の数/全データ

In [3]:
accuracy_score(y_test, y_pred)

0.9555555555555556

### Precision（適合率）
陽性と分類した中で実際に陽性だった割合

In [4]:
# F値が最も高いモデルが最高精度となる
precision_score(y_test, y_pred, average='macro')

0.9511784511784511

In [5]:
# クラスの平均
precision_score(y_test, y_pred, average='macro')

0.9511784511784511

In [6]:
# accurancyと同じ
precision_score(y_test, y_pred, average='micro')

0.9555555555555556

### Recall（再現率）
Positiveのデータをどれだけ正しくPositiveと言えたか

In [7]:
# 各クラス毎
recall_score(y_test, y_pred, average=None)

array([1.        , 0.94444444, 0.90909091])

In [8]:
# クラスの平均
recall_score(y_test, y_pred, average='macro')

0.9511784511784511

In [9]:
# accurancyと同じ
recall_score(y_test, y_pred, average='micro')

0.9555555555555556

### Specificity（特異度）
Negativeのデータをどれだけ正しくNegativeと言えたか

In [10]:
res = []
for c in model.classes_:
    res.append(recall_score(np.array(y_test)!=c, np.array(y_pred)!=c))
res

[1.0, 0.9629629629629629, 0.9705882352941176]

In [11]:
np.mean(res)

0.9778503994190269

## まとめ
指標単体だけではモデルの精度の良さを表すには不十分である。
実際の業務ではこれらの指標を組み合わせるのが一般的。