In [26]:
from sklearn.metrics import mean_squared_error, mean_squared_log_error, mean_absolute_error, r2_score, confusion_matrix,accuracy_score
import numpy as np

In [2]:
y_true = [1.0, 1.5, 2.0, 1.2, 1.8]
y_pred = [0.8, 1.5, 1.8, 1.3, 3.0]

In [3]:
# RMSE
rmse = np.sqrt(mean_squared_error(y_true, y_pred)) 
print(rmse)

0.5531726674375732


In [4]:
# RMSLE
rmsle = np.sqrt(mean_squared_log_error(y_true, y_pred))
rmsle

0.17032547044118188

In [5]:
# MAE
mae = mean_absolute_error(y_true, y_pred)
mae

0.33999999999999997

In [11]:
# 決定係数は最大で1
r2 = r2_score(y_true, y_pred)
r2

-1.2499999999999996

In [22]:
# 混合行列
# 0, 1で表される二値分類の真の値と予測値
y_true_b = [1, 0, 1, 1, 0, 1, 1, 0]
y_pred_b = [0, 0, 1, 1, 0, 0, 1, 1]

# andではなく&を使わないといけない。なぜならこれは0, 1の論理積だから。普通の論理演算ではない。
tp = np.sum((np.array(y_true_b) == 1) & (np.array(y_pred_b) == 1))
tn = np.sum((np.array(y_true_b) == 0) & (np.array(y_pred_b) == 0))
fp = np.sum((np.array(y_true_b) == 0) & (np.array(y_pred_b) == 1))
fn = np.sum((np.array(y_true_b) == 1) & (np.array(y_pred_b) == 0))
# T正, F正
# F負, T負
confusion_matrix1 = np.array([[tp, fp],[fn, tn]])
print(confusion_matrix1)

# scikit-learnのmetricsモジュールのconfusion_matrixでも作成できるが、
# 混合行列の要素の配置が違うので注意
confusion_matrix2 = confusion_matrix(y_true_b, y_pred_b)
# 　　負正
# F
# T
print(confusion_matrix2)

[[3 1]
 [2 2]]
[[2 1]
 [2 3]]


In [19]:
?confusion_matrix

In [25]:
# accuracyとerror rate
# 上のバイナリの例を利用
accuracy = np.sum(confusion_matrix2[1])/np.sum(confusion_matrix2)
accuracy

0.625

In [29]:
# scikit-learn.matricsのaccuracy_scoreを利用した場合
accuracy2 = accuracy_score(y_true_b, y_pred_b)
print('error rate: ', 1 - accuracy2)
accuracy2

error rate:  0.375


0.625

In [30]:
# precision(適合率)とrecall(再現率)
# from sklearn.metrics import precision_score, recall_score
# precision = TP / (TP + FP)
# recall = TP / (TP + FN)
# これらは互いにトレードオフなので、同時に考慮する必要がある

In [34]:
# scikit-learnのmetricsモジュールのprecision_score, recall_scoreを用いてトレードオフを考慮した計算ができる
# F1-scoreとFβ-score(precisionとrecallの調和平均で計算される指標)
from sklearn.metrics import f1_score, fbeta_score
print('f値: ',f1_score(y_true_b, y_pred_b))
# βを2とする
print('f2値: ',fbeta_score(y_true_b, y_pred_b, beta=2))

f値:  0.6666666666666665
f2値:  0.625


In [35]:
# MCC(Matthews Correlation Coefficient)
from sklearn.metrics import matthews_corrcoef
print('MCC: ', matthews_corrcoef(y_true_b, y_pred_b))

MCC:  0.2581988897471611


In [37]:
?matthews_corrcoef

In [39]:
# 二値分類における評価指標(正例である確率を予測値とする場合)
# logloss(cross-entropy)
from sklearn.metrics import log_loss
y_true_c = [1, 0, 1, 1, 0, 1]
y_prob_c = [0.1, 0.2, 0.8, 0.8, 0.1, 0.3]
logloss = log_loss(y_true_c, y_prob_c)
print(logloss)

0.7135581778200728


In [40]:
# AUC
# また、評価指標がGini係数の時はGini = 2 * AUC - 1で線形関係より、評価指標がAUCである時と大体同じ意味
# scikit-learnのmetricsモジュールのroc_auc_scoreを使う
from sklearn.metrics import roc_auc_score
auc = roc_auc_score(y_true_c, y_prob_c)
auc

0.8125

In [41]:
# 多クラス分類における評価指標
# multi-class accuracy
y_true_m = [0, 1, 2, 1, 2, 0]
y_pred_m = [0, 1, 2, 0, 1, 1]
m_accuracy = accuracy_score(y_true_m, y_pred_m)

print(m_accuracy)

0.5


In [42]:
# multi-class logloss
y_true_m1 = np.array([0, 2, 1, 2, 2])
y_pred_m1 = np.array([[0.68, 0.32, 0.00],
                     [0.00, 0.00, 1.00],
                     [0.60, 0.40, 0.00],
                     [0.00, 0.00, 1.00],
                     [0.28, 0.12, 0.60]])

logloss_m1 = log_loss(y_true_m1, y_pred_m1)
print(logloss_m1)

0.3625557672904274


In [47]:
# mean-F1とmacro-F1とmicro-F1
# F1-scoreを多クラス分類に拡張したもの
# マルチラベルの分類の真の値・予測値は、評価指標の計算上はレコード×クラスの二値の行列とした方が扱いやすい
# 真の値 - [[1, 2], [1], [1, 2, 3], [2, 3], [3]]
y_true_m2 = np.array([
    [1, 1, 0],
    [1, 0, 0],
    [1, 1, 1],
    [0, 1, 1],
    [0, 0, 1],
])
# 予測値- [[1, 3], [2], [1, 3], [3], [3]]
y_pred_m2 = np.array([
    [1, 0, 1],
    [0, 1, 0],
    [1, 0, 1],
    [0, 0, 1],
    [0, 0, 1],
])

# mean-f1ではレコードごとにf1-scoreを計算して平均をとる
mean_f1 = np.mean([f1_score(y_true_m2[i, :], y_pred_m2[i, :]) for i in range(len(y_true_m2))])

# macro-f1ではクラスごとにF1-scoreを計算して平均をとる
c_class = 3
macro_f1 = np.mean([f1_score(y_true_m2[:, c], y_pred_m2[:, c]) for c in range(c_class)])

# micro-f1ではレコード×クラスのペアごとにTP/TN/FNを計算し、F1-scoreを求める
micro_f1 = f1_score(y_true_m2.reshape(-1), y_pred_m2.reshape(-1))

print(mean_f1,  macro_f1, micro_f1)


# scikit-learnのメソッドを使うことでも計算できる
mean_f1_sk = f1_score(y_true_m2, y_pred_m2, average = 'samples')
macro_f1_sk = f1_score(y_true_m2, y_pred_m2, average = 'macro')
micro_f1_sk = f1_score(y_true_m2, y_pred_m2, average = 'micro')
print(mean_f1_sk, macro_f1_sk, micro_f1_sk)

0.5933333333333334 0.5523809523809523 0.6250000000000001
0.5933333333333334 0.5523809523809523 0.6250000000000001
