In [25]:
from sklearn.metrics import mean_squared_error, mean_squared_log_error, mean_absolute_error, r2_score, confusion_matrix,accuracy_score
import numpy as np
import pandas as pd

In [26]:
y_true = [1.0, 1.5, 2.0, 1.2, 1.8]
y_pred = [0.8, 1.5, 1.8, 1.3, 3.0]

In [27]:
# RMSE
rmse = np.sqrt(mean_squared_error(y_true, y_pred)) 
print(rmse)

0.5531726674375732


In [28]:
# RMSLE
rmsle = np.sqrt(mean_squared_log_error(y_true, y_pred))
rmsle

0.17032547044118188

In [29]:
# MAE
mae = mean_absolute_error(y_true, y_pred)
mae

0.33999999999999997

In [30]:
# 決定係数は最大で1
r2 = r2_score(y_true, y_pred)
r2

-1.2499999999999996

In [31]:
# 混合行列
# 0, 1で表される二値分類の真の値と予測値
y_true_b = [1, 0, 1, 1, 0, 1, 1, 0]
y_pred_b = [0, 0, 1, 1, 0, 0, 1, 1]

# andではなく&を使わないといけない。なぜならこれは0, 1の論理積だから。普通の論理演算ではない。
tp = np.sum((np.array(y_true_b) == 1) & (np.array(y_pred_b) == 1))
tn = np.sum((np.array(y_true_b) == 0) & (np.array(y_pred_b) == 0))
fp = np.sum((np.array(y_true_b) == 0) & (np.array(y_pred_b) == 1))
fn = np.sum((np.array(y_true_b) == 1) & (np.array(y_pred_b) == 0))
# T正, F正
# F負, T負
confusion_matrix1 = np.array([[tp, fp],[fn, tn]])
print(confusion_matrix1)

# scikit-learnのmetricsモジュールのconfusion_matrixでも作成できるが、
# 混合行列の要素の配置が違うので注意
confusion_matrix2 = confusion_matrix(y_true_b, y_pred_b)
# 　　負正
# F
# T
print(confusion_matrix2)

[[3 1]
 [2 2]]
[[2 1]
 [2 3]]


In [32]:
?confusion_matrix

In [33]:
# accuracyとerror rate
# 上のバイナリの例を利用
accuracy = np.sum(confusion_matrix2[1])/np.sum(confusion_matrix2)
accuracy

0.625

In [34]:
# scikit-learn.matricsのaccuracy_scoreを利用した場合
accuracy2 = accuracy_score(y_true_b, y_pred_b)
print('error rate: ', 1 - accuracy2)
accuracy2

error rate:  0.375


0.625

In [35]:
# precision(適合率)とrecall(再現率)
# from sklearn.metrics import precision_score, recall_score
# precision = TP / (TP + FP)
# recall = TP / (TP + FN)
# これらは互いにトレードオフなので、同時に考慮する必要がある

In [36]:
# scikit-learnのmetricsモジュールのprecision_score, recall_scoreを用いてトレードオフを考慮した計算ができる
# F1-scoreとFβ-score(precisionとrecallの調和平均で計算される指標)
from sklearn.metrics import f1_score, fbeta_score
print('f値: ',f1_score(y_true_b, y_pred_b))
# βを2とする
print('f2値: ',fbeta_score(y_true_b, y_pred_b, beta=2))

f値:  0.6666666666666665
f2値:  0.625


In [37]:
# MCC(Matthews Correlation Coefficient)
from sklearn.metrics import matthews_corrcoef
print('MCC: ', matthews_corrcoef(y_true_b, y_pred_b))

MCC:  0.2581988897471611


In [38]:
?matthews_corrcoef

In [39]:
# 二値分類における評価指標(正例である確率を予測値とする場合)
# logloss(cross-entropy)
from sklearn.metrics import log_loss
y_true_c = [1, 0, 1, 1, 0, 1]
y_prob_c = [0.1, 0.2, 0.8, 0.8, 0.1, 0.3]
logloss = log_loss(y_true_c, y_prob_c)
print(logloss)

0.7135581778200728


In [40]:
# AUC
# また、評価指標がGini係数の時はGini = 2 * AUC - 1で線形関係より、評価指標がAUCである時と大体同じ意味
# scikit-learnのmetricsモジュールのroc_auc_scoreを使う
from sklearn.metrics import roc_auc_score
auc = roc_auc_score(y_true_c, y_prob_c)
auc

0.8125

In [41]:
# 多クラス分類における評価指標
# multi-class accuracy
y_true_m = [0, 1, 2, 1, 2, 0]
y_pred_m = [0, 1, 2, 0, 1, 1]
m_accuracy = accuracy_score(y_true_m, y_pred_m)

print(m_accuracy)

0.5


In [42]:
# multi-class logloss
y_true_m1 = np.array([0, 2, 1, 2, 2])
y_pred_m1 = np.array([[0.68, 0.32, 0.00],
                     [0.00, 0.00, 1.00],
                     [0.60, 0.40, 0.00],
                     [0.00, 0.00, 1.00],
                     [0.28, 0.12, 0.60]])

logloss_m1 = log_loss(y_true_m1, y_pred_m1)
print(logloss_m1)

0.3625557672904274


In [43]:
# mean-F1とmacro-F1とmicro-F1
# F1-scoreを多クラス分類に拡張したもの
# マルチラベルの分類の真の値・予測値は、評価指標の計算上はレコード×クラスの二値の行列とした方が扱いやすい
# 真の値 - [[1, 2], [1], [1, 2, 3], [2, 3], [3]]
y_true_m2 = np.array([
    [1, 1, 0],
    [1, 0, 0],
    [1, 1, 1],
    [0, 1, 1],
    [0, 0, 1],
])
# 予測値- [[1, 3], [2], [1, 3], [3], [3]]
y_pred_m2 = np.array([
    [1, 0, 1],
    [0, 1, 0],
    [1, 0, 1],
    [0, 0, 1],
    [0, 0, 1],
])

# mean-f1ではレコードごとにf1-scoreを計算して平均をとる
mean_f1 = np.mean([f1_score(y_true_m2[i, :], y_pred_m2[i, :]) for i in range(len(y_true_m2))])

# macro-f1ではクラスごとにF1-scoreを計算して平均をとる
c_class = 3
macro_f1 = np.mean([f1_score(y_true_m2[:, c], y_pred_m2[:, c]) for c in range(c_class)])

# micro-f1ではレコード×クラスのペアごとにTP/TN/FNを計算し、F1-scoreを求める
micro_f1 = f1_score(y_true_m2.reshape(-1), y_pred_m2.reshape(-1))

print(mean_f1,  macro_f1, micro_f1)


# scikit-learnのメソッドを使うことでも計算できる
mean_f1_sk = f1_score(y_true_m2, y_pred_m2, average = 'samples')
macro_f1_sk = f1_score(y_true_m2, y_pred_m2, average = 'macro')
micro_f1_sk = f1_score(y_true_m2, y_pred_m2, average = 'micro')
print(mean_f1_sk, macro_f1_sk, micro_f1_sk)

0.5933333333333334 0.5523809523809523 0.6250000000000001
0.5933333333333334 0.5523809523809523 0.6250000000000001


In [44]:
# quadratic weighted kappa
from sklearn.metrics import confusion_matrix, cohen_kappa_score

# quadratic weighted kappaを計算する関数
def quadratic_weighted_kappa(c_matrix):
    numer = 0.0
    denom = 0.0
    
    for i in range(c_matrix.shape[0]):
        for j in range(c_matrix.shape[1]):
            n = c_matrix.shape[0]
            wij = ((i - j) ** 2.0)
            oij = c_matrix[i, j]
            eij = c_matrix[i, :].sum() * c_matrix[:, j].sum() / c_matrix.sum()
            numer += wij * oij
            denom += wij * eij
            
    return 1.0 - numer / denom

# y_true_qは真の値のリスト、y_pred_qは予測値のクラスのリスト
y_true_q = [1, 2, 3, 4, 3]
y_pred_q = [2, 2, 4, 4, 5]

# 混合行列(複数クラスの場合の計算)を計算する
c_matrix = confusion_matrix(y_true_q, y_pred_q, labels=[1, 2, 3, 4, 5])

# quadratic weighted kappaを計算する
kappa = quadratic_weighted_kappa(c_matrix)
print(kappa)

# scikit-learnのメソッドを利用した場合
kappa1 = cohen_kappa_score(y_true_q, y_pred_q, weights='quadratic')
print(kappa1)

0.6153846153846154
0.6153846153846154


In [45]:
# レコメンデーションにおける評価指標
# MAP@K
# K = 3、レコード数は5個、クラスは4種類とする
K = 3

# 各レコードの真の値
y_true_ma = [[1, 2], [1, 2], [4], [1, 2, 3,4], [3, 4]]

# 各レコードに対する予測値ー K = 3なので、通常は各レコードにそれぞれ3個まで順位をつけて予測する
y_pred_ma = [[1,2, 4], [4, 1, 2], [1, 4, 3], [1, 2, 3], [1, 2, 4]]

# 各レコードごとのaverage precisionを計算する関数
def apk(y_i_true, y_i_pred):
    # y_predがK以下の長さで、要素が全て異なることが必要
    assert (len(y_i_pred) <= K)
    assert (len(np.unique(y_i_pred)) == len(y_i_pred))
    
    sum_precision = 0.0
    num_hits = 0.0
    
    for i, p in enumerate(y_i_pred):
        if p in y_i_true:
            num_hits += 1
            precision = num_hits / (i + 1)
            sum_precision += precision
            
    return sum_precision / min(len(y_i_true), K)


# MAP@Kを計算する関数
def mapk(y_true, y_pred):
    return np.mean([apk(y_i_true, y_i_pred) for y_i_true, y_i_pred in zip(y_true, y_pred)])

# MAP@Kを求める
print(mapk(y_true_ma, y_pred_ma))

0.6499999999999999


In [46]:
# 正解の数が同じでも、順位によって差が出る
print(apk(y_true_ma[0], y_pred_ma[0]))
print(apk(y_true_ma[1], y_pred_ma[1]))

1.0
0.5833333333333333


In [47]:
# カスタム目的関数とカスタム評価指標
# これらを作成するには、使用するライブラリのAPIに沿う形で関数を実装する必要がある
# xgboostによる例

import xgboost as xgb
from sklearn.metrics import log_loss

# 特徴量と目的変数をxgboostのデータ構造に変換する
# 学習データの特徴量と目的変数がtr_x, tr_y
# バリデーションデータの特徴量と目的変数がva_x, va_yとする
"""
本来ならtr_xとtr_yとva_xとva_yは得られている
dtrain = xgb.DMatrix(tr_x, label = tr_y)
dvalid = xgb.DMatrix(va_x, label = va_y)
"""

# カスタム目的関数(この場合はloglossであり、xgboostの'binary:logistic'と等価)
def logregobj(preds, dtrain):
    labels = dtrain.get_label() # 真の値のラベルを取得
    preds = 1.0 / (1.0 + np.exp(-preds)) # シグモイド関数
    grad = preds - labels # 勾配
    hess = preds * (1.0 - preds) # 二階微分値
    return grad, hess


# カスタム評価指標(この場合は誤答率)
def evalerror(preds, dtrain):
    labels = dtrain.get_label() # 真の値のラベルを取得
    return 'custom-error', float(sum(labels != (preds > 0.0))) / len(labels)

"""
# ハイパーパラメータの設定
params = {'silent': 1, 'random_state': 71}
num_round = 50
watchlist = [(dtrain, 'train'), (dvalid, 'eval')]

# モデルの学習実行
bst = xgb.train(params, dtrain, num_round, watchlist, obj = logregobj, feval=evalerror)

# 目的関数がbinary:logisticを指定した時と違い、
# 確率に変換する前の値で予測値が出力されるので変換が必要
pred_val = bst.predict(dvalid)
pred = 1.0/(1.0 + exp(-pred_val))
logloss = log_loss(va_y, pred)
print(logloss)
"""


"""
(参考)通常の方法で学習を行う場合
prams = {'silent':1, 'random_state': 71, objective:'binary:logistic'}
bst = xgb.train(params, dtrain, num_round, watchlist)

pred = bst.predict(dvalid)
logloss = log_loss(va_y, pred)
print(logloss)
"""

"\n(参考)通常の方法で学習を行う場合\nprams = {'silent':1, 'random_state': 71, objective:'binary:logistic'}\nbst = xgb.train(params, dtrain, num_round, watchlist)\n\npred = bst.predict(dvalid)\nlogloss = log_loss(va_y, pred)\nprint(logloss)\n"

In [48]:
# 閾値の最適化をout-of-foldで行う
from scipy.optimize import minimize
from sklearn.metrics import f1_score
from sklearn.model_selection import KFold

# サンプルデータ生成の準備
rand = np.random.RandomState(seed = 71)
train_y_prob = np.linspace(0, 1.0, 10000)

# 真の値と予測値が以下のtrain_y, train_pred_probとする
# np.clipはNumPy配列ndarrayの要素の値を任意の範囲内に収めるクリッピング処理
# を行うにはnp.clip()またはndarrayのclip()メソッドを使う。
# 引数に最小値と最大値を指定すると、その範囲外の値は最小値または最大値に置き換えられる。
# https://note.nkmk.me/python-numpy-clip/
train_y = pd.Series(rand.uniform(0.0, 1.0, train_y_prob.size) < train_y_prob)
train_pred_prob = np.clip(train_y_prob * np.exp(rand.standard_normal(train_y_prob.shape)*0.3), 0.0, 1.0)

# クロスバリデーションの枠組みで閾値を求める
thresholds = []
scores_tr =[]
scores_va = []

kf = KFold(n_splits=4, random_state=71, shuffle=True)
for i, (tr_idx, va_idx) in enumerate(kf.split(train_pred_prob)):
    tr_pred_prob, va_pred_prob = train_pred_prob[tr_idx], train_pred_prob[va_idx]
    tr_y, va_y = train_y.iloc[tr_idx], train_y.iloc[va_idx]
    
    # 最適化の目的関数を設定
    def f1_opt(x):
        # マイナスをつけているのは最適化ライブラリは基本的に最小化する方向性の物が多く、今回もminimizeを利用するから
        return -f1_score(tr_y, tr_pred_prob >= x)
    
    # 学習データで閾値の最適化を行い、バリデーションデータで評価を行う
    result = minimize(f1_opt, x0 = np.array([0.5]), method = 'Nelder-Mead')
    threshold = result['x'].item()
    score_tr = f1_score(tr_y, tr_pred_prob >= threshold)
    score_va = f1_score(va_y, va_pred_prob >= threshold)
    print(threshold, score_tr, score_va)
    
    thresholds.append(threshold)
    scores_tr.append(score_tr)
    scores_va.append(score_va)
    
# 各foldの閾値の平均をテストデータには適応する
threshold_test = np.mean(thresholds)
print(threshold_test)

0.34257812499999984 0.7559183673469387 0.7570422535211268
0.34277343749999983 0.7598457403295548 0.7450980392156863
0.31787109374999983 0.7548253676470588 0.7584803256445047
0.3234374999999998 0.7545569184913447 0.7588603196664351
0.33166503906249983
