## 2.3　評価指標

In [62]:
import numpy as np
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score
from sklearn.metrics import log_loss
from sklearn.metrics import f1_score
from sklearn.metrics import confusion_matrix, cohen_kappa_score

### 2.3.3　二値分類における評価指標～正例か負例かを予測値とする場合～

#### 混同行列

In [63]:
y_true = [1, 0, 1, 1, 0, 1, 1, 0]
y_pred = [0, 0, 1, 1, 0, 0, 1, 1]

tp = np.sum((np.array(y_true) == 1) & (np.array(y_pred) == 1))
tn = np.sum((np.array(y_true) == 0) & (np.array(y_pred) == 0))
fp = np.sum((np.array(y_true) == 0) & (np.array(y_pred) == 1))
fn = np.sum((np.array(y_true) == 1) & (np.array(y_pred) == 0))

print(tp, tn, fp, fn)

3 2 1 2


In [64]:
confusion_matrix1 = np.array([[tp, fp], [fn, tn]])
print(confusion_matrix1)

[[3 1]
 [2 2]]


モジュールを用いても表示はできるが、配置が異なることに注意する。

In [65]:
confusion_matrix2 = confusion_matrix(y_true, y_pred)
print(confusion_matrix2)

[[2 1]
 [2 3]]


#### accuracy（正答率）とerror rate（誤答率）

In [66]:
y_true = [1, 0, 1, 1, 0, 1, 1, 0]
y_pred = [0, 0, 1, 1, 0, 0, 1, 1]

accuracy = accuracy_score(y_true, y_pred)

print(accuracy)

0.625


#### precision（適合率）とrecall（再現率）

metricsモジュールのprecision_score、recall_scoreで計算することができる。

#### F1-scoreとFβスコア

・F1-score：precisionとrecallはトレードオフの関係だが、それらの調和平均で計算してバランスをとった指標<br>
・Fβ-score：F1-scoreにおいてrecallをどれだけ重視するかを表す係数βによって調整した指標

### 2.3.4　二値分類における評価指標～正例である確率を予測値とする場合～

#### logloss

In [67]:
y_true = [1, 0, 1, 1, 0, 1]
y_prob = [0.1, 0.2, 0.8, 0.8, 0.1, 0.3]

log_loss = log_loss(y_true, y_prob)
print(log_loss)

0.7135581778200728


### 2.3.5　多クラス分類における評価指標

#### mean-F1とmacro-F1とmicro-F1

以下の指標を見るときは、**結果（True・False）←予測（Positive・Negative）**で考えると良い。

・TP：Positiveだと予測して、Trueだった<br>
・TN：Negativeだと予測して、Trueだった<br>
・FP：Positiveだと予測して、Falseだった<br>
・FN：Negativeだと予測して、Falseだった

また、書籍でのマルチクラスでのTP, TN, FP, FNは、ひとつのクラスに着目して考えると良い。<br>
例えば、真の値が1だとして、FP（1と予測して、結果が1）は1カウント、TN（1以外の2, 3と予測して、結果が1）は0カウントになる。

In [68]:
y_true = np.array([[1, 1, 0],
                   [1, 0, 0],
                   [1, 1, 1],
                   [0, 1, 1],
                   [0, 0, 1]])

y_pred = np.array([[1, 0, 1],
                   [0, 1, 0],
                   [1, 0, 1],
                   [0, 0, 1],
                   [0, 0, 1]])

print(len(y_true))

5


下記の計算を手動で計算する際には、上記の行列からTP～FNまでを求めて、f1-scoreの公式に代入すれば良い。

In [69]:
f1_0 = f1_score(y_true[0, :], y_pred[0, :])
f1_1 = f1_score(y_true[1, :], y_pred[1, :])
f1_2 = f1_score(y_true[2, :], y_pred[2, :])
f1_3 = f1_score(y_true[3, :], y_pred[3, :])
f1_4 = f1_score(y_true[4, :], y_pred[4, :])

print(f1_0)
print(f1_1)
print(f1_2)
print(f1_3)
print(f1_4)

0.5
0.0
0.8
0.6666666666666666
1.0


mean_f1では、**レコード**ごとにF1-scoreを計算して平均を取る。

In [70]:
mean_f1 = np.mean([f1_score(y_true[i, :], y_pred[i, :]) for i in range(len(y_true))])

print(mean_f1)

0.5933333333333334


macro_f1では、**クラス**ごとにF1-scoreを計算して平均を取る。

In [71]:
n_class = 3
macro_f1 = np.mean([f1_score(y_true[:, c], y_pred[:, c]) for c in range(n_class)])

print(macro_f1)

0.5523809523809523


つまり、mean_f1では行ごとにF1-scoreを計算したが、macro_f1では列ごとにF1-scoreを計算している。

In [72]:
micro_f1 = f1_score(y_true.reshape(-1), y_pred.reshape(-1))

print(micro_f1)

0.6250000000000001


・mean_f1：行ごとに (TP, TN, FP, FN) を求め、F1-scoreを計算して、平均値を取る<br>
・macro_f1：列ごとに (TP, TN, FP, FN) を求め、F1-scoreを計算して、平均を取る<br>
・micro_f1：全体の (TP, TN, FP, FN) を求め、F1-scoreを計算する<br>

In [73]:
y_true

array([[1, 1, 0],
       [1, 0, 0],
       [1, 1, 1],
       [0, 1, 1],
       [0, 0, 1]])

In [74]:
y_true.reshape(-1)

array([1, 1, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1, 0, 0, 1])

reshape(-1)は、行列を1行に変換する。(1, 1), (1, 2), (1, 3), (2, 1) ・・・ (5, 3) の順番となっている。

In [75]:
mean_f1 = f1_score(y_true, y_pred, average='samples')
macro_f1 = f1_score(y_true, y_pred, average='macro')
micro_f1 = f1_score(y_true, y_pred, average='micro')

print(mean_f1)
print(macro_f1)
print(micro_f1)

0.5933333333333334
0.5523809523809523
0.6250000000000001


scikit-learnのメソッドを使用して計算もできる。

#### quadratic weighted kappa

In [76]:
def quadratic_weighted_kappa(c_matrix):
    numer = 0.0
    denom = 0.0
    
    for i in range(c_matrix.shape[0]):
        for j in range(c_matrix.shape[1]):
            n = c_matrix.shape[0]
            wij = ((i - j) ** 2.0)
            oij = c_matrix[i, j]
            eij = c_matrix[i, :].sum() * c_matrix[:, j].sum() / c_matrix.sum()
            numer += wij * oij
            denom += wij * eij
        
    return 1.0 - numer / denom

In [77]:
y_true = [1, 2, 3, 4, 3]
y_pred = [2, 2, 4, 4, 5]

c_matrix = confusion_matrix(y_true, y_pred, labels=[1, 2, 3, 4, 5])
print(c_matrix)

[[0 1 0 0 0]
 [0 1 0 0 0]
 [0 0 0 1 1]
 [0 0 0 1 0]
 [0 0 0 0 0]]


In [78]:
print(c_matrix.shape[0])
print(c_matrix.shape[1])

5
5


In [79]:
print(c_matrix[1, :].sum())
print(c_matrix[:, 1].sum())
print(c_matrix.sum())

1
2
5


eijのコード理解が難しいようであれば、P.82の表と照らし合わせると分かりやすいので、見ると良い。

In [80]:
kappa = quadratic_weighted_kappa(c_matrix)
print(kappa)

0.6153846153846154


scikit-learnのメソッドでも計算は可能ある。

In [81]:
kappa = cohen_kappa_score(y_true, y_pred, weights='quadratic')
print(kappa)

0.6153846153846154


#### 2.3.6　レコメンデーションにおける評価指標

In [82]:
K = 3

y_true = [[1, 2], [1, 2], [4], [1, 2, 3, 4], [3, 4]]
y_pred = [[1, 2, 4], [4, 1, 2], [1, 4, 3], [1, 2, 3], [1, 2, 4]]

In [83]:
print(y_true)
print(y_pred)

[[1, 2], [1, 2], [4], [1, 2, 3, 4], [3, 4]]
[[1, 2, 4], [4, 1, 2], [1, 4, 3], [1, 2, 3], [1, 2, 4]]


In [84]:
def apk(y_i_true, y_i_pred):
    assert (len(y_i_pred) <= K)
    assert (len(np.unique(y_i_pred)) == len(y_i_pred))
    
    sum_precision = 0.0
    num_hits = 0.0
    
    for i, p in enumerate(y_i_pred):
        if p in y_i_true:
            num_hits += 1
            precision = num_hits / (i + 1)
            sum_precision += precision
            
    return sum_precision / min(len(y_i_true), K)

左ページの表ではレコード全体（表）で計算しているのに対し、上記の実装では各レコード（行）ごとに計算をしているので注意する。

pは、例えばy_predから1つのデータを抜き出し、各要素（1, 2, 4）などを代入している。<br>
precisionの分母がi+1なのは、データ番号が0から始まるから、調整をしているだけ。<br>

In [85]:
def mapk(y_true, y_pred):
    return np.mean([apk(y_i_true, y_i_pred) for y_i_true, y_i_pred in zip(y_true, y_pred)])

レコード数（5つ）分があるので、それらの平均を取っているだけである。

In [86]:
print(mapk(y_true, y_pred))

0.6499999999999999


In [89]:
print(apk(y_true[0], y_pred[0]))
print(apk(y_true[1], y_pred[1]))

1.0
0.5833333333333333


上記2つのデータは、両方とも同じ正解数ではあるが<br>
正解である予測値が後ろになってしまうほど、スコアが下がってしまうことに注意する。

In [91]:
print(y_true[0], y_pred[0])
print(y_true[1], y_pred[1])

[1, 2] [1, 2, 4]
[1, 2] [4, 1, 2]


0番目のデータの方が、正解である予測値が前に来ている。