In [2]:
import pandas as pd
import numpy as np
from sklearn.metrics import mean_squared_error

In [3]:
# 回帰
y_true = [1.0, 1.5, 2.0, 1.2, 1.8]
y_pred = [0.8, 1.5, 1.8, 1.3, 3.0]

rmse = np.sqrt(
    mean_squared_error(y_true=y_true, y_pred=y_pred)
)
rmse

0.5531726674375732

## Root Mean Squad Error
- 平均平方二乗誤差
- 対応する真の値との差を二乗して平均を求め、平方を取ったもの
- `誤差が正規分布に従うと仮定して最尤推定したときの最尤解と等しくなる`
- 一つの代表値で誤差を最小化することを考えたとき、平均値が最小となる 

In [4]:
## 2値分類

In [14]:
## 混同行列
from sklearn.metrics import confusion_matrix

y_true = np.array([1,0,1,1,0,1,1,0])
y_pred = np.array([0,0,1,1,0,0,1,1])

#tp...予測値を正例として、その予測が正しい場合 真陽性
tp = np.sum((y_pred == 1) & (y_true == 1))
#tn...予測値を負例として、予測が正しい場合 真陰性
tn = np.sum((y_pred == 0) & (y_true == 0))

#fp...予測値を正例として、予測が誤っている 偽陽性
fp = np.sum((y_pred == 1) & (y_true == 0))
#fm...予測値を負例として、予測が誤っている 偽陰性
fn = np.sum((y_pred == 0) & (y_true == 1))

cm1 = np.array(
    [[tp, fp],
    [tn, fn]
    ]
)

cm2 = confusion_matrix(y_true, y_pred)
cm1, cm2

(array([[3, 1],
        [2, 2]]),
 array([[2, 1],
        [2, 3]]))

In [15]:
# accuracy
from sklearn.metrics import accuracy_score
y_true = [1,0,1,1,0,1,1,0]
y_pred = [0,0,1,1,0,0,1,1]

accuracy = accuracy_score(y_true, y_pred)
accuracy

0.625

# Accurcy, Error rate
- 正答率
    - 予測が正しい割合
    - (tp + tn) / (tp + tn + fp + fn)
- 誤答率
    - 1 - accuracy
- 不均衡データに弱いのであまり使われないらしい
    - 2値分類の場合は正例である予測確率を求めたあと閾値以上か以下かで分類する
    - accuracyは50%
    - `評価しているのはあるレコードが正例である確率を50%以上か以下かで振り分ける能力のみ`
    - 10%以下、90%を正確に振り分ける能力を評価しているわけではない
- 不均衡データの例
    - 正例の割合が0.1%
    - 正例である確率が5%の比較的高いレコードを予測したい
        - 比較的は元のデータの正例の割合と比較しての意味っぽい
    - accuが評価指標の場合、50%以下なのですべて負例
        - 全レコードを負例とするモデルと変化なし
    - 正しいモデルの評価が不可能になってしまう

In [16]:
## precision, recall(適合率、再現率)
from sklearn.metrics import precision_score ,recall_score

precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)

precision, recall

(0.75, 0.6)

## RrecisionとRecall
- Precision...適合率
    - TP / (TP + FP)
    - 正例としたものの内どれだけの値が正しいか
- Recall...再現率、感度
    - TP / (TP + FN)
    - 真の値が正例の内どれだけ正例と予測できるか
- トレードオフの関係になっている
    - Precisionを上げたい...
    - FPを減らすために負例の閾値を下げよう！
    - FNの増加 -> Recallが低下
- 二つセットで使用する
    - 誤検知を減らしたい -> presicionを重視
    - 正例の見逃しを避けたい -> Recallを重視


## MCC
- 正例データの割合が不均衡なときに使用される指標
- 正例、負例を対等に扱う
    - F1は正例のみに注目した指標なので、入れ替えると振る舞いが変化


## F1, MCCが対象のコンペ
- これらが最大化されるよう閾値を設定する必要がある
    - 閾値で値が変化してしまう
- 特性を考えて使用していこう 

In [17]:
# F1-score, Fβ-score
from sklearn.metrics import f1_score, fbeta_score

f1 = f1_score(y_true, y_pred)
fbeta = fbeta_score(y_true=y_true, y_pred=y_pred, beta=2)

f1, fbeta

(0.6666666666666665, 0.625)

## f1とf score
- F値ってやつ
- PresicionとRecallの調和平均
    - aとbの調和平均 n = 2の時
    - n / (1/a + 1/b)
    - 全体として着目している数量が同じものに対して適切な平均
    - 今回ではTPが分子で等しいため使用している
    - https://www.cresco.co.jp/blog/entry/10325/
    - 通常の平均と変わらないそんなには変わらない
        - 平均を取る値の全体の内着目してる部分の違い
        - 食塩の量が同じ(cグラム)で水の量が違う(a,b)食塩水を混ぜたときの食塩水はc/((a + b)/2)
- f1
    - 2 / {(1 / recall) + (1 / precision)}
    - 2TP / {2TP + FP + FN}
- fbeteはRecallの重要度をbetaで重みづけできる指標
    - beteが大きいほどRecallが重視される
    - f2などの形で用いられる

In [18]:
# logloss(cross entoropy)
from sklearn.metrics import log_loss

y_true = [1,0,1,1,0,1]
y_pred = [0.1, 0.2, 0.8,0.8,0.1,0.3]

logloss = log_loss(y_true=y_true, y_pred=y_pred)
logloss

0.7135581778200728

## Log Loss(cross entropy)
- 正例である確率を評価値とする場合
- Cross Entropy
    - logloss = 1/N Σ_{1..N}(y_i(log(p_i)) + (1-y_i)log(1-p_i))
    - y_i...1 or 0 正解
    - p_i...0~1 予測された確率値
    - log関数は0...-inf , 1...0と変化するので、予測確率値がy_iに近いほど0に近くなるよう定義されている
    - p_iで微分するとp_i == y_iの時最小
        - 確率を正確に予測できているとき最小
        - ラベルが確率的に与えられていると考えると確率と見なせる（データ生成時に確率的にラベルが降られている）

In [19]:
# AUC
from sklearn.metrics import roc_auc_score

y_true = [1,0,1,1,0,1]
y_pred = [0.1, 0.2, 0.8,0.8,0.1,0.3]

auc = roc_auc_score(y_true=y_true, y_score=y_pred)
auc

0.8125

## AUC
- 偽陽性、真陽性率を(x, y)として、陽性の閾値を徐々に低くしていったときに描かれた曲線（ROC曲線...reciever Operating Charactaristic Curve）の下部の面積
- Gini係数と線形の関係
    - 2*AUC-1
- 正例と負例をランダムに選んだ時に正例の予測値が負例の予測値よりも大きい確率 として定義できる
    - {y_i = 1, y_j = 0, ^y_i > ^y_j を満たすi, jの組数} / {y_i = 1, y_j = 0を満たす組数}
- 各レコードの予測値の大小関係のみが値に影響する
    - そのため予測値は確率でなくても問題なし

## 多クラス分類での評価指標

In [21]:
# Mutli class log loss
from sklearn.metrics import log_loss
y_true = np.array([0, 2, 1, 2, 2])
y_pred = np.array(
    [[0.68, 0.32, 0.00],
    [0.00, 0.00, 1.00],
    [0.60, 0.40, 0.00],
    [0.00, 0.00, 1.00],
    [0.28, 0.12, 0.60]]
)
logloss = log_loss(y_true, y_pred)
logloss

0.3625557672904274

## Multiclass logloss
- LogLossの多クラスへの拡張
    - Nレコード、Mクラス
    - LogLoss = -1/N Σ_N Σ_M y_n_m log p_n_m
    - 割り当てられたクラスへの予測確率が低いほど大きくなる

In [26]:
## mean_f1
from sklearn.metrics import f1_score

y_true = np.array([
    [1,1,0],
    [1,0,0],
    [1,1,1],
    [0,1,1],
    [0,0,1]
])

y_pred = np.array([
    [1, 0, 1],
    [0, 1, 0],
    [1, 0, 1],
    [0, 0, 1],
    [0, 0, 1]]
)

# mean f1はレコード毎にF1スコアを計算
mean_f1 = np.mean(
    [f1_score(y_true[i, :], y_pred[1,:]) for i in range(len(y_true))]
)

n_class = len(y_true[0])
# macroはクラスごとにF1スコアを計算
# 各クラスごとに2値分分類してるのと同じ
# クラスごとに閾値の最適化が可能
macro_f1 = np.mean(
    [f1_score(y_pred=y_pred[:, c], y_true=y_true[:, c]) for c in range(n_class)]
)

# レコード*クラスのペア度とにTP/TN/FP/FNを計算し、F1-scoreを求める
micro_f1 = f1_score(y_true.reshape(-1), y_pred.reshape(-1))
mean_f1, macro_f1, micro_f1

mean_f1 = f1_score(y_pred=y_pred, y_true=y_true, average="samples")
mean_f1

0.5933333333333334

In [32]:
## クラス間に順序関係があるときのマルチクラス分類
## quandratic weighted kappa
from sklearn.metrics import confusion_matrix, cohen_kappa_score
y_true = [1, 2, 3, 4, 3]
y_pred = [2, 2, 4, 4, 5]

def quadratic_weighted_kappa(c_matrix:np.array):
    """
    quadratic_weighted_kappaの計算
    """
    numer = 0
    denom = 0

    n = c_matrix.shape[0]
    for i in range(c_matrix.shape[0]):
        for j in range(c_matrix.shape[1]):
            
            wij = ((i-j) ** 2)
            oij = c_matrix[i, j]
            eij = (c_matrix[i, :].sum() * c_matrix[:, j].sum()) / c_matrix.sum()

            numer += wij * oij
            denom += wij + eij


    return 1 - numer / denom

c_matrix = confusion_matrix(y_true, y_pred, labels=[1,2,3,4,5])
quadratic_weighted_kappa(c_matrix), cohen_kappa_score(y_true, y_pred, weights="quadratic")

(0.9428571428571428, 0.6153846153846154)

## quandratic weighted kappa
- 完全な予測の場合1, ランダム予測で0, ランダムより悪化で0未満