In [1]:
import warnings

import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import seaborn as sns

warnings.filterwarnings('ignore')

%matplotlib inline

# 2クラス分類での評価指標
1. 混同行列(Confusion Matrix)
2. 正答率(Accuracy)
3. 適合率(Precision)
4. 再現率(Recall)
5. 交差エントロピー誤差(Cross Entropy Loss; LogLoss)
   
---
## 混合行列
二値分類の正解・不正解の種類には以下の4つがある。
  - TP (True Positive) → 正の予測 - 正解
  - FP (False Positive) →正の予測 - 不正解(実際には負)
  - FN (False Negative) →負の予測 - 不正解(実際には正)
  - TN (True Negative) →負の予測 - 正解

1文字目：予測の正誤。T(True)は予測正解、F(False)は予測不正解。  
2文字目：予測の内容。Pは予測が正(Positive)、Nは予測が負(Negative)  

→ これらのマトリックスを混合行列という。


## 正答率(Accuracy)
全予測に対する正答率。
### ・導出方法
$$\frac{TP+TN}{TP+FP+FN+TN}$$


## 適合率(Precision)
正と予測したデータのうち，実際に正であるものの割合。「精度」と呼ぶこともある。
### ・導出方法
$$\frac{TP}{TP+FP}$$


## 再現率(Recall)
実際に正であるもののうち，正であると予測されたものの割合。
### ・導出方法
$$\frac{TP}{TP+FN}$$


## 再現率(Recall)
実際に正であるもののうち，正であると予測されたものの割合。

### ・導出方法
$$\frac{TP}{TP+FN}$$


## 交差エントロピー誤差
２つの確立分布がどれくらい離れているかを表す指標
### ・導出方法
正解データを $t(k)$、
モデルによって出力される判定を $y(k)$
とするとき、交差エントロピー誤差 $E$は以下のように定義される。
$$E=-\sum_{k} t(k)\log{y(k)}$$


## 手計算
$TP=10$  
$FP=5$  
$FN=7$  
$TN=12$  
とする

In [2]:
tp=10
fp=5
fn=7
tn=12

### 正答率

In [6]:
accuracy_test=(tp+tn)/(tp+fp+fn+tn)
accuracy_test

0.6470588235294118

In [7]:
precision_test=tp/(tp+fp)
precision_test

0.6666666666666666

In [8]:
recall_test=tp/(tp+fn)
recall_test

0.5882352941176471