# 混同行列　Confusion matrix  

真陽性は陽性クラスと予測され、結果も陽性クラスであった個数  
真陰性は陰性クラスと予測され、結果も陰性クラスであった個数  
偽陽性は陽性クラスと予測されたが、結果は陰性クラスであった個数  
偽陰性は陰性クラスと予測されたが、結果は陽性クラスであった個数  

|||||予測されたクラス|
| :---: || :---: | :---: | :---: |
|実際のクラス||    |  P  |  N  |
|||  P  |  真陽性<br>TP  |  疑陰性<br>FN  |
|||  N  |  偽陽性<br>FP  |  真陰性<br>TN  |


# 正解率 accuracy  
陽性・陰性と予測されたデータのうち、実際に陽性・陰性であるものの割合  
$$
accuracy＝\frac{TP + TN}{TP + TN + FN + FP}
$$

# 適合率/精度 precision  
陽性と予測されたデータのうち、実際に陽性であるものの割合  
$$
precision＝\frac{TP}{TP + FP}
$$

# 再現率 recall  
実際の陽性のデータのうち、陽性と予測できたものの割合  
$$
recall＝\frac{TP}{TP + FN}
$$

# F値 F-measure  
適合率と再現率の調和平均  
$$
F-measure＝2\times \frac{precision \times recall}{precision + recall}
$$

# メモ
すべて 0~1の範囲の中で示され、値が1に近いほうが「性能が良い」

# 例題

||    |  P  |  N  |
| :---: | :---: | :---: |
||  P  |  TP<br>2  |  FN<br>1  |
||  N  |  FP<br>0  |  TN<br>3  |

<details>
  <summary>表示するテキスト</summary>
  折りたたむ（クリックしたら表示される）テキスト
</details>

[TP FN] = [2 1]  
[FP TN]...[0 3]  
における正解率は？  
5/6

In [1]:
import numpy
from sklearn.metrics import confusion_matrix

# データを格納します。今回は0が陽性、1が陰性を示しています
# 左から右、上から下　昇順　0→1
y_pred = [1,0,0,1,1,1]
y_true = [0,0,0,1,1,1]

# 以下の行に変数confmatにy_trueとy_predの混同行列を格納してください
confmat=confusion_matrix(y_true,y_pred)

# 結果を出力します。
print (confmat)
print(confusion_matrix(y_true,y_pred,labels=[1,0]))

[[2 1]
 [0 3]]
[[3 0]
 [1 2]]


適合率/精度(precision)、再現率(recall)、F値ともに、 0~1の範囲の中で示され、値が1に近いほうが「性能が良い」

In [8]:
# 適合率、再現率、F1
from sklearn.metrics import precision_score, recall_score,confusion_matrix

# データを格納します。今回は0が陰性、1が陽性を示しています
y_true = [1,1,1,0,0,0]
y_pred = [0,1,1,0,0,0]
print(confusion_matrix(y_true,y_pred))
print(confusion_matrix(y_true,y_pred,labels=[1,0]))

# 適合率と再現率をあらかじめ計算します
precision = precision_score(y_true, y_pred)
recall = recall_score(y_true, y_pred)
print("precision:{}".format(precision))
print("recall:{}".format(recall))

# 以下の行にF1スコアの定義式を書いてください
f1_score =2 *(precision*recall) / (precision+recall)

print("F1: %.3f" % f1_score)

[[3 0]
 [1 2]]
[[2 1]
 [0 3]]
precision:1.0
recall:0.6666666666666666
F1: 0.800


PR曲線 とは、横軸を再現率(recall)、縦軸を適合率/精度(precision)として、データをプロットしたグラフを表したものです。  
![image.png](attachment:image.png)

PR曲線には適合率/精度(precision)と再現率(recall)が一致する点が存在します。この点を、 ブレークイーブンポイント(BEP) と呼びます。  
![image.png](attachment:image.png)