# 分类器性能评估指标和方法

1. 准确率通常无法成为分类器的首要性能指标, 特别是当你处理偏态分布(skewed dataset)的时候(即某些类比其他类的样本更多)；
2. 评估分类器性能更好的方法是混淆矩阵(confusion matrix)；

## 1.混淆矩阵

In [None]:
from sklearn.metrics import confusion_matrix
confusion_matrix(y_true, y_pred)

* 混淆矩阵中的行表示**实际类别**, 列表示**预测类别**；
* 一个完美的分类器只有**真负类(TP, true positive)**和**真正类(TN, true negtive)**, 即混淆矩阵只会在对角线上有非零值；
* 混淆矩阵能提供大量分类信息, 但有时可能希望指标更简洁一些: 
    - 正类预测的准确率, 即分类器的精度

## 1.2 精度 precision

$$precision = \frac{TP}{TP + FP}$$

其中: 

* TP是正真类的数量, 混淆矩阵的右下角；
* FP是假正类的数量, 混淆矩阵的右上角；
* $100\%$是完美的精度, 但是没有什么意义, 因为分类器会忽略这个正类实例之外的所有内容；
* 精度(precision)通常与召回率(recall, 灵敏度(sensitivity))一起使用, ；

## 1.3 召回率 recall

$$recall = \frac{TP}{TP + FN}$$

其中: 

* TP是正真类的数量, 混淆矩阵的右下角；
* FN是假负类的数量, 混淆矩阵的左下角；

### 精度, 召回率实现

In [None]:
from sklearn.metrics import precision_score, recall_score
precision_score(y_true, y_pred)
recall_score(y_true, y_pred)

### 精度, 召回率解释

* 精度:
    - 当判断一个样本是正例时, 有多少的样本是预测准确的；
* 召回率:
    - 当谈论一个样本是正例时, 只有多少正真的正例被预测正确；

## 1.4 F1 Score

$$F1 = \frac{2}{\frac{1}{precision} + \frac{1}{recall}}$$

$$F1 = \frac{TP}{TP + \frac{FN+FP}{2}}$$

* F1 score是精度和召回率的调和平均值；
* 当需要一个更简单的方法比较两个分类器的性能时, F1 score是一个非常不错的指标；

### F1 score的实现

In [None]:
from sklearn.metrics import f1_score
f1_score(y_true, y_pred)

### F1 score解释

* F1 score对于那些具有相近的精度和召回率的分类器更有用；
* 在某些情况下, 更关心的是精度, 而另一些情况下, 更关心的是召回率；