# 评估分类模型

分类模型相对是比较好评估的,一般来说我们在训练时会将训练数据分为`训练集,验证集和测试集`三份或者`训练集,测试集`两份.当模型训练完成,基于模型在测试集上的预测结果和真实结果,计算一些指标来评估模型的泛化能力.这些指标主要包括accuracy, precision,recall,F1,auc.  
在介绍指标之前,不妨假设这是二分类问题,类别有正/负两种(或者1/0两种),先给出以下四种定义,用来划分测试集:

+ 预测为正且实际为正的 叫做TP(True Positive).
+ 预测为正且实际为负的 叫做FP(False Positive).
+ 预测为负且实际为正的 叫做FN(False Negative).
+ 预测为负且实际为负的 叫做TN(True Negative).

测试集中的样本一定会符合以上四种定义之一.



|  横轴预测,纵轴真值 | 预测为正 | 预测为负 | 不论预测|
| :----- | :----- | :----- | -----|
| 实际为正|  TP | FN | P |
| 实际为负   | FP  | TN | N |

如果没有特殊说明,这六种符号均表示符合对应定义的样本的数量.

### 准确度(accuracy)

准确度反映的是预测值与真值一致的程度.其分子为预测对的样本的数量,分母为测试集总的样本数量.

$$ Accurcy =\frac{TP + TN}{TP + FP + TN + FN} $$

### 精确度(precision)

$$ precision = \frac {TP}{TP+FP}$$

准确度是预测为正的样本中真值为正的百分比.

### 召回率(recall)

$$ recall = \frac {TP}{TP+FN} $$

召回率描述的是真值为正的样本中被预测为正的比例.也叫TPR(True Positive Rate).

### F1_score

我们不妨想象,一个分类器把所有样本都预测为正,则召回率很高;如果它只把样本中最有可能为正的一个预测为正,其他都为负,则准确度很高.所以精确度和召回率都不能独自完全描述一个模型的准确程度.而F1是准确度和召回率的调和平均,是综合准确度和召回率的一种指标.


$$ F1 = \frac{1}{\frac{\frac{1}{precision} + \frac{1}{recall}}{2}} = 2 * \frac {precision * recall}{precision + recall} $$

### 混淆矩阵(confusion matrix)

混淆矩阵是更加细致的一个模型效果评估工具,它的纵轴为真实标签,横轴为预测标签,其中的数字则是命中的个数.通过这个可以比较清晰地看出模型预测的偏向性,以此可以作为模型调整的依据.

比如我们有如下的混淆矩阵,就可以看出把真值非1的样本预测为1的比率很高,背后原因可能是因为训练集中1类的样本很多.

|  横轴预测,纵轴真值 | 预测为1 | 预测为2 | 预测为3 |
| :----- | :----- | :----- | -----|
| 实际为1 |   5 | 2 | 0 |
| 实际为2   | 5  | 3 | 0 |
| 实际为3 | 10 | 0 | 2|

### AUC(Area Under Curve)
除了precision, recall, F1等基于样例的评价指标,还有AUC(Area Under Curve)这种关于样本总体顺序的指标.   
AUC是ROC曲线和y=0直线和x=1直线围的面积,换句话说就是ROC曲线下的面积.  

### ROC(Receiver Operating Characteristic curve)


### 负正类率(False Positive Rate, FPR)
$$ FPR=\frac{FP}{N} = \frac {FP}{FP+TN}$$

## ***使用sklearn做模型评估***

除了上面的这些指标,sklearn还提供了一些其他接口来做分类模型的评估

接口|说明
---|---
`metrics.accuracy_score(y_true, y_pred[, …])`|	模型准确度(Accuracy)
`metrics.auc(x, y[, reorder])`|使用梯形法则计算曲线下面积(AUC)
`metrics.average_precision_score(y_true, y_score)`|计算平均精确率(AP)
`metrics.brier_score_loss(y_true, y_prob[, …])`|计算Brier得分
`metrics.classification_report(y_true, y_pred)`|构建主要分类指标的文本报告
`metrics.cohen_kappa_score(y1, y2[, labels, …])`|Cohen's kappa: 一个衡量内部注释者协议的统计量
`metrics.confusion_matrix(y_true, y_pred[, …])`|计算混淆矩阵来评估分类的准确性
`metrics.f1_score(y_true, y_pred[, labels, …])`|计算F1得分
`metrics.fbeta_score(y_true, y_pred, beta[, …])`|计算F-beta得分
`metrics.hamming_loss(y_true, y_pred[, …])`|计算平均海明损失
`metrics.hinge_loss(y_true, pred_decision[, …])`|计算平均hinge损失
`metrics.jaccard_similarity_score(y_true, y_pred)`|Jaccard相似系数评分
`metrics.log_loss(y_true, y_pred[, eps, …])`|对数损失,又名逻辑损失或交叉熵损失
`metrics.matthews_corrcoef(y_true, y_pred[, …])`|计算马修斯相关系数(MCC)
`metrics.precision_recall_curve(y_true, …)`|针对不同的概率阈值计算精度(precision),召回率对
`metrics.precision_recall_fscore_support(…)`|计算精度，召回率，f1,support对
`metrics.precision_score(y_true, y_pred[, …])`|计算精度
`metrics.recall_score(y_true, y_pred[, …])`|计算召回
`metrics.roc_auc_score(y_true, y_score[, …])`|计算特征曲线（ROC AUC）下预测分数的计算区域
`metrics.roc_curve(y_true, y_score[, …])`|计算ROC
`metrics.zero_one_loss(y_true, y_pred[, …])`|0-1分类器损失