# 查准率、查全率与F1

有时候我们关心的不仅仅是精度，例如信用卡诈骗识别中，我们可能关心“诈骗交易中有多少被识别出来了”。查准率（Precision）和查全率（Recall）比精度更适合来度量此类问题。


## 查准率、查全率

对于二分类问题，可以将样例根据其真实类别和学习器预测类别划分成真正例（TP，True Positive）、假正例（FP，False Positive）、真反例（TN，True Negative）、假反例（FN，False Negative）四种情形。

<table>
<tbody>
   <tr><td rowspan="2" style="text-align:center">真实情况</td><td colspan="2" style="text-align:center">预测结果</td></tr>
   <tr><td style="text-align:center">正例</td><td style="text-align:center">反例</td></tr>
   <tr><td>正例</td><td>TP（真正例）</td><td>FN（假反例）</td></tr>
   <tr><td>反例</td><td>FP（假正例）</td><td>TN（真反例）</td></tr>
</tbody>
</table>

查准率 $P$ 与查全率 $R$ 分别定义为：

$$ P = \frac{TP}{TP + FP} $$
$$ R = \frac{TP}{TP + FN} $$

通俗的理解查准率与查全率：

- 查准率：判别为正例的结果中真正例的比例
- 查全率：所有正例中，判别结果是真理的比例

查准率与查全率是一对矛盾的度量。一般来说，查准率高时，查全率往往偏低；而查全率高时，查准率往往偏低。例如，若希望将好瓜尽可能多地选出来，则可以通过增加选瓜的数量来实现，如果将所有西瓜都选上，那么所有的好瓜也必然都被选上了，但这样查准率就会较低；若希望选出的瓜中好瓜比例尽可能高，则可只挑选最有把握的瓜，但这样就难免会漏掉不少好瓜，使得查全率较低。通常只有在一些简单任务中，才可能使查全率和查准率都很高。

既然查准率与查全率是矛盾的，那么我们如何以查准率、查全率来衡量一个学习器的性能呢，到底侧重于哪一个指标呢？下面我们介绍针对于查准率、查全率的评价方法。

## 评价方法

### P-R曲线

根据学习器的预测结果对样例进行排序，排在前面的是学习器认为“最可能”是正例的样本，排在最后的则是学习器认为“最不可能”是正例的样本。按此顺序逐个把样本作为正例进行预测，则每次可以计算出当前的查全率、查准率。以查准率为纵轴、查全率为横轴作图，就得到了查准率-查全率曲线，简称“P-R曲线”，显示该曲线的图成为“P-R图”。


P-R图直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时，若一个学习器的P-R曲线被另一个学习器的曲线完全“包住”，则可断言后者的性能优于前者；如果两个学习器的P-R曲线发生了交叉，则难以一般性地断言两者孰优孰劣，只能在具体的查准率或查全率条件下进行比较。

对于两个P-R曲线交叉的情况，一个比较合理的判据是比较**P-R曲线下面积**的大小，它在一定程度上表征了学习器在查准率和查全率上取得相对“双高”的比例。但这个值不太容易估算。

**平衡点**（Break-Even Point，简称BEP）是另一个综合考虑查准率、查全率的度量，它是“查准率=查全率”时的取值。可以认为平衡点取值高的学习器更优。

### F1度量

F1度量的计算方法如下：

$$ F1 = \frac{2 \times P \times R}{P + R} = \frac{2 \times TP}{m + TP - TN} $$

其中 $m$ 是样例总数。

它是基于查准率与查全率的调和平均（harmonic mean）定义的：

$$ \frac{1}{F1} = \frac{1}{2} \cdot \left( \frac{1}{P} + \frac{1}{R} \right) $$

在一些情况下，对查准率、查全率的重视程度会有所不同。例如在商品推荐系统中，为了尽可能少打扰用户，更希望推荐内容确是用户感兴趣的，此时查准率更重要；而在逃犯信息检索系统中，更希望尽可能少漏掉逃犯，此时查全率更重要。F1度量的一般形式—— $F_{\beta}$，能让我们表达出对查准率/查全率的不同偏好，它定义为

$$ F_{\beta} = \frac{\left( 1 + \beta^2 \right) \times P \times R}{\left( \beta^2 \times P \right) + R} $$

其中 $\beta > 0$ 度量了查全率对查准率的相对重要性。$\beta = 1$ 时退化为标准的F1；$\beta > 1$ 时查全率有更大影响；$\beta < 1$ 时查准率有更大影响。

它是查准率与查全率的加权调和平均：

$$ \frac{1}{F_{\beta}} = \frac{1}{1 + \beta^2} \cdot \left( \frac{1}{P} + \frac{\beta^2}{R} \right) $$


> 与算数平均（$\frac{P+R}{2}$）和几何平均（$\sqrt{P \times R}$）相比，调和平均更重视较小值。