# 10-4 F1 Score

复习：如果我们的数据是极度偏斜的时候，使用精准率和召回率是比使用准确率好的。有一些场景，我们会觉得精准率越高越好，有一些场景，我们希望召回率越高越好。下面是以前我们提到的两个例子，我们再复习一下：

例1：股票投资预测，上升的股票记为 1。我们总是希望精准率（precision）越高越好，对于实际是下降（0）而我们又预测上涨的情况（FP），我们是实实在在投了钱的，如果精准率很低，表示我们投资的绝大部分钱都贬值了。那么那些真实是上涨，但是我们预测是下跌的股票（FN）而言，我们并没有投钱，虽然广义上也是损失，当并没有 FP 这种损失具体而深刻。

例2：疾病诊断，患病我们记为 1。我们总是希望召回率（recall）越高越好，召回率（recall）越高表示此时真实患病但是我们误诊的数量（FN）越来越少，我们甚至希望这部分数量没有，因为延误病情带来的损失可能是无法挽回的。而对于精准率而言，那些真实为健康但是我们却认为患病的（FP）人，我们只须要让他们再来复诊就好，最多也只是让他们虚惊一场。

综上，两个例子，所以我们期望精准率和召回率有一个很好的平衡，即二者都兼顾。

## F1 Score 是精准率和召回率的调和平均值

调和平均值的特点：数值小的那一边会极大地拉低整体的平均值，即使那个数值大的很大很大。

$$\frac{1}{F1} = \frac{1}{2}(\frac{1}{precision} + \frac{1}{recall})$$


$$F1 = \frac{2 \cdot precision \cdot recall}{precision + recall}$$

In [1]:
import numpy as np


def f1_score(precision, recall):
    try:
        return 2 * precision * recall / (precision + recall)
    except:
        return 0.0

下面，我们做一些试验。

In [2]:
precision = 0.5
recall = 0.5
f1_score(precision, recall)

0.5

In [3]:
precision = 0.1
recall = 0.9
f1_score(precision, recall)

0.18000000000000002

In [4]:
precision = 0.0
recall = 1.0
f1_score(precision, recall)

0.0

我们还使用 digits 手写数字识别的例子来说明问题。

In [6]:
from sklearn import datasets

digits = datasets.load_digits()
X = digits.data
y = digits.target.copy()

y[digits.target == 9] = 1
y[digits.target < 9] = 0

In [7]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

下面计算出来的是准确率。

In [8]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
log_reg.score(X_test, y_test)

0.97555555555555551

In [9]:
y_predict = log_reg.predict(X_test)

计算混淆矩阵。

In [10]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_predict)

array([[403,   2],
       [  9,  36]], dtype=int64)

计算精准率。

In [11]:
from sklearn.metrics import precision_score

precision_score(y_test, y_predict)

0.94736842105263153

计算召回率。

In [12]:
from sklearn.metrics import recall_score

recall_score(y_test, y_predict)

0.80000000000000004

计算 F1-Score。

In [13]:
from sklearn.metrics import f1_score

f1_score(y_test, y_predict)

0.86746987951807231

相比模型的准确率而言，我们更愿意相信 F1-Score，它更可靠一些。