# 10-5 精准率和召回率的平衡

精准率和召回率是互相矛盾的两个指标。

回顾逻辑回归算法，**概率 >= 0.5 我们作为分类的决策边界**。

我们之前学习的知识告诉我们，逻辑回归的分类决策边界可以表示为

$$\theta^{T} \cdot x_b = {\rm threshold}$$

之前的 `threshold = 0` 。


本节课的要点：掌握如何设置逻辑回归的 threshold。

In [1]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

In [2]:
from sklearn import datasets

digits = datasets.load_digits()
X = digits.data
y = digits.target.copy()

y[digits.target == 9] = 1
y[digits.target < 9] = 0

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

In [4]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)

y_predict = log_reg.predict(X_test)

In [5]:
from sklearn.metrics import f1_score

f1_score(y_test, y_predict)

0.8674698795180723

In [6]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_predict)

array([[403,   2],
       [  9,  36]])

In [7]:
from sklearn.metrics import precision_score

precision_score(y_test, y_predict)

0.9473684210526315

In [8]:
from sklearn.metrics import recall_score

recall_score(y_test, y_predict)

0.8

下面，我们试图改变一下决策边界，看看精准率和召回率的变化情况。进而可以试图解释一下，为什么精准率和召回率是互相制约的两个指标。

+ decision_function 是逻辑回归模型中，线性计算的那个部分。

In [9]:
log_reg.decision_function(X_test)[:10]

array([-22.05699612, -33.02941128, -16.21333708, -80.37910528,
       -48.25122128, -24.54003828, -44.3916308 , -25.04290912,
        -0.97828119, -19.71739945])

小于 0 的部分，最后预测出来的结果就是 0，大于 0 的部分，预测出来的结果就是 1。

In [10]:
y_predict[:10]

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [11]:
decision_scores = log_reg.decision_function(X_test)

In [12]:
np.min(decision_scores)

-85.68609664318372

In [13]:
np.max(decision_scores)

19.889584488921933

## 我们改变一下决策边界

我们试着把阈值调整到 5 。

In [14]:
y_predict_2 = np.array(decision_scores >= 5, dtype='int')

In [15]:
confusion_matrix(y_test, y_predict_2)

array([[404,   1],
       [ 21,  24]])

In [16]:
precision_score(y_test, y_predict_2)

0.96

In [17]:
recall_score(y_test, y_predict_2)

0.5333333333333333

此时精准度提升，召回率下降。

我们再将阈值调整到 -5，相比之前阈值为 0 的时候，此时精准率下降，召回率上升。

In [18]:
y_predict_3 = np.array(decision_scores >= -5, dtype='int')

In [19]:
precision_score(y_test, y_predict_3)

0.7272727272727273

In [20]:
recall_score(y_test, y_predict_3)

0.8888888888888888

因此，精准率和召回率它们是此消彼长的。