# 实现混淆矩阵  精准率 召回率

In [1]:
import numpy as np
from sklearn import datasets

In [7]:
# 手写数字
digits = datasets.load_digits()
X = digits.data
y = digits.target.copy()
#如果直接修改y  其实会将digits。targets直接修改 指向的是同一个引用 因此需要 用到 copy
#我们处理极度偏斜的数据  手动产生偏斜的数据
y[digits.target==9] = 1
y[digits.target!=9] = 0

In [8]:
y

array([0, 0, 0, ..., 0, 1, 0])

In [10]:
digits.target

array([0, 1, 2, ..., 8, 9, 8])

In [14]:
#分割数据
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)

In [15]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X_train,y_train)
log_reg.score(X_test,y_test)

0.97555555555555551

In [17]:
# 我们可以看到  如果我们将数据全部预测为0  那么我们的准确率也可以为90%以上
#因此我们还需要其他指标

In [19]:
#求出我们的预测值
y_log_predict = log_reg.predict(X_test)

![image.png](attachment:image.png)

## 计算出我们的四个指标

In [26]:
def TN(y_true,y_predict):
    assert len(y_true) == len(y_predict)
    #本来是一个boolean的类型的向量  用sum进行求和   true=1 false=0
    return np.sum((y_true ==0) & (y_predict == 0))

In [27]:
TN(y_test,y_log_predict)

403

In [28]:
def FP(y_true,y_predict):
    assert len(y_true)==len(y_predict)
    return np.sum( (y_true == 0)&( y_predict ==1 ) )
FP(y_test,y_log_predict)

2

In [30]:
def FN(y_true,y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum( (y_true == 1) & ( y_predict ==0 ) )
FN(y_test,y_log_predict)

9

In [32]:
def TP(y_true,y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum( (y_true==1) & (y_predict==1) )
TP(y_test,y_log_predict)

36

## 混淆矩阵

In [35]:
def confusion_matrix( y_true,y_predict):
    return np.array(
    [
        [TN(y_true,y_predict),FP(y_true,y_predict)],
        [FN(y_true,y_predict),TP(y_true,y_predict)]
    ]
    )

In [36]:
confusion_matrix(y_test,y_log_predict)

array([[403,   2],
       [  9,  36]])

## 然后求出精准率和召回率

In [39]:
# 精准率

def precision_score(y_true,y_predict):
    tp = TP(y_true,y_predict)
    fp = FP(y_true,y_predict)
    try:
        return tp / ( tp+ fp)
#如果有异常，那么就是分母为0
    except:
        return 0.0
precision_score(y_test,y_log_predict)

0.94736842105263153

In [40]:
# 召回率
def recall_score(y_true,y_predict):
    tp = TP(y_true,y_predict)
    fn = FN(y_true,y_predict)
    try:
        return tp / (tp + fn)
    except:
        return 0.0
recall_score(y_test,y_log_predict)

0.80000000000000004

## Scikit-learn 中的混淆矩阵中的精准率和召回率

In [41]:
#指标    混淆矩阵
from sklearn.metrics import confusion_matrix

In [42]:
confusion_matrix(y_test,y_log_predict)

array([[403,   2],
       [  9,  36]], dtype=int64)

In [43]:
# 精准率
from sklearn.metrics import precision_score

precision_score(y_test,y_log_predict)

0.94736842105263153

In [44]:
# 召回率
from sklearn.metrics import recall_score

recall_score(y_test,y_log_predict)

0.80000000000000004

###   因为我们求得是两个指标，那么我们训练了一个算法，怎么解读对这个算法对应的这两个指标呢
###   如果我们的两个指标出现了差异，对于一种方法来说精准率高，召回率低。另一种方法精准率低，召回率高  我们怎么取舍这两个指标呢？