### 实现混淆矩阵,精准率和召回率
- https://blog.csdn.net/lz_peter/article/details/78133069

- https://zhuanlan.zhihu.com/p/46714763

- https://www.zhihu.com/question/19645541

![image.png](attachment:image.png)

In [1]:
import numpy as np
from sklearn import datasets

In [2]:
digits = datasets.load_digits()
X = digits.data
y = digits.target.copy() # 为了避免下面的代码出现冲突, copy一份

# 人为改变,使得数据变成二分类的问题
# 倾斜比较大的数据
y[digits.target == 9] = 1
y[digits.target != 9] = 0

In [3]:
from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(X,y,random_state = 666)

使用逻辑回归预测

In [4]:
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression()
log_reg.fit(X_train,y_train)
log_reg.score(X_test,y_test)



0.9755555555555555

In [5]:
y_log_predict = log_reg.predict(X_test)

### 定义 混淆矩阵的计算函数
- https://zhuanlan.zhihu.com/p/46714763

![image.png](attachment:image.png)


![image.png](attachment:image.png)

In [7]:
def TN(y_true,y_predict):
    assert len(y_true) == len(y_predict) # 数据长度
    # 实际数据与预测数据 都为 false, 即两者相同, 预测正确(T)
    return np.sum( (y_true == 0) & (y_predict == 0) )

In [8]:
TN(y_test,y_log_predict)

403

In [9]:
def FP(y_true,y_predict):
    assert len(y_true) == len(y_predict) # 数据长度
    # 实际数据为0  但预测数据为1 (P), 预测错误(F)  
    return np.sum((y_true == 0)&(y_predict == 1))

In [10]:
FP(y_test,y_log_predict)

2

In [13]:
def FN(y_true,y_predict):
    assert len(y_true) == len(y_predict) # 数据长度
    # 实际数据为 1  但预测数据为0 (N), 预测错误(F) 
    return np.sum((y_true == 1) & (y_predict == 0))

In [14]:
FN(y_test,y_log_predict)

9

In [15]:
def TP(y_true,y_predict):
    assert len(y_true) == len(y_predict) # 数据长度
    # 实际数据为 1  预测数据为1 (P), 即两者相同,  预测正确(T) 
    return np.sum((y_true == 1) & (y_predict == 1))

In [17]:
TP(y_test,y_log_predict)

36

创建混淆矩阵的函数

In [18]:
def confusion_matrix(y_true,y_predict):
    return np.array([
        [TN(y_true,y_predict),FP(y_true,y_predict)],
        [FN(y_true,y_predict),TP(y_true,y_predict)]
    ])

In [19]:
confusion_matrix(y_test,y_log_predict)

array([[403,   2],
       [  9,  36]])

精准率
精确率是针对我们预测结果而言的，它表示的是预测为正的样本中有多少是真正的正样本。那么预测为正就有两种可能了，一种就是把正类预测为正类(TP)，另一种就是把负类预测为正类(FP)，也就是
![image.png](attachment:image.png)

In [20]:
def precision_score(y_true,y_predict):
    tp = TP(y_true,y_predict)
    fp = FP(y_true,y_predict)
    try:
        return tp / (tp + fp)
    except:
        return 0.0
    

In [21]:
precision_score(y_test,y_log_predict)

0.9473684210526315

召回率
召回率是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。那也有两种可能，一种是把原来的正类预测成正类(TP)，另一种就是把原来的正类预测为负类(FN)。
![image.png](attachment:image.png)

In [22]:
def recall_score(y_true,y_predict):
    tp = TP(y_true,y_predict)
    fn = FN(y_true,y_predict)
    try:
        return tp / (tp + fn)
    except:
        return 0.0


In [23]:
recall_score(y_test,y_log_predict)

0.8

### 使用scikit-learn 中的混淆矩阵, 精准率和召回率

1,混淆矩阵

In [24]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test,y_log_predict)

array([[403,   2],
       [  9,  36]])

2,精准率

In [25]:
from sklearn.metrics import precision_score

precision_score(y_test,y_log_predict)

0.9473684210526315

3,召回率

In [26]:
from sklearn.metrics import recall_score

recall_score(y_test,y_log_predict)

0.8