# 分类准确度


来看一个有趣的分类问题，假设现在训练得到了一个癌症预测系统，该系统的预测准确度是99.9%，看上去很好了是不是。

但是如果癌症产生的概率是 0.01%，对于所有的输入，我们直接预测为健康，那么预测准确度能够达到99.99%。

我们会发现，我们的预测系统的表现其实很糟糕。由此我们发现了：使用分类准确度来衡量一个分类算法的弊端。

**对于极度偏斜的数据，只是使用分类准确度是不够的**，如上面的例子中，癌症患者的比例是非常少的，类似于这样的数据。

## 混淆矩阵
### 二分类问题的混矩阵

以下就是二分类问题的混淆矩阵。

| 真实\预测| 0 | 1 |
| --- | --- | --- |
| 0 | 预测negative正确**TN** | 预测positive错误**FP** |
| 1 | 预测negative错误**FN** | 预测positive正确**TP** | 

* 0-Negative
* 1-Positive

行表示真实值、列代表预测值，可以这样理解，真实值代表第一个维度，预测值代表第二个维度， 其中行和列都按照顺序排列。

举个例子：假设有10000个人参与是否患有癌症的预测

| 真实\预测 | 0 | 1 |
| --- | --- | --- |
| 0 | 9978 | 12 |
| 1 | 2 | 8 |

这里的混淆矩阵其实只有四个数据。

###  精准率和召回率

**精准率**：

$precision = \frac{TP}{TP + FP}$ ,$\frac{8}{(8 + 12)} = 40$%
通常在有偏的数据中，将分类1作为我们真正关注的对象。如在医疗中将1作为患病。
* 做100次分类为1的预测，其中有几次是准确的。

**召回率**：

$recall = \frac{TP}{TP + FN}$
我们关注的事件真实的发生了，真实的发生了这些事件中，成功预测了多少。
* 实际上有100个事件发生，其中有多少个是准确的。

**精准率和召回率的区别在于分母不同** 

来看精准率和召回率如何解决上述的精确度的99.9%的问题，10000个人，预测所有人都是健康的

| 真实\预测 | 0 | 1 |
| --- | --- | --- |
| 0 | 9990 | 0 |
| 1 | 10 | 0 |

* 准确度 = 99.9%
* 精准率 = 0
* 召回率 = 0

### 精准率、召回率实现

In [1]:
import numpy as np
from sklearn import datasets

In [2]:
digits = datasets.load_digits()
X = digits.data
y = digits.target.copy()

y[digits.target==9] = 1
y[digits.target!=9] = 0

In [3]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=666)

In [4]:
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression()
log_reg.fit(X_train, y_train)
log_reg.score(X_test, y_test)

0.9755555555555555

In [5]:
y_log_predict = log_reg.predict(X_test)

In [6]:
def TN(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 0) & (y_predict == 0))

TN(y_test, y_log_predict)

403

In [7]:
def FP(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 0) & (y_predict == 1))

FP(y_test, y_log_predict)

2

In [8]:
def FN(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 1) & (y_predict == 0))

FN(y_test, y_log_predict)

9

In [9]:
def TP(y_true, y_predict):
    assert len(y_true) == len(y_predict)
    return np.sum((y_true == 1) & (y_predict == 1))

TP(y_test, y_log_predict)

36

In [10]:

def confusion_matrix(y_true, y_predict):
    return np.array([
        [TN(y_true, y_predict), FP(y_true, y_predict)],
        [FN(y_true, y_predict), TP(y_true, y_predict)]
    ])

confusion_matrix(y_test, y_log_predict)

array([[403,   2],
       [  9,  36]])

In [11]:
def precision_score(y_true, y_predict):
    tp = TP(y_true, y_predict)
    fp = FP(y_true, y_predict)
    try:
        return tp / (tp + fp)
    except:
        return 0.0
    
precision_score(y_test, y_log_predict)

0.9473684210526315

In [12]:
def recall_score(y_true, y_predict):
    tp = TP(y_true, y_predict)
    fn = FN(y_true, y_predict)
    try:
        return tp / (tp + fn)
    except:
        return 0.0
    
recall_score(y_test, y_log_predict)

0.8

### scikit-learn中的混淆矩阵，精准率和召回率

In [13]:
from sklearn.metrics import confusion_matrix

confusion_matrix(y_test, y_log_predict)

array([[403,   2],
       [  9,  36]], dtype=int64)

In [14]:
from sklearn.metrics import precision_score

precision_score(y_test, y_log_predict)

0.9473684210526315

In [15]:
from sklearn.metrics import recall_score

recall_score(y_test, y_log_predict)

0.8