# 评估指标 Assessment Index

- 当我们过度简化问题时，我们称之为欠拟合(underfitting)
- 当我们过度复杂化问题时，我们称之为过拟合(overfitting)

## 混淆矩阵 Confusion Matrix
#### 如果鉴定一个Model的好坏？

以下拿两个例子说明混淆矩阵：
- 一是，病人有病还是没病
- 二是，邮件是垃圾邮件，还是不是垃圾邮件

**病人的例子**
- True Positive（真阳性）: 
  - 检测到一位患者确实生病，并送去治疗

- True Negative（真阴性）:
  - 检测到一位没有生病的病人，并送他回家 

- False Positive（假阳性）:
  - 检测到一位健康的人为生病的人

- False Negative（假阴性）:
  - 检测到一位患者因为模型错误时被诊断为健康，这是一个错误，因为患者还没治疗，就回家了


**垃圾邮件的例子**

|   | Sent to Spam Folder | Sent to Inbox | 
| - | :-: | -: | 
| Spam | True Positive <br/> 当收到垃圾邮件，并且正确的被分配到垃圾邮件  | False Negative <br/> 当收到垃圾邮件，并且错误的把它认为是正常邮件  | 
| Not Spam | False Positive <br/> 当收到正常邮件时，被认为是垃圾邮件 | True Negative <br/> 当收到正常邮件时，并分配它到收件箱   | 



#### 准确率 Accuracy
公式：
- 准确率 = (真阳性 + 真阴性) / 总数
  - 准确率乘以100，就是百分比
- 在ScikitLearn中使用accuracy_score函数可以很容易的计算


#### 精度 Precision Rate
公式：
精度 =  真阳性 /（真阳性 + 假阳性)



# 召回率 Recall Rate
公式：
召回率 = 真阳性 / (真阳性 + 假阴性)

In [4]:
from IPython.display import HTML

HTML('<iframe src="https://www.youtube.com/embed/rNWAriJqZ9w" width="560" height="315" frameborder="0" allowfullscreen></iframe>')

# 8. F1 得分
### F1得分就是调和平均数（Harmonic Mean）
先看下视频

In [5]:
from IPython.display import HTML

HTML('<iframe src="https://www.youtube.com/embed/Lu4lVWEweLk" width="560" height="315" frameborder="0" allowfullscreen></iframe>')

练习题：

接下来，请先理解以下的F1 Score得分公式：

$F_1-Score = 2 * \frac{Precision * Recall}{Precision + Recall}$

问题：
如果医疗模型的精度 55.6%，召回率是 83.3%，那么 F1 得分是多少？（答案请填写百分比，并四舍五入到小数点后一位。）


解答：

拆分公式：
``` 
(4 * (Precision * Recall)) / (2 * (Precision + Recall)) 或者 (2 * (Precision * Recall)) / (Precision + Recall)
=
(4 * (0.556 * 0.833)) / (2 * (0.556 + 0.833))
= 
(4 * 0.463148) / (2 * 1.389)
= 
1.852592 / 2.778
=
0.6668

```

In [9]:
Precision = 0.556
Recall = 0.833
result = (2 * (Precision * Recall)) / (Precision + Recall)
print(result)

0.6668797696184305


In [None]:
# 9. F_β得分


# 10.ROC曲线 
#### 接受者操作特征曲线(特征曲线)  Receiver Operating Characteristic Curve 

In [10]:
from IPython.display import HTML

HTML('<iframe src="https://www.youtube.com/embed/2ydri2Cu1_8" width="560" height="315" frameborder="0" allowfullscreen></iframe>')

# 11.回归指标

- 平均绝对误差   Mean Absolute Error
- 均方差   Mean Square

In [12]:
HTML('<iframe src="https://www.youtube.com/embed/906P4BPnl9A" width="560" height="315" frameborder="0" allowfullscreen></iframe>')
