# WEEK1 机器学习策略
> ##      正交化   

正交化策略：优化一个指标的效果所作的调整不会影响其他指标     

1. 算法在成本函数上不能很好地拟合训练集
    - 训练更大的网络
    - 切换到更好的优化算法，比如Adam优化算法

2. 算法对开发集的拟合不好(在训练集上做得很好)
    - 正则化的旋钮可以调节
    - 增大训练集

3. 系统在开发集上做的很好，但测试集上做得不好
    - 更大的开发集。(对开发集过拟合)
    
4. 在测试集上做得很好，但无法给应用用户提供良好的体验
    - 改变开发集或成本函数。因为如果根据某个成本函数，系统在测试集上做的很好，但它无法反映你的算法在现实世界中的表现，这意味着要么你的开发集分布设置不正确，要么你的成本函数测量的指标不对。

**early stopping难以分析，因为会同时影响你对训练集的拟合和开发集效果的评估。**——不那么正交化    

> ## 单一数字评估指标     

评估你的分类器的一个合理方式是观察它的查准率（precision）和查全率（recall）。
- 查准率：分类器分类为对的实例中，有多少实际是对的
- 查全率：在实际为对的实例中，分类器分类为对的实例所占的比例    

### 例1
在同时使用两个指标时，如果一个分类器不是两个指标均优于另一个分类器，那么两个分类器的优劣较难比较。

结合查准率和查全率的方法：$F_1分数$——查准率(P)和查全率(R)的调和平均数      
$$F_1=\cfrac{1}{\frac{1}{P}+\frac{1}{R}}$$    

### 例2
假设一个猫应用来服务四个地理大区的爱猫人士，美国、中国、印度还有世界其他地区。分类器在来自四个地理大区的数据中得到了不同的错误率。
假设平均表现是一个合理的单实数评估指标，通过计算平均值，可以快速判断算法的优劣。
<img style="float: center;" src="course_3_pics/week_1_1.png" width=500 height=500>

> ## 满足和优化指标（Satisficing and optimizing metrics）     

假设已经决定你很看重分类器的分类准确度。除了准确度之外，还需要考虑运行时间。     
可以考虑将指标组合为整体评估指标，但比较生硬。    
因此可以考虑设置一个满意指标与优化指标。比如该分类器必须能够最大限度提高准确度，但必须满足运行时间要求。在这种情况下，**准确度是一个优化指标，运行时间就是我们所说的满足指标**，它必须达到某个标准。       
更一般地说，如果你要考虑$N$个指标，选择其中一个指标做为优化指标是合理的，其余$N-1$个指标都是满足指标。
<img style="float: center;" src="course_3_pics/week_1_2.png" width=500 height=500>     


> ## 训练/开发/测试集划分（Train/dev/test distributions）     

开发集与测试集最好来自同一分布，其中在开发集上的表现代表模型优化的方向，最好让两个方向相同。     
### 例:         
1. 有八个国家的数据，应该混合八个国家的数据再进行开发集与测试集的划分，而不是四个为开发集，四个为测试集。
2. 开发集使用高收入群体邮政编码的贷款审批数据，应用在低收入群体上通常效果一般。       

> ## 什么时候该改变开发/测试集和指标      

假设你在构建一个猫分类器，试图猫的照片使用的指标是**分类错误率**。算法$A$和$B$分别有3％错误率和5％错误率。算法$A$由于某些原因，把很多色情图像分类成猫了。算法$B$实际上是一个更好的算法，因为它不让任何色情图像通过。这时候应该**改变算法指标**。  


**原本的指标可以表示为:**       
$$Error = \frac{1}{m_{dev}}\sum^{m_{dev}}_{i=1}I{y^{(i)}_{pred}\neq y^{(i)}}$$          

$m_{dev}$是你的开发集例子数，$y_{pred}$用表示预测值，其值为0或1，$I$符号表示一个函数，统计出里面这个表达式为真的样本数，所以这个公式就统计了分类错误的样本。这个评估指标的问题在于，它无法起到分辨色情图片和非色情图片的功能。             

**一个修改评估指标的方法:**      
 $$Error = \frac{1}{m_{dev}}\sum^{m_{dev}}_{i=1}w^{(i)}I{y^{(i)}_{pred}\neq y^{(i)}}$$       
 其中$w_{(i)}$是权重项，如果$x^{(i)}$是色情图片那么$w_{(i)}=1$，如果不是那么$w_{(i)}=10或是100$，又或者更大。因此将色情图片错误分类为猫时，这个错误率将大大上升。    
 
 **得到归一化指标的方法:**      
 $$Error = \frac{1}{w^{(i)}}\sum^{m_{dev}}_{i=1}w^{(i)}I{y^{(i)}_{pred}\neq y^{(i)}}$$         
 
> ## 人的表现     
### 人的表现
很多机器学习任务中，$x$轴是时间。往人类水平努力时，进展很快，但当这个算法表现比人类更好时，那么进展和精确度的提升就变得更慢了。随着时间的推移，当继续训练算法时，可能模型越来越大，数据越来越多，但是性能无法超过某个理论上限，这就是所谓的**贝叶斯最优错误率（Bayes optimal error）**。贝叶斯最优错误率一般认为是**理论上可能达到的最优错误率**，就是说没有任何办法设计出一个到的函数，让它能够超过一定的准确度。    

<img style="float: center;" src="course_3_pics/week_1_3.png" width=500 height=500>        

超越人类的表现时进展会变慢，原因：
1. 人类水平在很多任务中离贝叶斯最优错误率已经不远了
2. 算法表现比人类的表现更差，可以使用某些工具来提高性能。一旦超越人类的表现，工具的性能下降。      

### 可避免偏差（Avoidable bias）       
#### 例1    
```
人类表现(贝叶斯最优错误率估计):1%   
训练集误差:8%     
开发集误差:10%
人类表现-7%-训练集误差-2%-开发集误差 
```   
此时偏差较大，方差较小，应该选择减小偏差


#### 例2   
```
人类表现(贝叶斯最优错误率估计):7.5%   
训练集误差:8%     
开发集误差:10%
人类表现-0.5%-训练集误差-2%-开发集误差 
``` 
此时偏差较小，方差较大，应该选择减小方差     

```

人类表现--训练集误差：可避免偏差
训练集误差--开发集误差：衡量方差的大小
``` 
### 理解人的表现    
通常以人类最优水平作为贝叶斯偏差的估计，如果达到部分人类或专业人员水平，可以认为是可以应用或者有部署价值。    

### 超越人的表现     
假设此时团队专家的误差是$0.5\%$，但算法的训练集误差与开发集误差分别是$0.3\%,0.4\%$，那么有两种可能——过拟合了$0.2\%$；对贝叶斯最优错误率的估计有误。在此种情况下，难以判断是什么原因，因此优化算法的性能更加困难。     

## 改善你的模型的表现     
让一个监督学习算法达到实用，基本上假设可以完成两件事情。    
1. 算法对训练集的拟合很好，即可避免偏差很低。
2. 在训练集中做得很好，推广到开发集和测试集也很好，即方差不是太大。      

**减少可避免偏差**   
- 使用规模更大的模型
- 训练更久
- 更好的优化算法，momentum或者RMSprop，或者Adam
- 寻找更好的新神经网络架构
- 更好的超参数

**减小方差**
- 收集更多数据更好地推广到系统看不到的开发集数据
- 正则化，包括L2正则化，dropout正则化或者数据增强
- 不同的神经网络架构