##  机器学习策略

### 1. 正交化
表示在机器学习模型建立的整个流程中，我们需要根据不同部分反映的问题，去做相应的调整，从而更加容易地判断出是在哪一个部分出现了问题，并做相应的解决措施。

正交化或正交性是一种系统设计属性，其确保修改算法的指令或部分不会对系统的其他部分产生或传播副作用。 相互独立地验证使得算法变得更简单，减少了测试和开发的时间。

当在监督学习模型中，以下的4个假设需要真实且是相互正交的：

    系统在训练集上表现的好 
    否则，使用更大的神经网络、更好的优化算法
    系统在开发集上表现的好 
    否则，使用正则化、更大的训练集
    系统在测试集上表现的好 
    否则，使用更大的开发集
    在真实的系统环境中表现的好 
    否则，修改开发测试集、修改代价函数

### 2. 单一数字评估指标
在训练机器学习模型的时候，无论是调整超参数，还是尝试更好的优化算法，为问题设置一个单一数字评估指标，可以更好更快的评估模型

比如

有两个分类器A,B他们有两个指标Precision、Recall来判断他们的好坏，在有两个及以上判定指标的时候，我们很难决定出A好还是B好。
这里以Precision和Recall为基础，构成一个综合指标F1 Score，那么我们利用F1 Score便可以更容易的评判出分类器

### 3. 满足和优化指标
假设有三个不同的分类器，对于某一问题，他们的运行时间和准确率各有所长，对模型的效果有一定的要求，如要求模型准确率尽可能的高，运行时间在100 ms以内。这里以准确率为优化指标，以运行时间为满足指标，
一般的，如果要考虑N个指标，则选择一个指标为优化指标，其他N-1个指标都是满足指标

### 4. 训练、开发、测试集
训练、开发、测试集选择设置的一些规则和意见：

训练、开发、测试集的设置会对产品带来非常大的影响；
在选择开发集和测试集时要使二者来自同一分布，且从所有数据中随机选取；（不是绝对的）
所选择的开发集和测试集中的数据，要与未来想要或者能够得到的数据类似，即模型数据和未来数据要具有相似性；
设置的测试集只要足够大，使其能够在过拟合的系统中给出高方差的结果就可以，也许10000左右的数目足够；
设置开发集只要足够使其能够检测不同算法、不同模型之间的优劣差异就可以，百万大数据中1%的大小就足够；

#### 4. 1改变开发、测试集和评估指标
在针对某一问题我们设置开发集和评估指标后，这就像把目标定在某个位置，后面的过程就聚焦在该位置上。但有时候在这个项目的过程中，可能会发现目标的位置设置错了，所以要移动改变我们的目标。

demo1

假设有两个猫的图片的分类器：

    评估指标：分类错误率
    算法A：3%错误率
    算法B：5%错误率
这样来看，算法A的表现更好。但是在实际的测试中，算法A可能因为某些原因，将很多色情图片分类成了猫。所以当我们在线上部署的时候，算法A会给爱猫人士推送更多更准确的猫的图片（因为其误差率只有3%），但同时也会给用户推送一些色情图片，这是不能忍受的。所以，虽然算法A的错误率很低，但是它却不是一个好的算法。

这个时候我们就需要改变开发集、测试集或者评估指标。

通过设置权重，当算法将色情图片分类为猫时，误差项会快速变大。
总结来说就是：如果评估指标无法正确评估算法的排名，则需要重新定义一个新的评估指标。

demo2

我们一直使用的是网上下载的高质量的图片进行训练；而当部署到手机上时，由于图片的清晰度及拍照水平的原因，当实际测试算法时，会发现算法B的表现其实更好。
如果在训练开发测试的过程中得到的模型效果比较好，但是在实际应用中自己所真正关心的问题效果却不好的时候，就需要改变开发、测试集或者评估指标。

Guideline：

    定义正确的评估指标来更好的给分类器的好坏进行排序；
    优化评估指标。



### 5. 模型的表现与人类表现
算法A：8%错误率，人类的误差为1%
算法B：8%错误率，人类的误差为7.5%。

A的例子：8%与1%差距较大 
主要着手减少偏差，即减少训练集误差和人类水平误差之间的差距，来提高模型性能。
B的例子：8%与7.5%接近 
主要着手减少方差，即减少开发集误差和测试集误差之间的差距，来提高模型性能。

#### 5.1改善模型的表现
基本假设：

    模型在训练集上有很好的表现；
    模型推广到开发和测试集啥会给你也有很好的表现。

减少可避免偏差：

    训练更大的模型
    训练更长时间、训练更好的优化算法（Momentum、RMSprop、Adam）
    寻找更好的网络架构（RNN、CNN）、寻找更好的超参数

减少方差：

    收集更多的数据
    正则化（L2、dropout、数据增强）
    寻找更好的网络架构（RNN、CNN）、寻找更好的超参数

### 6. 误差分析
当我们在训练一个模型的时候，如一个猫和狗分类模型，最终得到了90%的精确度，即有10%的错误率。所以我们需要对模型的一些部分做相应调整，才能更好地提升分类的精度。

如果不加分析去做，可能几个月的努力对于提升精度并没有作用。所以一个好的误差分析的流程就相当重要。

收集错误样例：
在开发集（测试集）中，获取大约100个错误标记的例子，并统计其中有多少个是狗。
假设一种情况是100个数据中，有5个样例是狗，那么如果我们对数据集的错误标记做努力去改进模型的精度，那么可以提升的上限就是5%，即仅仅可以达到9.5%的错误率，这有时称为性能上限。 
那么这种情况下，可能这样耗时的努力方向就不是很值得的一件事情。
另外一种假设是100个数据中，有50多个样例是狗，那么这种情况下，我们去改进数据集的错误标记，就是一个比较值得的改进方向，可以将模型的精确度提升至95%。

并行分析：
    修改那些被分类成猫的狗狗图片标签；
    修改那些被错误分类的大型猫科动物，如：狮子，豹子等；
    提升模糊图片的质量。

为了并行的分析，建立表格来进行。以单个错误分类样本为对象，分析每个样本错误分类的原因。
最后，统计错误类型的百分比，这个分析步骤可以给我们一个粗略的估计，让我们大致确定是否值得去处理每个不同的错误类型。

#### 6.1. 清除错误标记的样本
以猫和狗分类问题为例子

情况一：
深度学习算法对训练集中的随机误差具有相当的鲁棒性。
只要我们标记出错的例子符合随机误差，如：做标记的人不小心错误，或按错分类键。那么像这种随机误差导致的标记错误，一般来说不管这些误差可能也没有问题。
所以对于这类误差，我们可以不去用大量的时间和精力去做修正，只要数据集足够大，实际误差不会因为这些随机误差有很大的变化。

情况二：
虽然深度学习算法对随机误差具有很好的鲁棒性，但是对于系统误差就不是这样了。
如果做标记的人一直把如例子中的白色的狗标记成猫，那么最终导致我们的分类器就会出现错误了。

dev、test中错误标记的情况：
如果在开发集和测试集中出现了错误标记的问题，我们可以在误差分析的过程中，增加错误标记这一原因，再对错误的数据进行分析，得出修正这些标记错误的价值。

### 7. 搭建系统
设置开发、测试集和优化指标（确定方向）；
快速地建立基本的系统；
使用偏差方差分析、误差分析去确定后面步骤的优先步骤。
总的来说，如果我们想建立自己的深度学习系统，我们就需要做到：快速的建立自己的基本系统，并进行迭代。而不是想的太多，在一开始就建立一个非常复杂，难以入手的系统。

### 8. 不同分布上的训练和测试
训练集和测试集的数据来源一致这并不是绝对的
在深度学习的时代，因为需求的数据量非常大，现在很多的团队，使用的训练数据都是和开发集和测试集来自不同的分布。
比如图片分类我们可以从网上获取大量的高清晰的猫的图片去做分类，如200000张，但是只能获取少量利用手机拍摄的不清晰的图片，如10000张。但是我们系统的目的是应用到手机上做分类。
也就是说，我们的训练集和开发集、测试集来自于不同的分布。

方法一：

    将两组数据合并到一起，总共得到21万张图片样本。将这些样本随机分配到训练、开发、测试集中。
    好处：三个集合中的数据均来自于同一分布；
    坏处：我们设立开发集的目的是瞄准目标，而现在我们的目标绝大部分是为了去优化网上获取的高清晰度的照片，而不是我们真正的目标。
    这个方法不是一个好的方法。

方法二：

    训练集均是来自网上下载的20万张高清图片，当然也可以加上5000张手机非高清图片；对于开发和测试集都是手机非高清图片。
    好处：开发集全部来自手机图片，瞄准目标；
    坏处：训练集和开发、测试集来自不同的分布。
    从长期来看，这样的分布能够给我们带来更好的系统性能。


若我们模型的误差为：

    Training error：1%
    Dev error：10%
如果我们的训练集和开发、测试集来自相同的分布，那么我们可以说模型存在很大的方差问题。但如果数据来自不同的分布，那么我们就不能下这样的定论了。
那么我们如何去确定是由于分布不匹配的问题导致开发集的误差，还是由于算法中存在的方差问题所致？

设立“训练开发集“
训练开发集，其中的数据和训练数据来自同一分布，但是却不用于训练过程。
如果最终，我们的模型得到的误差分别为：

    Training error：1%
    Training-dev error：9%
    Dev error：10%
那么，由于训练开发集尽管和训练集来自同一分布，但是却有很大的误差， 模型无法泛化到同分布的数据，那么说明我们的模型存在方差问题。
但如果我们的模型得到的误差分别为：

    Training error：1%
    Training-dev error：1.5%
    Dev error：10%
那么在这样的情况下，我们可以看到，来自同分布的数据，模型的泛化能力强，而开发集的误差主要是来自于分布不匹配导致的。
分布不同的偏差方差分析

### 9.其他学习方法
#### 9.1迁移学习
将从一个任务中学到的知识，应用到另一个独立的任务中。

迁移学习的意义：

迁移学习适合以下场合：迁移来源问题有很多数据，但是迁移目标问题却没有那么多的数据。

假设图像识别任务中有1百万个样本，里面的数据相当多；但对与一些特定的图像识别问题，如放射科图像，也许只有一百个样本，所以对于放射学诊断问题的数据很少。所以从图像识别训练中学到的很多知识可以迁移，来帮助我们提升放射科识别任务的性能。

同样一个例子是语音识别，可能在普通的语音识别中，我们有庞大的数据量来训练模型，所以模型从中学到了很多人类声音的特征。但是对于触发字检测任务，可能我们拥有的数据量很少，所以对于这种情况下，学习人类声音特征等知识就显得相当重要。所以迁移学习可以帮助我们建立一个很好的唤醒字检测系统。

迁移学习有意义的情况：

    任务A和任务B有着相同的输入；
    任务A所拥有的数据要远远大于任务B（对于更有价值的任务B，任务A所拥有的数据要比B大很多）；
    任务A的低层特征学习对任务B有一定的帮助；

#### 9.2多任务学习
与迁移学习的串行学习方式不同，在多任务学习中，多个任务是并行进行学习的，同时希望各个任务对其他的任务均有一定的帮助。

多任务学习有意义的情况
如果训练的一组任务可以共用低层特征；
通常，对于每个任务大量的数据具有很大的相似性；（如，在迁移学习中由任务A“100万数据”迁移到任务B“1000数据”；多任务学习中，任务A1，...，An每个任务均有1000个数据，合起来就有1000n个数据，共同帮助任务的训练）
可以训练一个足够大的神经网络并同时做好所有的任务。

迁移学习比多任务学习的使用率要高很多，因为多任务学习的场景不多


#### 9.3端到端深度学习
定义：

    相对于传统的一些数据处理系统或者学习系统，它们包含了多个阶段的处理过程，而端到端的深度学习则忽略了这些阶段，用单个神经网络来替代。

优缺点：
优点： 

    端到端学习可以直接让数据“说话”；
    所需手工设计的组件更少。
缺点：

    需要大量的数据；
    排除了可能有用的手工设计组件。
应用端到端学习的 Key question：是否有足够的数据能够直接学习到从x映射到y的足够复杂的函数。也就是说数据够多能支撑到函数的复杂度，简单一点的不需要很多数据也可以端到端