**主要内容**
- 误差分析
- 错误样本清除
- 数据不匹配
- 迁移学习
- 多任务学习
- 端到端的深度学习

# 误差分析
通过误差分析，可以快速明确改进方向
- 收集错误样例
手动的对100个分类错误的样例进行误差分析
- 并行分析
对100个误分类进行误差分析，建立表格分析错误原因

# 清除错误标记的样本
**训练样本标记错误**
- 深度学习算法对训练集中的随机误差具有相当的鲁棒性。只要我们标记出错的例子符合**随机误差**

- 虽然深度学习算法对随机误差具有很好的鲁棒性，但是对于系统误差就不是这样了。如果做标记的人一直把如例子中的白色的狗标记成猫，那么最终导致我们的分类器就会出现错误了

**dev、test中的错误标记**

在误差分析中增加错误标记，查看其百分比

确保开发集和测试集来自相同的分布，使得我们以开发集为目标的方向能正确的应用到测试集上

# 搭建系统
- 设置开发、测试集和优化指标（确定方向）；
- 快速地建立基本的系统；
- 使用偏差方差分析、误差分析去确定后面步骤的优先步骤。

总的来说，如果我们想建立自己的深度学习系统，我们就需要做到：**快速的建立自己的基本系统，并进行迭代**。而不是想的太多，在一开始就建立一个非常复杂，难以入手的系统。


# 不同分布上的训练和测试
**往往训练数据与开发集和测试集来自不同的分布**
![dis](./Image/dis.png)

- 方法一：

将两组数据合并到一起，总共得到21万张图片样本。将这些样本随机分配到训练、开发、测试集中。

   - 好处：三个集合中的数据均来自于同一分布；
   - 坏处：我们设立开发集的目的是瞄准目标，而现在我们的目标绝大部分是为了去优化网上获取的高清晰度的照片，而不是我们真正的目标。
   - 这个方法**不是一个好的方法**。

- 方法二：

训练集均是来自网上下载的20万张高清图片，当然也可以加上5000张手机非高清图片；对于开发和测试集都是手机非高清图片。

   - 好处：开发集全部来自手机图片，瞄准目标；
   - 坏处：训练集和开发、测试集来自不同的分布。
从长期来看，这样的分布能够给我们带来更好的系统性能。


# 不同分布上的偏差和方差
通过估计学习算法的偏差和方差，可以帮助我们确定接下来应该优先努力的方向。但是当我们的训练集和开发、测试集来自不同的分布时，分析偏差和方差的方式就有一定的不同。
**方差和分布原因分析**
以猫分类为例，假设以人的分类误差0%0%作为贝叶斯误差。若我们模型的误差为：

- Training error：1%
- Dev error：10%
如果我们的训练集和开发、测试集来自相同的分布，那么我们可以说模型存在很大的方差问题。但如果数据来自不同的分布，那么我们就不能下这样的定论了。

那么我们如何去确定是由于分布不匹配的问题导致开发集的误差，还是由于算法中存在的方差问题所致？

**设立“训练开发集”**
训练开发集，其中的数据和训练数据来自同一分布，但是却不用于训练过程。

如果最终，我们的模型得到的误差分别为：

- Training error：1%
- Training-dev error：9%
- Dev error：10%10%
那么，由于训练开发集尽管和训练集来自同一分布，但是却有很大的误差， 模型无法泛化到同分布的数据，那么说明我们的**模型存在方差问题**。

但如果我们的模型得到的误差分别为：

- Training error：1%
- Training-dev error：1.5%
- Dev error：10%
那么在这样的情况下，我们可以看到，来自同分布的数据，模型的泛化能力强，而开发集的误差主要是来自于**分布不匹配**导致的。

## 分布不同的偏差方差分析
![bv1](./Image/bv1.png)
通常情况下来说，通过不同的集合上的误差分析，我们得出的结果会是中间一列误差由小变大，即误差上升的情况。但是也有一定的可能会出现右边一列误差在开发测试集上又表现的好的情况。
![bv2](./Image/bv2.png)
其中，横向分别是：普通语音识别数据、后视镜语音识别数据；纵向分别是：Human level、训练数据误差、未训练数据误差。表格中不同的位置分别代表不同的数据集。

通常情况下，我们分析误差会是一个递增的情况，但是可能对于我们的模型，在后视镜语音识别的数据数据上，已经可以达到人类水平误差的6%了，所以最终的开发测试集也会是6%的误差，要比训练误差和训练开发误差都要小。所以如果遇到这种情况，就要利用上表进行分析。


# 解决数据分布不匹配问题
如果通过上一节的误差分析，我们可以得知，模型最终在开发和测试集上的误差最终是由于数据分布不匹配而导致。那么这样的情况下如何解决？

- 进行人工误差分析，尝试去了解训练集和开发测试集的具体差异在哪里。如：噪音等；
- 尝试把训练数据变得更像开发集，或者收集更多的类似开发集和测试集的数据，如增加噪音；


# 迁移学习
将从一个任务中学到的知识，应用到另一个独立的任务中。
![ts1](./Image/ts1.png)
**迁移学习的意义：**

迁移学习适合以下场合：迁移来源问题有很多数据，但是迁移目标问题却没有那么多的数据。

假设图像识别任务中有1百万个样本，里面的数据相当多；但对与一些特定的图像识别问题，如放射科图像，也许只有一百个样本，所以对于放射学诊断问题的数据很少。所以从图像识别训练中学到的很多知识可以迁移，来帮助我们提升放射科识别任务的性能。

同样一个例子是语音识别，可能在普通的语音识别中，我们有庞大的数据量来训练模型，所以模型从中学到了很多人类声音的特征。但是对于触发字检测任务，可能我们拥有的数据量很少，所以对于这种情况下，学习人类声音特征等知识就显得相当重要。所以迁移学习可以帮助我们建立一个很好的唤醒字检测系统。

**迁移学习有意义的情况：**

- 任务A和任务B有着相同的输入；
- 任务A所拥有的数据要远远大于任务B（对于更有价值的任务B，任务A所拥有的数据要比B大很多）；
- 任务A的低层特征学习对任务B有一定的帮助；


# 多任务学习
与迁移学习的串行学习方式不同，在多任务学习中，多个任务是并行进行学习的，同时希望各个任务对其他的任务均有一定的帮助。

自动驾驶的例子

假设在自动驾驶的例子中，我们需要检测的物体很多，如行人、汽车、交通灯等等。

对于现在的任务，我们的目标值变成了一个向量的形式向量中的每一个值代表检测到是否有如行人、汽车、交通灯等，一张图片有多个标签。
$$\hat y^{(i)}=\left[ \begin{array}{l}
1\\ 
0\\
1\\
0
\end{array} \right] 
\left| \begin{array}{l}
Pedestrians\\
Cars\\
Road\ signs-Stop\\
Traffic\ lights
\end{array} \right.$$
![mu](./Image/mu.png)

**多任务学习有意义的情况**

- 如果训练的一组任务可以共用低层特征；
- 通常，对于每个任务大量的数据具有很大的相似性；（如，在迁移学习中由任务A“100万数据”迁移到任务B“1000数据”；多任务学习中，任务A1，...，AnA1，...，An，每个任务均有1000个数据，合起来就有1000n个数据，共同帮助任务的训练）
- 可以训练一个足够大的神经网络并同时做好所有的任务。


# 端到端的深度学习
相对于传统的一些数据处理系统或者学习系统，它们包含了多个阶段的处理过程，而端到端的深度学习则忽略了这些阶段，用单个神经网络来替代。
![end](./Image/end.png)

**优缺点：**

- 优点： 
   - 端到端学习可以直接让数据“说话”；
   - 所需手工设计的组件更少。
- 缺点： 
   - 需要大量的数据；
   - 排除了可能有用的手工设计组件。
   
应用端到端学习的 **Key question**：是否有足够的数据能够直接学习到从x映射到y的足够复杂的函数。