**主要内容**
- AlexNet LeNet VGG ResNet Inception Network 
- 1乘1卷积
- 迁移学习
- 数据扩充

# 几种经典的卷积网络
**LeNet-5**
- 主要针对灰度图像设计，输入较小
- 存在的经典模式：
   - 随网络深度增加，图像的大小缩小，通道数量增加
   - 每个卷积层后接一个池化层
   
   
![lenet](./Image/lenet.png)


**AlexNet**
- 对彩色大图进行处理
- 与lenet网络相似，网络结构更大，参数更多，表现也更好
- 使用了Relu

![alex](./Image/alex.png)

**VGG-16**
- 所有卷积层具有相同的卷积核大小 3$*$3,stride = 1 SAME
- 所有的池化层都使用f = 2, stride =2

![vgg](./Image/vgg.png)

# ResNet
ResNet由多个残差块构成

**残差块**
![res](./Image/res.png)

**连接在Relu激活函数之前**

**Residual Network**
![resnet](./Image/resnet.png)

- ResNet对于中间的激活函数来说，有助于能够达到更深的网络，解决梯度消失和梯度爆炸的问题

**ResNet表现好的原因**
假设有个比较大的神经网络，输入为x，输出为$a^{[l]}$。如果我们想增加网络的深度，这里再给网络增加一个残差块：
![res2](./Image/res2.png)

假设网络中均使用Relu激活函数，所以最后的输出a⩾0。这里我们给出$a^{[l+2]}$的值：
$$a^{[l+2]} = g(z^{[l+2]}+a^{[l]})=g(W^{[l+2]}a^{[l+1]}+b^{[l+2]}+a^{[l]})$$

如果使用L2正则化或者权重衰减，会压缩W和b的值，如果$W^{[l+2]}=0$同时$b^{[l+2]}=0$，那么上式就变成：
$$a^{[l+2]} = g(z^{[l+2]}+a^{[l]})=g(a^{[l]})=relu(a^{[l]})= a^{[l]}$$

所以从上面的结果我们可以看出，对于残差块来学习上面这个恒等函数是很容易的。
- 所以在增加了残差块后更深的网络的性能也并不逊色于没有增加残差块简单的网络。所以尽管增加了网络的深度，但是并不会影响网络的性能。
- 同时如果增加的网络结构能够学习到一些有用的信息，那么就会提升网络的性能。

**注意**
- 有两种方式的res block ：identify形式，即经过主路劲后不改变输入大小，conv形式，改变主路大小
- shortcut与主路输出add的时候，是直接相加在activation，而不是在通道上进行concat,这从公式上可以看出

# 1*1卷积

**1$*$1卷积**

在二维上的卷积相当于图片的每个元素和一个卷积核数字相乘。

但是在三维上，与1×1×nC卷积核进行卷积，相当于三维图像上的1×1×nC的切片，也就是nC个点乘以卷积数值权重，通过Relu函数后，输出对应的结果。而不同的卷积核则相当于不同的隐层神经元结点与切片上的点进行一一连接。
- 最终三维的图形应用1×11×1的卷积核得到一个相同长宽但第三维度变为卷积核个数的图片。

![11](./Image/11.png)

**应用**
- 维度压缩：使用目标维度的$1*1$卷积个数
- 增加非线性：保持与原维度相同的卷积核个数
![112](./Image/112.png)


# Inception Network
Inception Network 的作用就是使我们无需去考虑在构建深度卷积神经网络时，使用多大的卷积核以及是否添加池化层等问题。

**Inception主要结构：**
![inception](./Image/inception.png)

在上面的Inception结构中，应用了不同的卷积核，以及带padding的池化层。在保持输入图片大小不变的情况下，通过不同运算结果的叠加，增加了通道的数量。

**使用$1*1$网络来过渡，降低计算成本**

对于1×1大小卷积核用作过渡的计算成本，也将下面的中间的层叫做“bottleneck layer”：

![113](./Image/113.png)
- 事实证明，只要合理地设置“bottleneck layer”，既可以显著减小上层的规模，同时又能降低计算成本，从而不会影响网络的性能。

**Inception 模块**
将上面2中思路合并，形成一个Inception block

![inception2](./Image/inception2.png)

**Inception network**
![inception3](./Image/inception3.png)

# 数据扩充
与其他机器学习问题相比，在计算机视觉领域当下最主要的问题是没有办法得到充足的数据。所以在我们训练计算机数据模型的时候，数据的扩充就是会非常有用。

**方法**

- 镜像翻转（Mirroring）；
- 随机剪裁（Random Cropping）；
- 色彩转换（Color shifting）： 
为图片的RGB三个色彩通道进行增减值，如（R：+20，G：-20，B：+20）；PCA颜色增强：对图片的主色的变化较大，图片的次色变化较小，使总体的颜色保持一致。

**tips**

为了节约时间，数据扩充与训练过程可以多CPU多线程并行是实现

# CV现状
**数据与手工工程**
![cv](./Image/cv.png)

在有大量数据的时候，我们更倾向于使用简单的算法和更少的手工工程。因为此时有大量的数据，我们不需要为这个问题来精心设计特征，我们使用一个大的网络结果或者更简单的模型就能够解决。

相反，在有少量数据的时候，我们从事更多的是手工工程。因为数据量太少，较大的网络结构或者模型很难从这些少量的数据中获取足够的特征，而手工工程实际上是获得良好表现的最佳方式。

**Tips for doing well：**

在基准研究和比赛中，下面的tips可能会有较好的表现：

- Ensembling：独立地训练多个网络模型，输出平均结果或加权平均结果；
- 测试时的 Multi-crop：在测试图片的多种版本上运行分类器，输出平均结果。