### CNN的应用
Convolutional Neural Networks
课外资料
注：部分资料来自国外 youtube 与 google research.

- 了解 [WaveNet](https://deepmind.com/blog/wavenet-generative-model-raw-audio/) 模型。
  - 如果你能训练人工智能机器人唱歌，干嘛还训练它聊天？在 2017 年 4 月研究人员使用 WaveNet 模型的变体生成了歌曲。原始论文和演示可以在~~此处~~找到。  

- 了解[文本分类 CNN](http://www.wildml.com/2015/12/implementing-a-cnn-for-text-classification-in-tensorflow/)。
  - 你或许想注册作者的[深度学习简讯](https://www.getrevue.co/profile/wildml)

- 了解 Facebook 的[创新 CNN 方法](https://code.facebook.com/posts/1978007565818999/a-novel-approach-to-neural-machine-translation/)，该方法专门用于解决语言翻译任务，准确率达到了前沿性水平，并且速度是 RNN 模型的 9 倍。

- 利用 CNN 和强化学习玩 [Atari 游戏](https://deepmind.com/research/dqn/)。你可以[下载](https://sites.google.com/a/deepmind.com/dqn/)此论文附带的代码。
  - 如果你想研究一些（深度强化学习）初学者代码，建议你参阅 Andrej Karpathy 的[帖子](http://karpathy.github.io/2016/05/31/rl/)。

- 利用 CNN 玩[看图说词游戏！]
  - 此外，还可以参阅[ A.I.Experiments] 网站上的所有其他很酷的实现。别忘了 AutoDraw！

- 详细了解[ AlphaGo]。
  - 阅读[这篇文章](https://www.technologyreview.com/s/604273/finding-solace-in-defeat-by-artificial-intelligence/?set=604287)，其中提出了一个问题：如果掌控 Go“需要人类直觉”，那么人性受到挑战是什么感觉？_

- 观看这些非常酷的视频，其中的无人机都受到 CNN 的支持。
  - 这是初创企业 Intelligent Flying Machines (IFM) (Youtube)的访谈。
  - 户外自主导航通常都要借助全球定位系统 (GPS)，但是下面的演示展示的是由 CNN 提供技术支持的自主无人机(Youtube)。

- 如果你对无人驾驶汽车使用的 CNN 感兴趣，请参阅：
  - 我们的无人驾驶汽车工程师纳米学位课程，我们在此项目中对德国交通标志数据集中的标志进行分类。
  - 我们的机器学习工程师纳米学位课程，我们在此项目中对街景门牌号数据集中的门牌号进行分类。
  - 这些系列博客，其中详细讲述了如何训练用 Python 编写的 CNN，以便生成能够玩“侠盗猎车手”的无人驾驶 AI。

- 参阅视频中没有提到的其他应用情形。
  - 一些全球最著名的画作被转换成了三维形式，以便视力受损人士也能欣赏。虽然这篇文章没有提到是怎么做到的，我们注意到可以使用 CNN 预测单个图片的深度。
  - 参阅这篇关于使用 CNN 确定乳腺癌位置的研究论文(google research)。
  - CNN 被用来[拯救濒危物种]！
  - 一款叫做 [FaceApp] 的应用使用 CNN 让你在照片中是微笑状态或改变性别

### 计算机如何解析图片
在学习这节课的过程中，建议你打开参考 Jupyter 记事本。我们将会提供解决方案，但是请尝试自己创建深度学习模型！这段学习体验的价值在很大程度上来自于自己去研究代码。

要开始操作，请克隆该[GitHub 资源库](https://github.com/udacity/aind2-cnn) 中的资料，方法是在终端里输入以下命令：
<git clone https://github.com/udacity/aind2-cnn.git>  按照 该资源库中的说明操作，设置 Conda 环境并安装必要的依赖项。

要打开视频中提到的记事本，请转到 mnist-mlp/ 文件夹并打开 mnist_mlp.ipynb。

其他注意事项
MNIST 数据库可以说是深度学习领域最著名的数据库！请参阅此[图表](https://www.kaggle.com/benhamner/popular-datasets-over-time/code)，其中展示了一直以来在 [NIPS](https://nips.cc/) 论文中引用的数据集。

### Stride和填充padding
- stride是指过滤器在图片上每次滑动时移动的距离（用像素数量标示）  
- 卷积层边缘填充0  

### keras中的卷积层

```
# 导入模块
from keras.layers import Conv2D

# 创建卷积层
Conv2D(filters,kernel_size,strides,padding,activation='relu',input_shape)
```
#### 参数
必须传递以下参数：
- filters  过滤器数量
- kernel_size    指定方形卷积窗口的高和宽的数字
还可能需要调整其他可选参数
- strides  卷积stride,默认为1.
- padding  选项包括'valid'和'same'，默认为'valid'
- activation  通常为'relu'，如果未指定任何值，则不应用任何激活函数。**强烈建议**向网络中的每个卷积层添加一个Relu激活函数。
**注意**：可以将 kernel_size 和 strides 表示为数字或元组。

在模型中将卷积层当做第一层级（出现在输入层之后）时，必须提供另一个 input_shape 参数：
- input_shape - 指定输入的高度、宽度和深度（按此顺序）的元组。
**注意：**如果卷积层不是网络的第一个层级，请勿包含 input_shape 参数。

你还可以设置很多其他元组参数，以便更改卷积层的行为。要详细了解这些参数，建议参阅[官方文档](https://keras.io/layers/convolutional/)。

>示例 1
假设我要构建一个 CNN，输入层接受的是 200 x 200 像素（对应于高 200、宽 200、深 1 的三维数组）的灰度图片。然后，假设我希望下一层级是卷积层，具有 16 个过滤器，每个宽和高分别为 2。在进行卷积操作时，我希望过滤器每次跳转 2 个像素。并且，我不希望过滤器超出图片界限之外；也就是说，我不想用 0 填充图片。要构建该卷积层，我将使用下面的代码：

>Conv2D(filters=16, kernel_size=2, strides=2, activation='relu', input_shape=(200, 200, 1))

>如果在线查看代码，经常会在 Keras 中见到以下格式的卷积层：  
Conv2D(64, (2,2), activation='relu')  
在这种情况下，有 64 个过滤器，每个的大小是 2x2，层级具有 ReLU 激活函数。层级中的其他参数使用默认值，因此卷积的 stride 为 1，填充设为 'valid'。

### 维度
和神经网络一样，我们按以下步骤在 Keras 中创建 CNN：首先创建一个序列模型。

使用 .add() 方法向该网络中添加层级。

将以下代码复制粘贴到叫做 conv-dims.py 的 Python 可执行文件中：
```
from keras.models import Sequential
from keras.layers import Conv2D

model = Sequential()
model.add(Conv2D(filters=16, kernel_size=2, strides=2, padding='valid', 
    activation='relu', input_shape=(200, 200, 1)))
model.summary()
```
我们不会训练该 CNN；相反，我们将使用该可执行文件根据所提供的参数研究卷积层的维度如何变化。

![01_wd.jpg](attachment:01_wd.jpg)

#### 公式：卷积层中的参数数量
卷积层中的参数数量取决于 filters、kernel_size 和 input_shape 的值。我们定义几个变量：

- K - 卷积层中的过滤器数量
- F - 卷积过滤器的高度和宽度
- D_in - 上一层级的深度
**注意：** K = filters，F = kernel_size。类似地，D_in 是 input_shape 元组中的最后一个值。

因为每个过滤器有 F\*F\*D_in 个权重，卷积层由 K 个过滤器组成，因此卷积层中的权重总数是 K\*F\*F\*D_in。因为每个过滤器有 1 个偏差项，卷积层有 K 个偏差。因此，卷积层中的参数数量是 K\*F\*F\*D_in + K。

#### 公式：卷积层的形状
卷积层的形状取决于 kernel_size、input_shape、padding 和 stride 的值。我们定义几个变量：

- K - 卷积层中的过滤器数量
- F - 卷积过滤器的高度和宽度
- H_in - 上一层级的高度
- W_in - 上一层级的宽度  

**注意：** K = filters、F = kernel_size，以及S = stride。类似地，H_in 和 W_in 分别是 input_shape 元组的第一个和第二个值。

- **卷积层的深度始终为过滤器数量 K。**

如果 padding = 'same'，那么卷积层的空间维度如下：

- height = ceil(float(H_in) / float(S))
- width = ceil(float(W_in) / float(S))

如果 padding = 'valid'，那么卷积层的空间维度如下:

- height = ceil(float(H_in - F + 1) / float(S))
- width = ceil(float(W_in - F + 1) / float(S))


### 池化层pooling layers
复杂的图片系统，有很多的过滤器，每个过滤器负责从图片中查找一种规律，过滤器规则越多，则堆栈越大；意味着卷积层的维度越大。
维度越高，卷积网络需要使用越多的参数，可能会导致过拟合。需要一种方法来降低维度，这就是池化层所扮演的角色作用。  
两种类型的池化：  
- 最大池化层 max pooling layer
- 全局平均池化 global average pooling

#### keras 中的最大池化层

```
# 先导入模块
from keras.layers import MaxPooling2D
# 创建卷积层
MaxPooling2D(pool_size,strides,padding)

```
你必须包含以下参数：
- pool_size - 指定池化窗口高度和宽度的数字。

你可能还需要调整其他可选参数：
- strides - 垂直和水平 stride。如果不指定任何值，则 strides 默认为 pool_size。
- padding - 选项包括 'valid' 和 'same'。如果不指定任何值，则 padding 设为 'valid'。
注意：可以将 pool_size 和 strides 表示为数字或元组。

> 示例:假设我要构建一个 CNN，并且我想通过在卷积层后面添加最大池化层，降低卷积层的维度。假设卷积层的大小是 (100, 100, 15)，我希望最大池化层的大小为 (50, 50, 15)。要实现这一点，我可以在最大池化层中使用 2x2 窗口，stride 设为 2，代码如下：  
    MaxPooling2D(pool_size=2, strides=2)

### 图片分类CNN
卷积层可以检测图片中的区域性规律，最大池化层出现在卷积层之后，可以降低数组的维数。  
如何排列层级，并设计CNN架构。  
```
# 首先通过创建一个序列模型来创建一个CNN
from keras.models import Sequential
from keras.layers import Conv2D, MaxPooling2D, Flatten, Dense

# 和神经网络一样，通过使用 .add() 方法向网络中添加层级
model = Sequential()
model.add(Conv2D(filters=16, kernel_size=2, padding='same', activation='relu', input_shape=(32, 32, 3)))
model.add(MaxPooling2D(pool_size=2))
model.add(Conv2D(filters=32, kernel_size=2, padding='same', activation='relu'))
model.add(MaxPooling2D(pool_size=2))
model.add(Conv2D(filters=64, kernel_size=2, padding='same', activation='relu'))
model.add(MaxPooling2D(pool_size=2))
model.add(Flatten())
model.add(Dense(500, activation='relu'))
model.add(Dense(10, activation='softmax'))
```
该网络以三个卷积层（后面跟着最大池化层）序列开始。
- 前 6 个层级旨在将图片像素数组输入转换为所有空间信息都丢失、仅保留图片内容信息的数组 。
- 在 CNN 的第七个层级将该数组扁平化为向量。
- 后面跟着两个密集层，旨在进一步说明图片中的内容。
- 最后一层针对数据集中的每个对象类别都有一个条目，并具有一个 softmax 激活函数，使其返回概率。

**注意：** 在该视频中，你可能注意到卷积层表示为 Convolution2D，而不是 Conv2D。对于 Keras 2.0 来说，二者都可以，但是最好使用 Conv2D。

#### 注意事项
- 始终向 CNN 中的 Conv2D 层添加 ReLU 激活函数。但是网络的最后层级除外，**密集层**也应该具有 ReLU 激活函数。
- 在构建分类网络时，网络中的最后层级应该是具有 softmax 激活函数的 密集层。最后层级的节点数量应该等于数据集中的类别总数。
- 要开心！如果你觉得有点泄气，建议参阅[ Andrej Karpathy 的 tumblr](https://lossfunctions.tumblr.com/)（来自外网，可能打不开），其中包含了用户提交的损失函数，对应的是本身有问题的模型。损失函数在训练期间应该是减小的，但是这些图表显示的却是非常不同的行为 :)。