# 第7章 卷积神经网络（Convolutional Neural Network, CNN）

CNN被用于图像识别、语音识别等各种场合，在图像识别的比赛中，基于深度学习的方法几乎都以CNN为基础。

## 7.1 整体结构

**全连接（fully-connected）**：神经网络中，相邻的所有神经元之间都有连接。

![图7-1.基于全连接层（Affine层）的网络的例子](../images/图7-1.基于全连接层（Affine层）的网络的例子.PNG)
图7-1.基于全连接层（Affine层）的网络的例子

![图7-2.基于CNN的网络的例子：新增了Convolution层和Pooling层](../images/图7-2.基于CNN的网络的例子：新增了Convolution层和Pooling层.PNG)
图7-2.基于CNN的网络的例子：新增了Convolution层和Pooling层

## 7.2 卷积层

### 7.2.1 全连接层存在的问题

数据的形状被“忽视”了。

在CNN中，可以（有可能）正确理解图形等具有形状的数据。

CNN中，有时将卷积层的输入输出数据称为**特征图（feature map）**。
卷积层的输入数据称为**输入特征图（input feature map）**，
输出数据称为**输出特征图（output feature map）**。

### 7.2.2 卷积运算

卷积层进行的是卷积运算。卷积运算相当于图像处理中的“滤波器运算”。

![图7-3.卷积运算的例子](../images/图7-3.卷积运算的例子.PNG)
图7-3.卷积运算的例子：用“$\circledast$”符号表示卷积运算

对于输入数据，卷积运算以一定间隔滑动滤波器窗口并应用。

在CNN中，滤波器的参数就对应之前的权重。

![图7-4.卷积运算的计算顺序](../images/图7-4.卷积运算的计算顺序.PNG)
图7-4.卷积运算的计算顺序

![图7-5.卷积运算的偏置：向应用了滤波器的元素加上某个固定值（偏置）](../images/图7-5.卷积运算的偏置：向应用了滤波器的元素加上某个固定值（偏置）.PNG)
图7-5　卷积运算的偏置：向应用了滤波器的元素加上某个固定值（偏置）

### 7.2.3 填充

**填充（padding）**：在进行卷积层的处理之前，有时要向输入数据周围填入固定的数据（比如0）。

![图7-6.卷积运算的填充处理](../images/图7-6.卷积运算的填充处理.PNG)
图7-6 卷积运算的填充处理：向输入数据的周围填入0（图中用虚线表示填充，并省略了填充的内容“0”）

使用填充主要为了调整输出大小。

### 7.2.4 步幅

应用滤波器的位置间隔称为**步幅**（stride）。

![图7-7.步幅为2的卷积运算的例子](../images/图7-7.步幅为2的卷积运算的例子.PNG)
图7-7.步幅为2的卷积运算的例子

假设输入大小为$(W,H)$，滤波器的大小为$(FH,FW)$，输出大小为$(OH,OW)$，填充为$P$，步幅为$S$。输出大小的通式：
$$
    OH = \frac{H + 2P - FH}{S} + 1
    \\
    OW = \frac{W + 2P - FW}{S} + 1
    \\
    \tag{7.1}
$$

### 7.2.5 3维数据的卷积运算

通道方向上有多个特征图时，会按通道进行输入数据和滤波器的卷积运算，并将结果相加，从而得到输出。

![图7-8.对3维数据进行卷积运算的例子](../images/图7-8.对3维数据进行卷积运算的例子.PNG)
图7-8.对3维数据进行卷积运算的例子

![图7-9.对3维数据进行卷积运算的计算顺序](../images/图7-9.对3维数据进行卷积运算的计算顺序.PNG)
图7-9.对3维数据进行卷积运算的计算顺序

通道数只能设定为和输入数据的通道数相同的值。

### 7.2.6 结合方块思考

把3维数据表示为多维数组时，书写顺序为（channel, height, width）。
通道数为C、滤波器高度为FH（Filter Height）、长度为FW（Filter Width）时，可以写成（C, FH, FW）。

![图7-10.结合方块思考卷积运算。请注意方块的形状](../images/图7-10.结合方块思考卷积运算。请注意方块的形状.PNG)
图7-10.结合方块思考卷积运算。请注意方块的形状

![图7-11.基于多个滤波器的卷积运算的例子](../images/图7-11.基于多个滤波器的卷积运算的例子.PNG)
图7-11.基于多个滤波器的卷积运算的例子

![图7-12.卷积运算的处理流（追加了偏置项）](../images/图7-12.卷积运算的处理流（追加了偏置项）.PNG)
图7-12.卷积运算的处理流（追加了偏置项）

### 7.2.7 批处理

是按(batch_num, channel, height, width)的顺序保存数据。

![图7-13.卷积运算的处理流（批处理）](../images/图7-13.卷积运算的处理流（批处理）.PNG)
图7-13.卷积运算的处理流（批处理）

## 7.3 池化层

池化是缩小高、长方向上的空间运算。
![图7-14.Max池化的处理顺序](../images/图7-14.Max池化的处理顺序.PNG)
图7-14.Max池化的处理顺序

池化的窗口大小一般会和步幅设定称相同的值。

Max池化：图像识领域
Average池化

#### 池化层的特征
##### 没有要学习的参数
##### 通道数不发生变化
##### 对微小的位置变化具有鲁棒性（健壮）

![](../images/图7-16.输入数据在宽度方向上只偏离1个元素时，输出仍为相同的结果（根据数据的不同，有时结果也不相同）.PNG)
图7-16.输入数据在宽度方向上只偏离1个元素时，输出仍为相同的结果（根据数据的不同，有时结果也不相同）



## 7.4 卷积层和池化层的实现

### 7.4.1 4维数组


In [14]:
import numpy as np

x = np.random.rand(10, 1, 28, 28)
x.shape # (10, 1, 28, 28)

(10, 1, 28, 28)

In [15]:
x[0].shape # (1, 28, 28)

(1, 28, 28)

In [16]:
x[1].shape # (1, 28, 28)

(1, 28, 28)

In [17]:
x[0, 0].shape # (28, 28)

(28, 28)

### 7.4.2 基于im2col的展开

im2col是一个函数，将输入数据展开以适合滤波器（权重）。

![](../images/图7-17.im2col的示意图.PNG)
图7-17 im2col的示意图

![](../images/图7-18.将滤波器的应用区域从头开始依次横向展开为1列.PNG)
图7-18　将滤波器的应用区域从头开始依次横向展开为1列

![](../images/图7-19.卷积运算的滤波器处理的细节.PNG)
图7-19 卷积运算的滤波器处理的细节：将滤波器纵向展开为1列，并计算和im2col展开
的数据的矩阵乘积，最后转换（reshape）为输出数据的大小

### 7.4.3 卷积层的实现

im2col的实现内容在common/util.py中

im2col这一便捷函数具有以下接口。
im2col (input_data, filter_h, filter_w, stride=1, pad=0)

* input_data ― 由（数据量，通道，高，长）的4维数组构成的输入数据
* filter_h ― 滤波器的高
* filter_w ― 滤波器的长
* stride ― 步幅
* pad ― 填充

In [18]:
import sys, os
sys.path.append(os.pardir)
from common.util import im2col

x1 = np.random.rand(1, 3, 7, 7)
col1 = im2col(x1, 5, 5, stride=1, pad=0)
print(col1.shape) # (9, 75)

(9, 75)


In [19]:
x2 = np.random.rand(10, 3, 7, 7) # 10个数据
col2 = im2col(x2, 5, 5, stride=1, pad=0)
print(col2.shape) # (90, 75)

(90, 75)


In [20]:
class Convolution:
    def __init__(self, W, b, stride=1, pad=0):
        self.W = W
        self.b = b
        self.stride = stride
        self.pad = pad

    def forward(self, x):
        FN, C, FH, FW = self.W.shape
        N, C, H, W = x.shape
        out_h = int(1 + (H + 2*self.pad - FH) / self.stride)
        out_w = int(1 + (W + 2*self.pad - FW) / self.stride)

        col = im2col(x, FH, FW, self.stride, self.pad)
        col_W = self.W.reshape(FN, -1).T #滤波器的展开
        out = np.dot(col, col_W) + self.b

        out= out.reshape(N, out_h, out_w, -1).transpose(0, 3, 1, 2)

        return out

![](../images/图7-20.基于NumPy的transpose的轴顺序的更改：通过指定索引（编号），更改轴的顺序.PNG)
图7-20　基于NumPy的transpose的轴顺序的更改：通过指定索引（编号），更改轴的顺序


### 7.4.4 池化层的实现

![](../images/图7-21.对输入数据展开池化的应用区域（2×2的池化的例子）.PNG)
图7-21　对输入数据展开池化的应用区域（2×2的池化的例子）

![](../images/图7-22.池化层的实现流程：池化的应用区域内的最大值元素用灰色表示.PNG)
图7-22　池化层的实现流程：池化的应用区域内的最大值元素用灰色表示
***
池化层的实现按下面3个阶段进行。
1. 展开输入数据
2. 求各行的最大值
3. 转换为合适的输出大小

In [21]:
class Pooling:
    def __init__(self, pool_h, pool_w, stride=1, pad=0):
        self.pool_h = pool_h
        self.pool_w = pool_w
        self.stride = stride
        self.pad = pad

    def forward(self, x):
        N, C, H, W = x.shape
        out_h = int(1 + (H - self.pool_h) / self.stride)
        out_w = int(1 + (W - self.pool_w) / self.stride)

        # 展开(1)
        col = im2col(x, self.pool_h, self.pool_w, self.stride, self.pad)
        col = col.reshape(-1, self.pool_h*self.pool_w)

        # 最大值(2)
        out = np.max(col, axis=1)
        # 转换(3)
        out = out.reshape(N, out_h, out_w, C).transpose(0, 3, 1, 2)

        return out

## 7.5 CNN的实现

![](../images/图7-23.简单CNN的网络构成.PNG)
图7-23　简单CNN的网络构成

网络的构成是“Convolution - ReLU - Pooling -Affine - ReLU - Affine - Softmax”，我们将它实现为名为SimpleConvNet的类。

In [None]:
class SimpleConvNet:
    def __init__(self, input_dim=(1, 28, 28),
                 conv_param={'filter_num':30, 'filter_size':5,
                             'pad':0, 'stride':1},
                 hidden_size=100, output_size=10, weight_init_std=0.01):
        filter_num = conv_param['filter_num']
        filter_size = conv_param['filter_size']
        filter_pad = conv_param['pad']
        filter_stride = conv_param['stride']
        input_size = input_dim[1]
        conv_output_size = (input_size - filter_size + 2*filter_pad) / \
                            filter_stride + 1
        pool_output_size = int(filter_num * (conv_output_size/2) * (conv_output_size/2))

## 7.6 CNN的可视化

### 7.6.1 第1层权重的可视化

![](../images/图7-24.学习前和学习后的第1层的卷积层的权重.PNG)
图7-24 学习前和学习后的第1层的卷积层的权重：虽然权重的元素是实数，但是在图像的显示上，统一将最小值显示为黑色（0），最大值显示为白色（255）


卷积层的滤波器会提取边缘或斑块等原始信息。而刚才实现的CNN会将这些原始信息传递给后面的层。


![](../images/图7-25.对水平方向上和垂直方向上的边缘有响应的滤波器.PNG)
图7-25 对水平方向上和垂直方向上的边缘有响应的滤波器：输出图像1中，垂直方向的
边缘上出现白色像素，输出图像2中，水平方向的边缘上出现很多白色像素

### 7.6.2 基于分层结构的信息提取

根据深度学习的可视化相关的研究，随着层次加深，提取的信息（正确地讲，是反映强烈的神经元）也越来越抽象。

![](../images/图7-26.CNN的卷积层中提取的信息.PNG)
图7-26 CNN的卷积层中提取的信息。第1层的神经元对边缘或斑块有响应，第3层对纹
理有响应，第5层对物体部件有响应，最后的全连接层对物体的类别（狗或车）有响应

## 7.7 具有代表性的CNN

### 7.7.1 LeNet

1998年首次被提出的CNN元祖LeNet
在深度学习受到关注的2012年被提出的AlexNet

![图7-27.LeNet的网络结构](../images/图7-27.LeNet的网络结构.PNG)
图7-27.LeNet的网络结构

和“现在的CNN”相比，LeNet有几个不同点。
第一个不同点在于激活函数。LeNet中使用sigmoid函数，而现在的CNN中主要使用ReLU函数。
此外，原始的LeNet中使用子采样（subsampling）缩小中间数据的大小，而现在的CNN中Max池化是主流。

### 7.7.2 AlexNet

![图7-28.AlexNet](../images/图7-28.AlexNet.PNG)
图7-28.AlexNet

结构上AlexNet和LeNet没有大的不同，但有以下几点差异。
* 激活函数使用ReLU。
* 使用进行局部正规化的LRN（Local Response Normalization）层。
* 使用Dropout。

大多数情况下，深度学习（加深了层次的网络）存在大量的参数。

## 7.8 小结

* CNN在此前的全连接层的网络中新增了卷积层和池化层。
* 使用im2col函数可以简单、高效地实现卷积层和池化层。
* 通过CNN的可视化，可知随着层次变深，提取的信息愈加高级。
* LeNet和AlexNet是CNN的代表性网络。
* 在深度学习的发展中，大数据和GPU做出了很大的贡献。