In [1]:
import numpy as np
import matplotlib.pylab as plt
import pickle

from IPython.core.interactiveshell import InteractiveShell 
InteractiveShell.ast_node_interactivity = "all"

本章的主题是卷积神经网络（Convolutional Neural Network，CNN）。

CNN被用于图像识别、语音识别等各种场合，在图像识别的比赛中，基于深度学习的方法几乎都以CNN为基础。

# 整体结构

CNN和之前介绍的神经网络一样，可以像乐高积木一样通过组装层来构建。不过，CNN中新出现了卷积层（Convolution层）和池化层（Pooling层）。

<img src="img/7_1.png" alt="Drawing" style="width: 500px;"/>

- CNN 的层的连接顺序是“Convolution - ReLU -（Pooling）”（Pooling层有时会被省略）。

- 这可以理解为之前的“Affine - ReLU”连接被替换成了“Convolution - ReLU -（Pooling）”连接。

- 还需要注意的是，在图7-2的CNN中，靠近输出的层中使用了之前的“Affine - ReLU”组合。

- 此外，最后的输出层中使用了之前的“Affine - Softmax”组合。

这些都是一般的CNN中比较常见的结构。


# 卷积层

**为什么要卷积层？**

之前介绍的全连接的神经网络中使用了全连接层（Affine层）。在全连接层中，相邻层的神经元全部连接在一起。

但是，全连接层存在什么问题呢？那就是数据的形状被“忽视”了。

比如，输入数据是图像时，图像通常是高、长、通道方向上的3维形状。但是，向全连接层输入时，需要将3维数据拉平为1维数据。

前面提到的使用了MNIST数据集的例子中，输入图像就是1通道、高28像素、长28像素的（1, 28, 28）形状，但却被排成1列，以784个数据的形式输入到最开始的Affine层。

图像是3维形状，这个形状中应该含有重要的空间信息。

3维形状中可能隐藏有值得提取的本质模式。但是，因为全连接层会忽视形状，将全部的输入数据作为相同的神经元（同一维度的神经元）处理，所以无法利用与形状相关的信息。

**而卷积层可以保持形状不变。当输入数据是图像时，卷积层会以3维数据的形式接收输入数据，并同样以3维数据的形式输出至下一层。因此，在CNN中，可以（有可能）正确理解图像等具有形状的数据。**

## 卷积运算

卷积层进行的处理就是卷积运算。卷积运算相当于图像处理中的“滤波器运算”。

<img src="img/7_3.png" alt="Drawing" style="width: 500px;"/>

如图7-3所示，卷积运算对输入数据应用滤波器。在这个例子中，输入数据是有高长方向的形状的数据，滤波器也一样，有高长方向上的维度。假设用（height, width）表示数据和滤波器的形状，则在本例中，输入大小是(4, 4)，滤波器大小是(3, 3)，输出大小是(2, 2)。另外，有的文献中也会用“核”这个词来表示这里所说的“滤波器”。

对于输入数据，卷积运算以一定间隔滑动滤波器的窗口并应用。
将各个位置上滤波器的元素和输入的对应元素相乘，然后再求和（有时将这个计算称为乘积累加运算）。然后，将这个结果保存到输出的对应位置。将这个过程在所有位置都进行一遍，就可以得到卷积运算的输出。

<img src="img/7_4.png" alt="Drawing" style="width: 500px;"/>


CNN中也存在偏置。
如图7-5所示，向应用了滤波器的数据加上了偏置。偏置通常只有1个 （1 × 1）（本例中，相对于应用了滤波器的4个数据，偏置只有1个），这个值会被加到应用了滤波器的所有元素上。
<img src="img/7_5.png" alt="Drawing" style="width: 500px;"/>



## 填充

- 在进行卷积层的处理之前，有时要向输入数据的周围填入固定的数据（比如0等），这称为填充（padding），是卷积运算中经常会用到的处理。

- 使用填充主要是为了调整输出的大小。比如图7-5，对大小为(4, 4)的输入数据应用(3, 3)的滤波器时，输出大小变为(2, 2)，相当于输出大小比输入大小缩小了 2个元素。这在反复进行多次卷积运算的深度网络中会成为问题。为什么呢？因为如果每次进行卷积运算都会缩小空间，那么在某个时刻输出大小就有可能变为 1，导致无法再应用卷积运算。为了避免出现这样的情况，就要使用填充。

<img src="img/7_6.png" alt="Drawing" style="width: 500px;"/>
在图7-6的例子中，对大小为(4, 4)的输入数据应用了幅度为1的填充。“幅度为1的填充”是指用幅度为1像素的0填充周围。

通过填充，大小为(4, 4)的输入数据变成了(6, 6)的形状。然后，应用大小为(3, 3)的滤波器，生成了大小为(4, 4)的输出数据。这个例子中将填充设成了1，不过填充的值也可以设置成2、3等任意的整数。在图7-5的例子中，如果将填充设为2，则输入数据的大小变为(8, 8)；如果将填充设为3，则大小变为(10, 10)。

## 步幅

应用滤波器的位置间隔称为步幅（stride）。之前的例子中步幅都是1，如果将步幅设为2，则如图7-7所示，应用滤波器的窗口的间隔变为2个元素。
<img src="img/7_7.png" alt="Drawing" style="width: 500px;"/>




**综上，**
- 增大步幅后，输出大小会变小。
- 而增大填充后，输出大小会变大。

## 三维数据的卷积运算

对于3维数据，除了高、长方向之外，还需要处理通道方向。以下为具体的卷积运算的例子。

<img src="img/7_8.png" alt="Drawing" style="width: 500px;"/>

和2维数据时（图7-3的例子）相比，可以发现纵深方向（通道方向）上特征图增加了。通道方向上有多个特征图时，会按通道进行输入数据和滤波器的卷积运算，并将结果相加，从而得到输出。

需要注意的是，在3维数据的卷积运算中，输入数据和滤波器的通道数要设为相同的值。

在这个例子中，输入数据和滤波器的通道数一致，均为3。
滤波器大小可以设定为任意值（不过，每个通道的滤波器大小要全部相同）。这个例子中滤波器大小为(3, 3)，但也可以设定为(2, 2)、(1, 1)、(5, 5)等任意值。

<img src="img/7_9.png" alt="Drawing" style="width: 500px;"/>




# 池化层

**为什么要有池化层？**

- 这一层有时候确实会被省略。

**先来看看实现**，为什么存在现在我还回答不来~

- 池化是缩小高、长方向上的空间的运算。比如，如图7-14所示，进行将2 × 2的区域集约成1个元素的处理，缩小空间大小。
- 下图的运算展示的是 “Max池化”，如图所示，从2 × 2的区域中取出最大的元素。

<img src="img/7_14.png" alt="Drawing" style="width: 500px;"/>

- 此外，这个例子中将步幅设为了2，所以2 × 2的窗口的移动间隔为2个元素。
- 另外，一般来说，池化的窗口大小会和步幅设定成相同的值。比如，3 × 3的窗口的步幅会设为3，4 × 4的窗口的步幅会设为4等。
- 除了Max池化之外，还有Average池化等。相对于Max池化是从目标区域中取出最大值，Average池化则是计算目标区域的平均值。在图像识别领域，主要使用Max池化。后文说的“池化层”，均指的是Max池化。


**池化层的特征**

1. 没有要学习的参数

池化层和卷积层不同，没有要学习的参数。池化只是从目标区域中取最大值（或者平均值），所以不存在要学习的参数。

2. 通道数不发生变化

经过池化运算，输入数据和输出数据的通道数不会发生变化。如图7-15所示，计算是按通道独立进行的。
<img src="img/7_15.png" alt="Drawing" style="width: 500px;"/>


3. 对微小的位置变化具有鲁棒性（健壮）

输入数据发生微小偏差时，池化仍会返回相同的结果。因此，池化对输入数据的微小偏差具有鲁棒性。比如，3 × 3的池化的情况下，如图7-16所示，池化会吸收输入数据的偏差（根据数据的不同，结果有可能不一致）。

<img src="img/7_16.png" alt="Drawing" style="width: 500px;"/>


# 卷积层和池化层的实现

实际上，通过使用 im2col技巧，就可以很轻松地实现。

本节将介绍这种技巧，将问题简化，然后再进行卷积层的实现。

## 基于im2col展开

im2col这个名称是“image to column”的缩写，翻译过来就是“从图像到矩阵”的意思。Caffe、Chainer 等深度学习框架中有名为im2col的函数，并且在卷积层的实现中，都使用了im2col。

im2col是一个函数，将输入数据展开以适合滤波器（权重）。

如图7-17所示，对3维的输入数据应用im2col后，数据转换为2维矩阵（正确地讲，是把包含批数量的4维数据转换成了2维数据）。

<img src="img/7_17.png" alt="Drawing" style="width: 500px;"/>


使用im2col展开输入数据后，之后就只需将卷积层的滤波器（权重）纵向展开为1列，并计算2个矩阵的乘积即可（参照图7-19）。这和全连接层的Affine层进行的处理基本相同。

<img src="img/7_19.png" alt="Drawing" style="width: 500px;"/>

基于im2col方式的输出结果是2维矩阵。因为CNN中数据会保存为4维数组，所以要将2维输出数据转换为合适的形状。以上就是卷积层的实现流程。

小结：理解下来，就是说即使im2col还是将多维数据处理成了二维，但是在这个二维数据中是包含了多维的信息的。

In [None]:
# 来看一下 im2col函数的具体实现，来自：common/util.py中
def im2col(input_data, filter_h, filter_w, stride=1, pad=0):
    """
    Parameters
    ----------
    input_data : 由(数据量, 通道, 高, 长)的4维数组构成的输入数据
    filter_h : 滤波器的高
    filter_w : 滤波器的长
    stride : 步幅
    pad : 填充
    Returns
    -------
    col : 2维数组
    """
    N, C, H, W = input_data.shape
    out_h = (H + 2*pad - filter_h)//stride + 1
    out_w = (W + 2*pad - filter_w)//stride + 1

    img = np.pad(input_data, [(0,0), (0,0), (pad, pad), (pad, pad)], 'constant')
    col = np.zeros((N, C, filter_h, filter_w, out_h, out_w))

    for y in range(filter_h):
        y_max = y + stride*out_h
        for x in range(filter_w):
            x_max = x + stride*out_w
            col[:, :, y, x, :, :] = img[:, :, y:y_max:stride, x:x_max:stride]

    col = col.transpose(0, 4, 5, 1, 2, 3).reshape(N*out_h*out_w, -1)
    return col


In [18]:
# 关于4维数据
# CNN中各层间传递的数据是4维数据。所谓4维数据，比如
# 数据的形状是(10, 1, 28, 28)，则它对应10个高为28、长为28、通道为1的数据。用Python来实现的话，如下所示。

import numpy as np
x = np.random.rand(10, 1, 28, 28)
x.shape

# 如果要访问第1个数据，只要写x[0]就可以了（注意Python的索
# 引是从0开始的）。同样地，用x[1]可以访问第2个数据。
x[0].shape

(10, 1, 28, 28)

(1, 28, 28)

In [19]:
x[0]

array([[[0.22098544, 0.88375902, 0.73365162, 0.6228381 , 0.89960471,
         0.90063932, 0.7308524 , 0.85971187, 0.08688283, 0.74392118,
         0.29857082, 0.73352522, 0.32201368, 0.88387487, 0.22023755,
         0.00171289, 0.73773018, 0.3429985 , 0.30019968, 0.47282408,
         0.21156186, 0.98000461, 0.86497789, 0.25474951, 0.20661485,
         0.1746222 , 0.1570551 , 0.76668541],
        [0.09120355, 0.91429284, 0.93228198, 0.58223776, 0.38235754,
         0.45339169, 0.69699651, 0.98945707, 0.04757986, 0.71164357,
         0.52474843, 0.03541304, 0.79443985, 0.32908612, 0.44031168,
         0.88024805, 0.82534024, 0.36391179, 0.49313456, 0.75611986,
         0.68288773, 0.65138812, 0.48150518, 0.56954749, 0.93643381,
         0.36863584, 0.95302397, 0.96323133],
        [0.94568035, 0.20970017, 0.04354085, 0.4546916 , 0.7658874 ,
         0.03995428, 0.97311134, 0.8686917 , 0.68706546, 0.35520531,
         0.24909235, 0.92813977, 0.14895308, 0.89947788, 0.22914075,
         0.

In [20]:
# 如果要访问第1个数据的第1个通道的空间数据，可以写成下面这样。
x[0, 0] # 或者x[0][0]

array([[0.22098544, 0.88375902, 0.73365162, 0.6228381 , 0.89960471,
        0.90063932, 0.7308524 , 0.85971187, 0.08688283, 0.74392118,
        0.29857082, 0.73352522, 0.32201368, 0.88387487, 0.22023755,
        0.00171289, 0.73773018, 0.3429985 , 0.30019968, 0.47282408,
        0.21156186, 0.98000461, 0.86497789, 0.25474951, 0.20661485,
        0.1746222 , 0.1570551 , 0.76668541],
       [0.09120355, 0.91429284, 0.93228198, 0.58223776, 0.38235754,
        0.45339169, 0.69699651, 0.98945707, 0.04757986, 0.71164357,
        0.52474843, 0.03541304, 0.79443985, 0.32908612, 0.44031168,
        0.88024805, 0.82534024, 0.36391179, 0.49313456, 0.75611986,
        0.68288773, 0.65138812, 0.48150518, 0.56954749, 0.93643381,
        0.36863584, 0.95302397, 0.96323133],
       [0.94568035, 0.20970017, 0.04354085, 0.4546916 , 0.7658874 ,
        0.03995428, 0.97311134, 0.8686917 , 0.68706546, 0.35520531,
        0.24909235, 0.92813977, 0.14895308, 0.89947788, 0.22914075,
        0.80265832, 0.2782

In [21]:
# 实际使用一下im2col函数

import sys, os
sys.path.append(os.pardir)
from common.util import im2col

x1 = np.random.rand(1, 3, 7, 7)
col1 = im2col(x1, 5, 5, stride=1, pad=0)
print(col1.shape) # (9, 75)

(9, 75)


In [22]:
x1[0, 0]

array([[0.75547229, 0.91039569, 0.69946744, 0.11087933, 0.45171899,
        0.50621593, 0.42354037],
       [0.01847005, 0.32698473, 0.26378187, 0.16134522, 0.8155307 ,
        0.47965289, 0.5288549 ],
       [0.48128311, 0.48283145, 0.16047529, 0.87488516, 0.84927978,
        0.75618368, 0.47614261],
       [0.85340743, 0.72513084, 0.00644604, 0.12487868, 0.17461071,
        0.09947656, 0.60114926],
       [0.42721934, 0.23217779, 0.26910462, 0.6031399 , 0.93405836,
        0.51555767, 0.04237535],
       [0.26214782, 0.16702206, 0.09790359, 0.71192747, 0.25417658,
        0.27829796, 0.82485251],
       [0.07975875, 0.33175048, 0.8867545 , 0.95145223, 0.47012621,
        0.85635256, 0.63934683]])

In [23]:
col1[0]

array([0.75547229, 0.91039569, 0.69946744, 0.11087933, 0.45171899,
       0.01847005, 0.32698473, 0.26378187, 0.16134522, 0.8155307 ,
       0.48128311, 0.48283145, 0.16047529, 0.87488516, 0.84927978,
       0.85340743, 0.72513084, 0.00644604, 0.12487868, 0.17461071,
       0.42721934, 0.23217779, 0.26910462, 0.6031399 , 0.93405836,
       0.0691223 , 0.38192948, 0.51618909, 0.79258833, 0.98653204,
       0.45952467, 0.28735293, 0.0431046 , 0.65464562, 0.6614909 ,
       0.81622231, 0.81920121, 0.2073896 , 0.69620123, 0.34815009,
       0.74733237, 0.49864112, 0.72725405, 0.86685404, 0.89405029,
       0.14903815, 0.32597861, 0.83807027, 0.6227035 , 0.37001875,
       0.81764456, 0.41485391, 0.1283658 , 0.49714366, 0.43886759,
       0.8191046 , 0.51393182, 0.9818029 , 0.47539548, 0.50849382,
       0.65047764, 0.04242757, 0.59747875, 0.4363589 , 0.49088991,
       0.68189324, 0.67617386, 0.26851295, 0.98792828, 0.42199826,
       0.41747609, 0.28575562, 0.08346288, 0.12208976, 0.15823

In [24]:
x2 = np.random.rand(10, 3, 7, 7) # 10个数据
col2 = im2col(x2, 5, 5, stride=1, pad=0)
print(col2.shape) # (90, 75)

(90, 75)


## 使用im2col来实现卷积层

In [26]:
class Convolution:
    def __init__(self, W, b, stride=1, pad=0):
        self.W = W
        self.b = b
        self.stride = stride
        self.pad = pad
        
    def forward(self, x):
        # FN、C、FH、FW分别是 Filter Number（滤波器数量）、Channel、Filter Height、Filter Width的缩写。
        FN, C, FH, FW = self.W.shape
        N, C, H, W = x.shape
        out_h = int(1 + (H + 2*self.pad - FH) / self.stride)
        out_w = int(1 + (W + 2*self.pad - FW) / self.stride)
        
        # 用im2col展开输入数据，并用reshape将滤波器展开为2维数组。然后，计算展开后的矩阵的乘积。
        col = im2col(x, FH, FW, self.stride, self.pad)
        col_W = self.W.reshape(FN, -1).T # 滤波器的展开，这里通过reshape(FN,-1)将参数指定为-1，会自动计算-1维度上的元素个数，以使多维数组的元素个数前后一致。
        out = np.dot(col, col_W) + self.b
        
        # transpose会更改多维数组的轴的顺序。如图7-20所示，通过指定从0开始的索引（编号）序列，就可以更改轴的顺序。
        out = out.reshape(N, out_h, out_w, -1).transpose(0, 3, 1, 2)
        return out
    
    def backward(self, dout):
        FN, C, FH, FW = self.W.shape
        dout = dout.transpose(0,2,3,1).reshape(-1, FN)

        self.db = np.sum(dout, axis=0)
        self.dW = np.dot(self.col.T, dout)
        self.dW = self.dW.transpose(1, 0).reshape(FN, C, FH, FW)

        dcol = np.dot(dout, self.col_W.T)
        dx = col2im(dcol, self.x.shape, FH, FW, self.stride, self.pad)

        return dx

<img src="img/7_20.png" alt="Drawing" style="width: 500px;"/>


以上代码就是卷积层的forward处理的实现。

通过使用im2col进行展开，基本上可以像实现全连接层的Affine层一样来实现（5.6节）。

接下来是卷积层的反向传播的实现，因为和Affine层的实现有很多共通的地方，所以就不再介绍了。

但有一点需要注意，在进行卷积层的反向传播时，必须进行im2col的逆处理。这可以使用本书提供的col2im函数

## 池化层的实现

池化层的实现和卷积层相同，都使用im2col展开输入数据。不过，池化的情况下，在通道方向上是独立的，这一点和卷积层不同。

池化的应用区域按通道单独展开，顺序拼接在一起。

<img src="img/7_21.png" alt="Drawing" style="width: 500px;"/>

这样展开之后，只需对展开的矩阵求各行的最大值，并转换为合适的形状即可（图7-22）。

<img src="img/7_22.png" alt="Drawing" style="width: 500px;"/>


In [None]:
# 池化层的实现代码
class Pooling:
    def __init__(self, pool_h, pool_w, stride=1, pad=0):
        self.pool_h = pool_h
        self.pool_w = pool_w
        self.stride = stride
        self.pad = pad
        
    def forward(self, x):
        N, C, H, W = x.shape
        out_h = int(1 + (H - self.pool_h) / self.stride)
        out_w = int(1 + (W - self.pool_w) / self.stride)
        
        #(1)展开：展开输入数据
        col = im2col(x, self.pool_h, self.pool_w, self.stride, self.pad)
        col = col.reshape(-1, self.pool_h*self.pool_w)
        
        # (2)最大值：求各行的最大值
        out = np.max(col, axis=1)
        
        # (3)转换：转换为合适的输出大小
        out = out.reshape(N, out_h, out_w, C).transpose(0, 3, 1, 2)
        return out
    
    def backward(self, dout):
        dout = dout.transpose(0, 2, 3, 1)
        
        pool_size = self.pool_h * self.pool_w
        dmax = np.zeros((dout.size, pool_size))
        dmax[np.arange(self.arg_max.size), self.arg_max.flatten()] = dout.flatten()
        dmax = dmax.reshape(dout.shape + (pool_size,)) 
        
        dcol = dmax.reshape(dmax.shape[0] * dmax.shape[1] * dmax.shape[2], -1)
        dx = col2im(dcol, self.x.shape, self.pool_h, self.pool_w, self.stride, self.pad)
        
        return dx


# CNN的实现

以手写数字识别的CNN为例：网络的构成是“Convolution - ReLU - Pooling -Affine - ReLU - Affine - Softmax”，我们将它实现为名为SimpleConvNet的类。

<img src="img/7_23.png" alt="Drawing" style="width: 500px;"/>




In [28]:
# CNN的代码实现

In [23]:
class SimpleConvNet:
    def __init__(self, 
                 input_dim=(1, 28, 28), # 输入数据的维度：（通道，高，长）
                 conv_param={'filter_num':30, 'filter_size':5,'pad':0, 'stride':1}, # 卷积层的超参数（字典）
                 hidden_size=100, # 隐藏层（全连接）的神经元数量
                 output_size=10, # 输出层（全连接）的神经元数量
                 weight_init_std=0.01 # 初始化时权重的标准差
                ): 
        
        # 第一部分：初始化最开始。计算卷积层和池化层的输出大小
        filter_num = conv_param['filter_num'] # 滤波器的数量
        filter_size = conv_param['filter_size'] # 滤波器的大小
        filter_pad = conv_param['pad'] # 填充
        filter_stride = conv_param['stride'] # 步幅
        input_size = input_dim[1]
        conv_output_size = (input_size - filter_size + 2*filter_pad) / \
        filter_stride + 1
        pool_output_size = int(filter_num * (conv_output_size/2) *(conv_output_size/2))
        
        # 第二部分：权重参数的初始化。
        # 学习所需的参数是第1层的卷积层和剩余两个全连接层的权重和偏置，将这些参数保存在实例变量的params字典中。
        self.params['W1'] = weight_init_std * np.random.randn(filter_num, input_dim[0], filter_size, filter_size)
        self.params['b1'] = np.zeros(filter_num)
        self.params['W2'] = weight_init_std * np.random.randn(pool_output_size, hidden_size)
        self.params['b2'] = np.zeros(hidden_size)
        self.params['W3'] = weight_init_std * np.random.randn(hidden_size, output_size)
        self.params['b3'] = np.zeros(output_siz
        
        # 第三部分：生成必要的层。
        # 从最前面开始按顺序向有序字典（OrderedDict）的layers中添加层。只有最后的SoftmaxWithLoss层被添加到别的变量lastLayer中。
        self.layers = OrderedDict()
        self.layers['Conv1'] = Convolution(self.params['W1'],self.params['b1'],conv_param['stride'],conv_param['pad'])
        self.layers['Relu1'] = Relu()
        self.layers['Pool1'] = Pooling(pool_h=2, pool_w=2, stride=2)
        self.layers['Affine1'] = Affine(self.params['W2'],self.params['b2'])
        self.layers['Relu2'] = Relu()
        self.layers['Affine2'] = Affine(self.params['W3'],self.params['b3'])
        self.last_layer = softmaxwithloss()

    def predict(self, x):
        for layer in self.layers.values():
            x = layer.forward(x)
        return x

    def loss(self, x, t):
        y = self.predict(x)
        return self.lastLayer.forward(y, t)
  