## 卷积层和池化层的实现

前面我们详细介绍了卷积层和池化层，本节我们就用 Python 来实现这两个层。

#### 4维数组
如前所述，CNN 中各层间传递的数据是4维数据。<br>

所谓 4 维数据，比如数据的形状是(10, 1, 28, 28)，则它对应10个高为28、长为28、通道为1的数据。<br>

用Python来实现的话，如下所示。

In [2]:
import numpy as np
x = np.random.rand(10, 1, 28, 28) # 随机生成数据
x.shape

(10, 1, 28, 28)

这里，如果要访问第1个数据，只要写 x[0] 就可以了。

In [4]:
x[0].shape # (1, 28, 28)

(1, 28, 28)

In [5]:
x[1].shape # (1, 28, 28)

(1, 28, 28)

如果要访问第1个数据的第1个通道的空间数据，可以写成下面这样。

In [6]:
x[0, 0] # 或者x[0][0]

array([[0.7427829 , 0.52408657, 0.37681292, 0.16630225, 0.86134625,
        0.01007479, 0.07950293, 0.01475434, 0.1231792 , 0.65126674,
        0.38822302, 0.58948176, 0.90531216, 0.56270223, 0.67659522,
        0.30468901, 0.43258658, 0.98607603, 0.03788484, 0.29141586,
        0.34391653, 0.18906368, 0.34080169, 0.53721445, 0.18289729,
        0.45327067, 0.3750529 , 0.18600736],
       [0.11874544, 0.25805832, 0.02964211, 0.2015089 , 0.01988091,
        0.0053174 , 0.35390179, 0.89242412, 0.60546365, 0.59848362,
        0.6082237 , 0.78887798, 0.60016855, 0.32429175, 0.85565022,
        0.20399374, 0.70065327, 0.36192671, 0.45680847, 0.59619685,
        0.24981258, 0.99409569, 0.6334225 , 0.99931934, 0.95582626,
        0.49905879, 0.58107574, 0.21409651],
       [0.34049854, 0.03586035, 0.65180652, 0.06849376, 0.9444899 ,
        0.64283423, 0.97988856, 0.05013424, 0.00803797, 0.23950807,
        0.42338387, 0.61769249, 0.52622824, 0.94607405, 0.51548959,
        0.00688835, 0.8951

像这样，CNN中处理的是4维数据，因此卷积运算的实现看上去会很复杂，但是通过使用下面要介绍的 **im2col** 这个技巧，问题就会变得很简单。

#### 基于 im2col的展开
如果老老实实地实现卷积运算，要重复好几层的 for 语句,这样的实现有点麻烦。<br>

而且，NumPy 中存在使用 for 语句后处理变慢的缺点（NumPy 中，访问元素时最好不要用for语句）。<br>

这里，我们不使用 for 语句，而是使用 im2col 这个便利的函数进行简单的实现。<br>

im2col 是一个函数，将输入数据展开以适合滤波器（权重）。如图7-17所示，对3维的输入数据应用 im2col 后，数据转换为2维矩阵（正确地讲，是把包含批数量的4维数据转换成了2维数据）。

![image.png](attachment:image.png)

im2col 会把输入数据展开以适合滤波器（权重）。<br>

具体地说，如图7-18所示，对于输入数据，将应用滤波器的区域（3维方块）横向展开为1列。<br>

im2col 会在所有应用滤波器的地方进行这个展开处理。

![%605K3R%25VH0Y%7BBLBOT9A078WE.png](attachment:%605K3R%25VH0Y%7BBLBOT9A078WE.png)

在图7-18中，为了便于观察，将步幅设置得很大，以使滤波器的应用区域不重叠。<br>

**而在实际的卷积运算中，滤波器的应用区域几乎都是重叠的。**<br>

在滤波器的应用区域重叠的情况下，使用 im2col 展开后，展开后的元素个数会多于原方块的元素个数。<br>

因此，使用im2col的实现存在比普通的实现消耗更多内存的缺点。<br>

但是，汇总成一个大的矩阵进行计算，对计算机的计算颇有益处。比如，在矩阵计算的库（线性代数库）等中，矩阵计算的实现已被高度最优化，可以高速地进行大矩阵的乘法运算。因此，通过归结到矩阵计算上，可以有效地利用线性代数库。

---

im2col 这个名称是“image to column”的缩写，翻译过来就是“从图像到矩阵”的意思。<br>
Caffe、Chainer 等深度学习框架中有名为 im2col 的函数，并且在卷积层的实现中，都使用了 im2col。

---

使用 im2col 展开输入数据后，之后就只需将卷积层的滤波器（权重）纵向展开为1列，并计算2个矩阵的乘积即可（参照图7-19）。<br>

这和全连接层的 Affine 层进行的处理基本相同。<br>

如图7-19所示，基于 im2col 方式的输出结果是2维矩阵。因为 CNN 中数据会保存为4维数组，所以要将2维输出数据转换为合适的形状。<br>

以上就是卷积层的实现流程。

![xx.png](attachment:xx.png)

#### 卷积层的实现
本书提供了im2col函数，并将这个im2col函数作为黑盒（不关心内部实现）使用。

im2col 这一便捷函数具有以下接口。<br>
im2col (input_data, filter_h, filter_w, stride=1, pad=0)
* input_data ― 由（数据量，通道，高，长）的4维数组构成的输入数据
* filter_h ― 滤波器的高
* filter_w ― 滤波器的长
* stride ― 步幅
* pad ― 填充

im2col 会考虑滤波器大小、步幅、填充，将输入数据展开为2维数组。现在，我们来实际使用一下这个im2col。

In [10]:
import sys, os
sys.path.append(os.pardir)
from common.util import im2col

x1 = np.random.rand(1, 3, 7, 7) # 批大小为1，通道为3，7 x 7 的数据
col1 = im2col(x1, 5, 5, stride=1, pad=0) # 滤波器高、长为(5,5),步幅为1，填充为0
print(col1.shape) # (9, 75)

x2 = np.random.rand(10, 3, 7, 7) # 批大小为10，通道为3，7 x 7 的数据
col2 = im2col(x2, 5, 5, stride=1, pad=0) # 滤波器高、长为(5,5),步幅为1，填充为0
print(col2.shape) # (90, 75)

(9, 75)
(90, 75)


这里举了两个例子。<br>

第一个是批大小为 1、通道为 3 的 7 × 7 的数据。<br>
对其应用 im2col 函数，第 2 维的元素个数为 75 ，这是滤波器（通道为 3、大小为 5 × 5）的元素个数的总和。<br>
批大小为 1 时，im2col 的结果是(9, 75)。<br>

第二个的批大小为 10，数据形状和第一个相同。<br>
而第 2 个例子中批大小为 10 ，所以保存了 10 倍的数据，即(90, 75)。


现在使用 im2col 来实现卷积层。这里我们将卷积层实现为名为 Convolution 的类。

In [12]:
class Convolution:
    def __init__(self, W, b, stride=1, pad=0): # 卷积层的初始化方法将滤波器（权重）、偏置、步幅、填充作为参数接收。
        self.W = W # 滤波器（权重）
        self.b = b # 偏置
        self.stride = stride # 步幅
        self.pad = pad # 填充
    
    def forward(self, x):
        FN, C, FH, FW = self.W.shape # Filter Number（滤波器数量）、Channel、Filter Height、Filter Width
        N, C, H, W = x.shape 
        out_h = int(1 + (H + 2*self.pad - FH) / self.stride)
        out_w = int(1 + (W + 2*self.pad - FW) / self.stride)

        #############################################
        col = im2col(x, FH, FW, self.stride, self.pad)
        col_W = self.W.reshape(FN, -1).T # 滤波器的展开
        out = np.dot(col, col_W) + self.b
        #############################################

        out = out.reshape(N, out_h, out_w, -1).transpose(0, 3, 1, 2)

        return out

Convolution 层的实现中的重要部分用注释标记了。<br>
这部分中，**用 im2col 展开输入数据**，**并用 reshape 将滤波器展开为 2 维数组**。然后，计算展开后的矩阵的乘积。

展开滤波器的部分（注释标记）如图7-19所示，将各个滤波器的方块纵向展开为 1 列。<br>

这里通过 reshape(FN,-1) 将参数指定为 -1，这是 reshape 的一个便利的功能。<br>
通过在 reshape 时指定为 -1，reshape 函数会自动计算 -1 维度上的元素个数，以使多维数组的元素个数前后一致。<br>
比如，(10, 3, 5, 5)形状的数组的元素个数共有 750 个，指定 reshape(10,-1)后，就会转换成(10, 75)形状的数组。<br>

forward 的实现中，最后会将输出大小转换为合适的形状。转换时使用 了 NumPy 的 transpose 函数。<br>
transpose 会更改多维数组的轴的顺序。如图7-20所示，通过指定从0开始的索引（编号）序列，就可以更改轴的顺序。

![image.png](attachment:image.png)

以上就是卷积层的 forward 处理的实现。通过使用 im2col 进行展开，基本上可以像实现全连接层的 Affine 层一样来实现（5.6节）。<br>
接下来是卷积层的反向传播的实现，因为和 Affine 层的实现有很多共通的地方，所以就不再介绍了。<br>
但有一点需要注意，在进行卷积层的反向传播时，必须进行 im2col 的逆处理。这可以使用本书提供的 col2im函数来进行。<br>
除了使用col2im这一点，卷积层的反向传播和Affi ne层的实现方式都一样。<br>
卷积层的反向传播的实现在common/layer.py中，有兴趣的读者可以参考。

#### 池化层的实现
池化层的实现和卷积层相同，都使用 im2col 展开输入数据。<br>
不过，池化的情况下，在通道方向上是独立的，这一点和卷积层不同。<br>
具体地讲，如图7-21所示，池化的应用区域按通道单独展开。

![2S620X$GDE%60H_X$0%28_T$%60%5BE.png](attachment:2S620X$GDE%60H_X$0%28_T$%60%5BE.png)

像这样展开之后，只需对展开的矩阵求各行的最大值，并转换为合适的形状即可（图7-22）。

![image.png](attachment:image.png)

上面就是池化层的 forward 处理的实现流程。下面来看一下 Python 的实现示例。

In [1]:
class Pooling:
    def __init__(self, pool_h, pool_w, stride=1, pad=0):
        self.pool_h = pool_h
        self.pool_w = pool_w
        self.stride = stride
        self.pad = pad
    def forward(self, x):
        N, C, H, W = x.shape
        out_h = int(1 + (H - self.pool_h) / self.stride)
        out_w = int(1 + (W - self.pool_w) / self.stride)
        
        # 展开(1)
        col = im2col(x, self.pool_h, self.pool_w, self.stride, self.pad)
        col = col.reshape(-1, self.pool_h*self.pool_w)
        
        # 最大值(2)
        out = np.max(col, axis=1)
        
        # 转换(3)
        out = out.reshape(N, out_h, out_w, C).transpose(0, 3, 1, 2)
        
        return out

如图7-22所示，池化层的实现按下面3个阶段进行。
1. 展开输入数据。
2. 求各行的最大值。
3. 转换为合适的输出大小。
各阶段的实现都很简单，只有一两行代码。


---

最大值的计算可以使用 NumPy 的 np.max 方法。<br>
np.max 可以指定 axis 参数，并在这个参数指定的各个轴方向上求最大值。<br>
比如，如果写成 np.max(x,axis=1)，就可以在输入 x 的第 1 维的各个轴方向上求最大值。

---

以上就是池化层的 forward 处理的介绍。<br>
如上所述，通过将输入数据展开为容易进行池化的形状，后面的实现就会变得非常简单。<br>
关于池化层的 backward 处理，之前已经介绍过相关内容，这里就不再介绍了。