In [1]:
import tensorflow as tf
import numpy as np

# 二维卷积层

## 二维卷积计算

举例说明卷积计算。如下图所示，输入为一个shape=(3,3)的数组。kernel是一个shape=(2,2)的数组，kernel又被称为卷积核或者过滤器(filter)。卷积核窗口(卷积窗口)的形状取决于kernel的高和宽。在二维卷积计算中，卷积窗口从输入数组的最左上方开始，按从左往右，从上往下的顺序，一次在输入数组中滑动，对卷积窗口中的输入子数组与kernel相乘并求和，得到输出数组中相应位置的元素。

$$
0\times0+1\times1+3\times2+4\times3=19,\\1\times0+2\times1+4\times2+5\times3=25,\\3\times0+4\times1+6\times2+7\times3=37,\\4\times0+5\times1+7\times2+8\times3=43.\\
$$

<img src="img/class6_1.1.svg" style="zoom:100%">

In [7]:
# 二维卷积计算（cross-correlation）从零实现

def corr2d(X, K):
    # kernel shape
    h,w = K.shape
    
    # 输出的shape
    Y = tf.Variable(tf.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1)))
    
    # 进行卷积计算
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i,j].assign(tf.cast(tf.reduce_sum(X[i:i+h, j:j+w] * K), dtype=tf.float32))
    
    return Y

In [6]:
X = tf.constant([[0,1,2], [3,4,5], [6,7,8]])
K = tf.constant([[0,1], [2,3]])
corr2d(X, K)

<tf.Variable 'Variable:0' shape=(2, 2) dtype=float32, numpy=
array([[19., 25.],
       [37., 43.]], dtype=float32)>

## Conv2d - 二维卷积层

二维卷积层将输入和卷积层做cross-correlation运算，然后加上一个标量bias得到输出。卷积层的模型参数包括了卷积核和标量偏差。在训练模型的时候，通常我们先对卷积核随机初始化，然后不断迭代卷积核和偏差。

下面基于`corr2d`函数，实现一个自定义的二维卷积层

In [8]:
class Conv2D(tf.keras.layers.Layer):
    def __init__(self, units):
        super().__init__()
        self.units = units
    
    def build(self, kernel_size):
        self.w = self.add_weight(name='w',
                                 shape=kernel_size,
                                 initializer=tf.random_normal_initializer())
        self.b = self.add_weight(name='b',
                                 shape=(1,),
                                 initializer=tf.random_normal_initializer())
    
    def call(self, inputs):
        return corr2d(inputs, self.w) + self.b

## Edge Detectation - 边缘检测

卷积层的简单应用: 检测图像中物体的边缘(像素变化的位置)。首先构造一张6x8的图像，它中间4列为黑(0), 其余为白(1)。

In [25]:
X = tf.Variable(tf.ones((6,8)))
X[:, 2:6].assign(tf.zeros(X[:, 2:6].shape))
X

<tf.Variable 'Variable:0' shape=(6, 8) dtype=float32, numpy=
array([[1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.]], dtype=float32)>

构造高和宽分别为1和2的卷积核, 并对其做卷积计算。发现白和黑的边缘分别被检测成了1和-1，其余部分的输出全是0

In [26]:
K = tf.constant([[1,-1]], dtype=tf.float32)
Y = corr2d(X, K)
Y

<tf.Variable 'Variable:0' shape=(6, 7) dtype=float32, numpy=
array([[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.]], dtype=float32)>

## leran kernel by data - 迭代卷积核

In [63]:
# 用1.3的例子生成X和Y
X = tf.Variable(tf.ones((6,8)))
X[:, 2:6].assign(tf.zeros(X[:, 2:6].shape))

K = tf.constant([[1,-1]], dtype=tf.float32)
Y = corr2d(X, K)

X = tf.reshape(X, (1,6,8,1)) # 相当于Flatten()
Y = tf.reshape(Y, (1,6,7,1)) # 相当于Flatten()

In [74]:
# 对conv2d进行迭代
# 只有weights无bias

conv2d = tf.keras.layers.Conv2D(1, (1,2))
Y_hat = conv2d(X)

for i in range(20):
    with tf.GradientTape(watch_accessed_variables=False) as g:
        g.watch(conv2d.weights[0])
        Y_hat = conv2d(X)
        l = (abs(Y_hat - Y)) ** 2
        dl = g.gradient(target=l, source=conv2d.weights[0])
        lr = 3e-2
        update = tf.multiply(lr, dl)
        updated_weights = conv2d.get_weights()
        updated_weights[0] = conv2d.weights[0] - update
        conv2d.set_weights(updated_weights)  

        if (i + 1)% 2 == 0:
            print('batch %d, loss %.3f' % (i + 1, tf.reduce_sum(l)))

batch 2, loss 19.553
batch 4, loss 7.277
batch 6, loss 2.858
batch 8, loss 1.150
batch 10, loss 0.468
batch 12, loss 0.191
batch 14, loss 0.078
batch 16, loss 0.032
batch 18, loss 0.013
batch 20, loss 0.005


## Feature Map and Receptive Field - 特征图和感受野

二维卷积层输出的二维数组叫做特征图，因为可以将它看做是输入在空间维度上某一级的表征。

影响元素x的正向传播的所有可能输入区域(可能大于输入的实际尺寸)叫做x的感受野。以1.1中图为例，输入中阴影部分的四个元素为输出中阴影部分元素的感受野。

# Padding and Stride - 填充和步幅

在1.1的例子中，input_shape = (3,3), kernel_shape = (2,2), 计算得到了output_shape = (2,2)。一般来说，假设input_shape =$(n_h, n_w)$, kernel_shape = $(k_h, k_w)$, 那么output_shape = $(n_h - k_h + 1, n_w - k_w + 1)$

所以，卷积层的输出形状由输入形状和卷积核窗口形状决定的。在2.中介绍卷积层的两个超参数，填充和步幅。这两个超参数可以在给定输入和卷积核的情况下改变输出。

## Padding - 填充

填充是指在输入的高和宽的两侧填充元素(通常填充0)。下图中我们在1.1例子的图的两侧分别添加了值为0的元素，从而使得输入的高和宽从3变成5，并导致输出的高和宽由2增加到了4。该图片相当于padding_shape=(2,2)

<img src="img/class6_2.1.svg" style="zoom:100%">

所以当padding_shape = $(p_h, p_w)$时，则output_shape = $(n_h + p_h - k_h + 1, n_w + p_w - k_w + 1)$。 也就是说，输出的高和宽会分别增加 $p_h$ 和 $p_w$

很多情况下，我们会设置 $p_h = k_h - 1$ 和 $p_w = k_w - 1$ 来使得输入和输出具有相同的高和宽。这样会方便在构造网络时推测每个层的输出形状。

备注: 这里的padding_shape和外面大家的说法不太一样。一般而言如果padding='same'; 在我们这的定义是pad = kernel - 1; 在外面的定义为pad = (kernel - 1) / 2;

即外面的padding讲的是在外面围几圈，而我们这的padding讲的是加几行/几列。

## Stride - 步幅

默认情况下，stride=(1,1)， 即每次移动kernel在高上移动一格，在宽上移动一格。下图中展示了，stride=(3,2)的步幅移动形式

<img src="img/class6_2.2.svg" style="zoom:100%">

所以当stride = $(s_h, s_w)$ 时。则output_shape = $((n_h - k_h + p_h + s_h)/s_h, (n_w - k_w + p_h + s_w)/s_w)$ (若上述式子中计算出来为小数，则对该数进行int()，即忽略小数位，只取整数位)

## 例子

In [203]:
# 生成X

X = tf.Variable(tf.ones((6,8)))
X[:, 2:6].assign(tf.zeros(X[:, 2:6].shape))
X = tf.reshape(X, (1,6,8,1))

In [202]:
# h = int((6 - 3 + 0 + 3) / 3) = 2
# w = int((5 - 4 + 0 + 4) / 4) = 1
# 当使用padding='valid'的时候，默认p_h = 0 , p_w = 0

conv2d = tf.keras.layers.Conv2D(filters=1,         # filters的数量
                                kernel_size=(3,5), # kernel的shape
                                padding='valid',   # padding的方式
                                strides=(3,4))     # stride的shape
conv2d(X).shape

TensorShape([1, 2, 1, 1])

In [204]:
# h = int((6 - 3 + 3 - 1 + 3) / 3) = 2
# w = int((5 - 4 + 5 - 1 + 4) / 4) = 2
# 当使用padding='same'的时候，默认p_h = k_h -1 , p_w = k_w - 1

conv2d = tf.keras.layers.Conv2D(filters=1,         # filters的数量
                                kernel_size=(3,5), # kernel的shape
                                padding='same',    # padding的方式
                                strides=(3,4))     # stride的shape
conv2d(X).shape

TensorShape([1, 2, 2, 1])

In [205]:
# 如果strides过大，就只会对第一个感受野做卷积计算。

conv2d = tf.keras.layers.Conv2D(filters=1,         # filters的数量
                                kernel_size=(3,5), # kernel的shape
                                padding='valid',    # padding的方式
                                strides=(10,10))     # stride的shape
conv2d(X).shape

TensorShape([1, 1, 1, 1])

# 多输入通道和多输出通道

前面两节里我们用到的输入和输出都是二维数组，但真实数据的维度经常更高。例如，彩色图像在高和宽2个维度外还有RGB（红、绿、蓝）3个颜色通道。假设彩色图像的高和宽分别是$h$和$w$（像素），那么它可以表示为一个$3\times h\times w$的多维数组。我们将大小为3的这一维称为通道（channel）维。本节我们将介绍含多个输入通道或多个输出通道的卷积核。

In [None]:
def corr2d(X, K):
    h, w = K.shape
    if len(X.shape) <= 1:
        X = tf.reshape(X, (X.shape[0],1))
    Y = tf.Variable(tf.zeros((X.shape[0] - h + 1, X.shape[1] - w +1)))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i,j].assign(tf.cast(tf.reduce_sum(X[i:i+h, j:j+w] * K), dtype=tf.float32))
    return Y

## 多通道输入

当输入数据含多个通道, 我们需要构造一个输入通道数与输入数据的通道数相同的卷积核, 这样才能做合适的计算.

假设输入数据的通道数为$c_i$，那么卷积核的输入通道数同样为$c_i$。那么第i个通道的输入数据会与第i个通道的卷积核进行卷积计算，然后我们会获得i个shape相同的输出，将这i个输出做元素上的加法,获得最终的输出。具体入下图案例

<img src="img/class6_3.1.svg" style="zoom:100%">

In [211]:
# 对每个通道进行互相关运算，然后进行累加

def corr2d_multi_in(X, K):
    return tf.reduce_sum([corr2d(X[i], K[i]) for i in range(X.shape[0])],axis=0)

X = tf.constant([[[0,1,2],[3,4,5],[6,7,8]],
                 [[1,2,3],[4,5,6],[7,8,9]]])
K = tf.constant([[[0,1],[2,3]],
                 [[1,2],[3,4]]])

corr2d_multi_in(X, K)

<tf.Tensor: shape=(2, 2), dtype=float32, numpy=
array([[ 56.,  72.],
       [104., 120.]], dtype=float32)>

## 多通道输出

当输入通道有多个时，因为我们对各个通道的结果做了累加，所以不论输入通道数是多少，输出通道数总是为1。设卷积核输入通道数和输出通道数分别为$c_i$和$c_o$，高和宽分别为$k_h$和$k_w$。如果希望得到含多个通道的输出，我们可以为每个输出通道分别创建形状为$c_i\times k_h\times k_w$的核数组。将它们在输出通道维上连结，卷积核的形状即$c_o\times c_i\times k_h\times k_w$。在做互相关运算时，每个输出通道上的结果由卷积核在该输出通道上的核数组与整个输入数组计算而来。

即一个filters只能产生一个output，那么使用多个filters之后，再对其结果进行堆叠，则输出有多个channel。

<img src="img/class6_3.2.PNG" style="zoom:60%">

In [215]:
def corr2d_multi_in_out(X, K):
    return tf.stack([corr2d_multi_in(X, k) for k in K],axis=0)

X = tf.constant([[[0,1,2],[3,4,5],[6,7,8]],
                 [[1,2,3],[4,5,6],[7,8,9]]])
K = tf.constant([[[0,1],[2,3]],
                 [[1,2],[3,4]]])
K = tf.stack([K, K+1, K+2],axis=0)

corr2d_multi_in_out(X, K)

<tf.Tensor: shape=(3, 2, 2), dtype=float32, numpy=
array([[[ 56.,  72.],
        [104., 120.]],

       [[ 76., 100.],
        [148., 172.]],

       [[ 96., 128.],
        [192., 224.]]], dtype=float32)>

## 1x1 convlution

最后我们讨论卷积窗口形状为$1\times 1$（$k_h=k_w=1$）的多通道卷积层。我们通常称之为$1\times 1$卷积层，并将其中的卷积运算称为$1\times 1$卷积。因为使用了最小窗口，$1\times 1$卷积失去了卷积层可以识别高和宽维度上相邻元素构成的模式的功能。实际上，$1\times 1$卷积的主要计算发生在通道维上。下图展示了使用输入通道数为3、输出通道数为2的$1\times 1$卷积核的互相关计算。值得注意的是，**输入和输出具有相同的高和宽**。输出中的每个元素来自输入中在高和宽上相同位置的元素在不同通道之间的按权重累加。假设我们将通道维当作特征维，将高和宽维度上的元素当成数据样本，那么$1\times 1$**卷积层的作用与全连接层等价**。

**所以$1\times 1$卷积层通常用来调整网络层之间的通道数，并控制模型复杂度**

<img src="img/class6_3.3.svg" style="zoom:100%">

In [218]:
def corr2d_multi_in_out_1x1(X, K):
    c_i, h, w = X.shape
    c_o = K.shape[0]
    X = tf.reshape(X,(c_i, h * w))
    K = tf.reshape(K,(c_o, c_i))
    Y = tf.matmul(K, X)
    return tf.reshape(Y, (c_o, h, w))

In [219]:
X = tf.random.uniform((3,3,3))
K = tf.random.uniform((2,3,1,1))

Y1 = corr2d_multi_in_out_1x1(X, K)
Y2 = corr2d_multi_in_out(X, K)

tf.norm(Y1-Y2) < 1e-6

<tf.Tensor: shape=(), dtype=bool, numpy=True>

# 池化层

在1.3的边缘检测中，我们通过构造卷积核从而精确的找到了像素变化的位置。设任意二维数组`X`的`i`行`j`列的元素为`X[i, j]`。如果我们构造的卷积核输出`Y[i, j]=1`，那么说明输入中`X[i, j]`和`X[i, j+1]`数值不一样。这可能意味着物体边缘通过这两个元素之间。但实际图像里，我们感兴趣的物体不会总出现在固定位置：即使我们连续拍摄同一个物体也极有可能出现像素位置上的偏移。这会导致同一个边缘对应的输出可能出现在卷积输出`Y`中的不同位置，进而对后面的模式识别造成不便。

在本节中我们介绍池化（pooling）层，它的提出是为了缓解卷积层对位置的过度敏感性。

## 2D MaxPooling and AvgPooling

同卷积层一样，池化层每次对输入数据的一个固定形状窗口（又称池化窗口）中的元素计算输出。不同于卷积层里计算输入和核的互相关性，池化层直接计算池化窗口内元素的最大值或者平均值。该运算也分别叫做最大池化或平均池化。在二维最大池化中，池化窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动。当池化窗口滑动到某一位置时，窗口中的输入子数组的最大值即输出数组中相应位置的元素。

下图中展示了最大池化层的运作原理，即取出阴影范围内的最大值。平均池化层的原理类似，只不过是求阴影部分的平均值，不再赘述。

<img src="img/class6_4.1.svg" style="zoom:100%">

In [220]:
# 构造池化层
def pool2d(X, pool_size, mode='max'):
    p_h, p_w = pool_size
    Y = tf.zeros((X.shape[0] - p_h + 1, X.shape[1] - p_w +1))
    Y = tf.Variable(Y)
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            if mode == 'max':
                Y[i,j].assign(tf.reduce_max(X[i:i+p_h, j:j+p_w]))
            elif mode =='avg':
                Y[i,j].assign(tf.reduce_mean(X[i:i+p_h, j:j+p_w]))
    return Y

# 尝试池化层
X = tf.constant([[0,1,2],[3,4,5],[6,7,8]],dtype=tf.float32)
pool2d(X, (2,2))

<tf.Variable 'Variable:0' shape=(2, 2) dtype=float32, numpy=
array([[4., 5.],
       [7., 8.]], dtype=float32)>

## Padding and Stride

同卷积层一样，池化层可以在输入的高和宽的两侧填充并调整移动步幅来改变输出形状。其工作原理与卷积层的padding还有stride一致。

In [382]:
# 因为tf中，默认数据类型为'channels_last', 所以最后一位数为channels的数量
# 即 (batch_size, rows, cols, channels)

X = tf.reshape(tf.constant(range(16)), (1,4,4,1))
X

<tf.Tensor: shape=(1, 4, 4, 1), dtype=int32, numpy=
array([[[[ 0],
         [ 1],
         [ 2],
         [ 3]],

        [[ 4],
         [ 5],
         [ 6],
         [ 7]],

        [[ 8],
         [ 9],
         [10],
         [11]],

        [[12],
         [13],
         [14],
         [15]]]], dtype=int32)>

In [230]:
# 默认情况下，`MaxPool2D`的stride与pool_size相同，所以下例中，获得了1x1的输出

pool2d = tf.keras.layers.MaxPool2D(pool_size=[3,3])
pool2d(X)

<tf.Tensor: shape=(1, 1, 1, 1), dtype=int32, numpy=array([[[[10]]]], dtype=int32)>

In [384]:
# 人工指定strides=(2,1)。即高上一次挪动两格，宽上一次移动一格

pool2d = tf.keras.layers.MaxPool2D(pool_size=[3,3],
                                   strides=[2,1])
pool2d(X)

<tf.Tensor: shape=(1, 1, 2, 1), dtype=int32, numpy=
array([[[[10],
         [11]]]], dtype=int32)>

In [320]:
# 人工指定padding='same', 在这个例子上即padding=3-1=2层
# 人工指定strides=2, 即高和宽上每次都挪动2格
# "SAME" tries to pad evenly left and right, but if the amount of columns to be added is odd, 
# it will add the extra column to the right, as is the case in this example 
# (the same logic applies vertically: there may be an extra row of zeros at the bottom).
# ？？？？？？上述仍然不能解释其结果，因为其实left和right是evenly的


pool2d = tf.keras.layers.MaxPool2D(pool_size=[3,3],
                                   padding='same',
                                   strides=2)
pool2d(X)

<tf.Tensor: shape=(1, 2, 2, 1), dtype=int32, numpy=
array([[[[10],
         [11]],

        [[14],
         [15]]]], dtype=int32)>

## multi-channels

在处理多通道输入数据时，池化层对每个输入通道分别池化，而不是像卷积层那样将各通道的输入按通道相加。这意味着**池化层的输出通道数与输入通道数相等**。下面将数组X和X+1在通道维上连结来构造通道数为2的输入。

In [390]:
X = tf.reshape(tf.constant(range(16)), (1,4,4,1))
X = tf.stack([X, X+1], axis=3)
X = tf.reshape(X, (1,4,4,2)) # batch_size*row*col*channel

# stride's shape default same as the pool_size
pool2d = tf.keras.layers.MaxPool2D(pool_size=(3,3), 
                                   padding='valid',
                                   strides=1,
                                   data_format='channels_last')
pool2d(X)

<tf.Tensor: shape=(1, 2, 2, 2), dtype=int32, numpy=
array([[[[10, 11],
         [11, 12]],

        [[14, 15],
         [15, 16]]]], dtype=int32)>

# 重点总结

1. 卷积层用于提取图像的特征细节，如edge detection
2. 池化层用于缓解卷积层对图片过度敏感或者位置平移(例如某一个物体在图片中的位置发生了变化，卷积层就会识别成完全不同的东西)

1. 卷积层/池化层的输出shape = $int((input\_shape - kernel\_shape + padding\_shape + strides\_shape)/strides\_shape)$; padding为same的时候, padding_shape=kernel_shape-1
2. 卷积层在channels的shape必须与输入在channels的shape一致，它采取了channel层级相同的输入层和卷积层进行卷积计算，全部channel计算完后，在元素上进行相加，最后输出一个channel的结果。
3. 卷积层有多个filters，则输出有多个channels。若只有一个卷积，则只输出一个channels。
4. 池化层会对所有的channels做一次池化。即每一层级的channels都会和池化层做一次计算，然后输出。输入有多少个channels，输出就有多少个channels。
5. 在tf中，池化的strides默认与pool_size一致。(如tf.keras.layers.MaxPool2D等)