## 卷积神经网络
- convolutional neural network
- 含有卷积层（convolutional layer）的神经网络
### 二维卷积层
- 有高和宽两个空间维度，常用来处理图像数据
- 通常在卷积层中使用更加直观的互相关（cross-correlation）运算
- 二维互相关（cross-correlation）运算:一个二维输入数组和一个二维核（kernel）数组通过互相关运算输出一个二维数组
- ![二维互相关运算](https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/img/chapter05/5.1_correlation.svg)
- 输入中阴影部分的四个元素是输出中阴影部分元素的感受野
- 可见，我们可以通过更深的卷积神经网络使特征图中单个元素的感受野变得更加广阔，从而捕捉输入上更大尺寸的特征

In [4]:
import tensorflow as tf

In [5]:
# 实现二维互相关
# 输入数组X与核数组K，并输出数组Y
def corr2d(X, K):
    h, w = K.shape
    Y = tf.Variable(tf.zeros((X.shape[0] - h + 1, X.shape[1] - w +1)))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i,j].assign(tf.cast(tf.reduce_sum(X[i:i+h, j:j+w] * K), dtype=tf.float32))
    return Y


In [7]:
X = tf.constant([[0,1,2], [3,4,5], [6,7,8]])
K = tf.constant([[0,1], [2,3]])
corr2d(X, K)

<tf.Variable 'Variable:0' shape=(2, 2) dtype=float32, numpy=
array([[19., 25.],
       [37., 43.]], dtype=float32)>

In [8]:
# 基于corr2d函数来实现一个自定义的二维卷积层
class Conv2D(tf.keras.layers.Layer):
    def __init__(self, units):
        super().__init__()
        self.units = units

    def build(self, kernel_size):
        self.w = self.add_weight(name='w',
                                shape=kernel_size,
                                initializer=tf.random_normal_initializer())
        self.b = self.add_weight(name='b',
                                shape=(1,),
                                initializer=tf.random_normal_initializer())
    def call(self, inputs):
        return corr2d(inputs, self.w) + self.b


In [9]:
# 图像中物体边缘检测：检测图像中物体的边缘，即找到像素变化的位置。
X = tf.Variable(tf.ones((6,8)))
X[:, 2:6].assign(tf.zeros(X[:,2:6].shape))
X

<tf.Variable 'Variable:0' shape=(6, 8) dtype=float32, numpy=
array([[1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.],
       [1., 1., 0., 0., 0., 0., 1., 1.]], dtype=float32)>

In [10]:
# 构造一个高和宽分别为1和2的卷积核K
K = tf.constant([[1,-1]], dtype = tf.float32)

In [14]:
K.shape,K

(TensorShape([1, 2]),
 <tf.Tensor: shape=(1, 2), dtype=float32, numpy=array([[ 1., -1.]], dtype=float32)>)

In [15]:
Y = corr2d(X, K)
Y

<tf.Variable 'Variable:0' shape=(6, 7) dtype=float32, numpy=
array([[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
       [ 0.,  1.,  0.,  0.,  0., -1.,  0.]], dtype=float32)>

In [16]:
# 通过数据学习核数组
# 二维卷积层使用4维输入输出，格式为(样本, 高, 宽, 通道)，这里批量大小（批量中的样本数）和通道数均为1
X = tf.reshape(X, (1,6,8,1))
Y = tf.reshape(Y, (1,6,7,1))
Y

<tf.Tensor: shape=(1, 6, 7, 1), dtype=float32, numpy=
array([[[[ 0.],
         [ 1.],
         [ 0.],
         [ 0.],
         [ 0.],
         [-1.],
         [ 0.]],

        [[ 0.],
         [ 1.],
         [ 0.],
         [ 0.],
         [ 0.],
         [-1.],
         [ 0.]],

        [[ 0.],
         [ 1.],
         [ 0.],
         [ 0.],
         [ 0.],
         [-1.],
         [ 0.]],

        [[ 0.],
         [ 1.],
         [ 0.],
         [ 0.],
         [ 0.],
         [-1.],
         [ 0.]],

        [[ 0.],
         [ 1.],
         [ 0.],
         [ 0.],
         [ 0.],
         [-1.],
         [ 0.]],

        [[ 0.],
         [ 1.],
         [ 0.],
         [ 0.],
         [ 0.],
         [-1.],
         [ 0.]]]], dtype=float32)>

In [17]:
# 构造一个输出通道数为1（将在“多输入通道和多输出通道”一节介绍通道），核数组形状是(1, 2)的二维卷积层
conv2d = tf.keras.layers.Conv2D(1, (1,2))

In [18]:
#input_shape = (samples, rows, cols, channels)
# Y = conv2d(X)
Y.shape

TensorShape([1, 6, 7, 1])

In [22]:
Y_hat = conv2d(X)
for i in range(10):
    with tf.GradientTape(watch_accessed_variables=False) as g:
        g.watch(conv2d.weights[0])
        Y_hat = conv2d(X)
        l = (abs(Y_hat - Y)) ** 2
        dl = g.gradient(l, conv2d.weights[0])
        lr = 3e-2
        update = tf.multiply(lr, dl)
        updated_weights = conv2d.get_weights()
        updated_weights[0] = conv2d.weights[0] - update
        conv2d.set_weights(updated_weights)  

        if (i + 1)% 2 == 0:
            print('batch %d, loss %.3f' % (i + 1, tf.reduce_sum(l)))


batch 2, loss 0.000
batch 4, loss 0.000
batch 6, loss 0.000
batch 8, loss 0.000
batch 10, loss 0.000


In [23]:
tf.reshape(conv2d.get_weights()[0],(1,2))

<tf.Tensor: shape=(1, 2), dtype=float32, numpy=array([[ 0.9999567, -1.0000432]], dtype=float32)>

### 填充和步幅
- 卷积层的两个超参数，即填充和步幅
- 它们可以对给定形状的输入和卷积核改变输出形状
#### 1. 填充（padding）:可以增加输出的高和宽。这常用来使输出与输入具有相同的高和宽。
- 是指在输入高和宽的两侧填充元素（通常是0元素）
- ![ 在输入的高和宽两侧分别填充了0元素的二维互相关计算](https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/img/chapter05/5.2_conv_pad.svg)
- 卷积神经网络经常使用奇数高宽的卷积核，如1、3、5和7，所以两端上的填充个数相等。
- 当两端上的填充个数相等，并使输入和输出具有相同的高和宽时，我们就知道输出Y[i,j]是由输入以X[i,j]为中心的窗口同卷积核进行互相关计算得到的。

In [24]:
# 创建一个高和宽为3的二维卷积层，然后设输入高和宽两侧的填充数分别为1
def comp_conv2d(conv2d, X):
    X = tf.reshape(X,(1,) + X.shape + (1,))
    Y = conv2d(X)
    #input_shape = (samples, rows, cols, channels)
    return tf.reshape(Y,Y.shape[1:3])

In [25]:
conv2d = tf.keras.layers.Conv2D(1, kernel_size=3, padding='same')

In [28]:
# 给定一个高和宽为8的输入，我们发现输出的高和宽也是8。
X = tf.random.uniform(shape=(8,8))
comp_conv2d(conv2d,X).shape

TensorShape([8, 8])

#### 2. 步幅：可以减小输出的高和宽，例如输出的高和宽仅为输入的高和宽的1/n1/n（nn为大于1的整数）
- 卷积窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动
- 将每次滑动的行数和列数称为步幅（stride）

In [32]:
# 令高和宽上的步幅均为2，从而使输入的高和宽减半
conv2d = tf.keras.layers.Conv2D(1, kernel_size=3, padding='same',strides=2)
comp_conv2d(conv2d, X).shape


TensorShape([4, 4])

In [33]:
conv2d = tf.keras.layers.Conv2D(1, kernel_size=(3,5), padding='valid', strides=(3,4))
comp_conv2d(conv2d, X).shape


TensorShape([2, 1])