### 多输入通道和多输出通道
- 真实数据的维度更高
- 例如，彩色图像在高和宽2个维度外还有RGB（红、绿、蓝）3个颜色通道。

In [2]:
import tensorflow as tf
import numpy as np
print(tf.__version__)


2.13.0


In [3]:
def corr2d(X, K):
    h, w = K.shape
    if len(X.shape) <= 1:
        X = tf.reshape(X, (X.shape[0],1))
    Y = tf.Variable(tf.zeros((X.shape[0] - h + 1, X.shape[1] - w +1)))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i,j].assign(tf.cast(tf.reduce_sum(X[i:i+h, j:j+w] * K), dtype=tf.float32))
    return Y

#### 1. 多输入通道
- 当输入数据含多个通道时，我们需要构造一个输入通道数与输入数据的通道数相同的卷积核，从而能够与含多通道的输入数据做互相关运算。
- ![含2个输入通道的二维互相关计算](https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/img/chapter05/5.3_conv_multi_in.svg)

In [4]:
# 实现含多个输入通道的互相关运算
# 只需要对每个通道做互相关运算，然后进行累加
def corr2d_multi_in(X, K):
    return tf.reduce_sum([corr2d(X[i], K[i]) for i in range(X.shape[0])],axis=0)

In [7]:
# 输入
X = tf.constant([[[0,1,2],[3,4,5],[6,7,8]],
                 [[1,2,3],[4,5,6],[7,8,9]]])
# 核
K = tf.constant([[[0,1],[2,3]],
                 [[1,2],[3,4]]])

corr2d_multi_in(X, K)

<tf.Tensor: shape=(2, 2), dtype=float32, numpy=
array([[ 56.,  72.],
       [104., 120.]], dtype=float32)>

#### 2. 多输出通道$c_0$
- 当输入通道有多个时，因为我们对各个通道的结果做了累加，所以不论输入通道数是多少，输出通道数总是为1
- 如果希望得到含多个通道的输出，我们可以为每个输出通道分别创建形状为$(c_i, k_h, k_w)$的核数组
- 将它们在输出通道的维度上连结，卷积核的形状即$(c_0,c_i, k_h, k_w)$
- 互相关运算时，每个输出通道上的结果由卷积核在该输出通道上的核数组与整个输入数组计算而来

In [9]:
# 实现一个互相关运算函数来计算多个通道的输出
def corr2d_multi_in_out(X, K):
    # 对K的第0维遍历，每次同输入X做互相关计算。所有结果使用stack函数合并在一起
    return tf.stack([corr2d_multi_in(X, k) for k in K],axis=0)

In [10]:
# 将核数组K同K+1（K中每个元素加一）和K+2连结在一起来构造一个输出通道数为3的卷积核
K = tf.stack([K, K+1, K+2],axis=0)
K.shape

TensorShape([3, 2, 2, 2])

In [11]:
K

<tf.Tensor: shape=(3, 2, 2, 2), dtype=int32, numpy=
array([[[[0, 1],
         [2, 3]],

        [[1, 2],
         [3, 4]]],


       [[[1, 2],
         [3, 4]],

        [[2, 3],
         [4, 5]]],


       [[[2, 3],
         [4, 5]],

        [[3, 4],
         [5, 6]]]], dtype=int32)>

In [12]:
corr2d_multi_in_out(X, K)

<tf.Tensor: shape=(3, 2, 2), dtype=float32, numpy=
array([[[ 56.,  72.],
        [104., 120.]],

       [[ 76., 100.],
        [148., 172.]],

       [[ 96., 128.],
        [192., 224.]]], dtype=float32)>

#### 3. 1x1 卷积层
- 多通道可以拓展卷积层的模型参数
- 1×1卷积层通常用来调整网络层之间的通道数，并控制模型复杂度
- 主要计算发生在通道维上;
- 输入和输出具有相同的高和宽
- 输出中的每个元素来自输入中在高和宽上相同位置的元素在不同通道之间的按权重累加
- 假设我们将通道维当作特征维，将高和宽维度上的元素当成数据样本,那么1x1 卷积层的作用与全连接层等价
- ![](https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/img/chapter05/5.3_conv_1x1.svg))

In [14]:
# 使用全连接层中的矩阵乘法来实现1×1卷积
def corr2d_multi_in_out_1x1(X, K):
    c_i, h, w = X.shape
    c_o = K.shape[0]
    X = tf.reshape(X,(c_i, h * w))
    K = tf.reshape(K,(c_o, c_i))
    Y = tf.matmul(K, X)
    return tf.reshape(Y, (c_o, h, w))


In [15]:
X = tf.random.uniform((3,3,3))
K = tf.random.uniform((2,3,1,1))

In [16]:
Y1 = corr2d_multi_in_out_1x1(X, K)
Y2 = corr2d_multi_in_out(X, K)

In [17]:
tf.norm(Y1-Y2) < 1e-6

<tf.Tensor: shape=(), dtype=bool, numpy=True>

### 池化（pooling）层
- 为了缓解卷积层对位置的过度敏感性
- 同卷积层一样，池化层每次对输入数据的一个固定形状窗口（又称池化窗口）中的元素计算输出
- 不同于卷积层里计算输入和核的互相关性，池化层直接计算池化窗口内元素的最大值或者平均值(最大池化或平均池化)
#### 二维最大池化
- ![ 池化窗口形状为2×2
的最大池化](https://trickygo.github.io/Dive-into-DL-TensorFlow2.0/img/chapter05/5.4_pooling.svg)
- 在二维最大池化中，池化窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动;
- 当池化窗口滑动到某一位置时，窗口中的输入子数组的最大值即输出数组中相应位置的元素
#### 二维平均池化
- 工作原理与二维最大池化类似，但将最大运算符替换成平均运算符。 

In [19]:
# 把池化层的前向计算实现在pool2d函数里
def pool2d(X, pool_size, mode='max'):
    p_h, p_w = pool_size
    Y = tf.zeros((X.shape[0] - p_h + 1, X.shape[1] - p_w +1))
    Y = tf.Variable(Y)
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            if mode == 'max':
                Y[i,j].assign(tf.reduce_max(X[i:i+p_h, j:j+p_w]))
            elif mode =='avg':
                Y[i,j].assign(tf.reduce_mean(X[i:i+p_h, j:j+p_w]))
    return Y


In [20]:
# 验证二维最大池化层的输出
X = tf.constant([[0,1,2],[3,4,5],[6,7,8]],dtype=tf.float32)
pool2d(X, (2,2))

<tf.Variable 'Variable:0' shape=(2, 2) dtype=float32, numpy=
array([[4., 5.],
       [7., 8.]], dtype=float32)>

In [21]:
# 实验二维平均池化层的输出
pool2d(X, (2,2), 'avg')

<tf.Variable 'Variable:0' shape=(2, 2) dtype=float32, numpy=
array([[2., 3.],
       [5., 6.]], dtype=float32)>

#### 填充和步幅 

In [26]:
# 池化层填充和步幅与卷积层填充和步幅的工作机制一样
#tensorflow default data_format == 'channels_last'
#so (1,4,4,1) instead of (1,1,4,4)
X = tf.reshape(tf.constant(range(16)), (1,4,4,1))
X

<tf.Tensor: shape=(1, 4, 4, 1), dtype=int32, numpy=
array([[[[ 0],
         [ 1],
         [ 2],
         [ 3]],

        [[ 4],
         [ 5],
         [ 6],
         [ 7]],

        [[ 8],
         [ 9],
         [10],
         [11]],

        [[12],
         [13],
         [14],
         [15]]]], dtype=int32)>

In [27]:
# 默认情况下，MaxPool2D实例里步幅和池化窗口形状相同
pool2d = tf.keras.layers.MaxPool2D(pool_size=[3,3])
pool2d(X)


<tf.Tensor: shape=(1, 1, 1, 1), dtype=int32, numpy=array([[[[10]]]], dtype=int32)>

In [28]:
# tensorflow 中 padding 有 same 和 valid 两种， same 会在窗口大小不满足时填充0，valid 会舍弃即不填充
# one of "valid" or "same" (case-insensitive). "valid" means no padding. "same" results in padding evenly to the left/right or up/down of the input such that output has the same height/width dimension as the input

pool2d = tf.keras.layers.MaxPool2D(pool_size=[3,3],padding='same',strides=2)
pool2d(X)


<tf.Tensor: shape=(1, 2, 2, 1), dtype=int32, numpy=
array([[[[10],
         [11]],

        [[14],
         [15]]]], dtype=int32)>

#### 多通道

In [31]:
# 处理多通道输入数据时，池化层对每个输入通道分别池化，
# 而不是像卷积层那样将各通道的输入按通道相加
# 意味着池化层的输出通道数与输入通道数相等。
X = tf.concat([X, X+1], axis=3)
X.shape


TensorShape([1, 4, 4, 2])

In [32]:
pool2d = tf.keras.layers.MaxPool2D(3, padding='same', strides=2)
pool2d(X)


<tf.Tensor: shape=(1, 2, 2, 2), dtype=int32, numpy=
array([[[[10, 11],
         [11, 12]],

        [[14, 15],
         [15, 16]]]], dtype=int32)>