参考 https://www.bilibili.com/video/BV13U4y1K7op/?spm_id_from=pageDriver
掌握：
+ 卷积
    + 普通卷积：包括步长、pad 的计算方式
    + 多批次+多通道卷积：即输入特征图核卷积核均为四维的卷积
    + kernel 展开的计算方式
    + input展开的计算方式
+ 转置卷积
    + 通过对kernel展开的卷积计算，进一步到转置卷积的计算
+ 膨胀卷积

In [2]:
import numpy as np

## 简单二维卷积

In [3]:
def conv2d(X, K):
    k_h, k_w = K.shape
    x_h, x_w = X.shape
    y_h, y_w = x_h - k_h + 1, x_w - k_w + 1
    Y = np.zeros((y_h, y_w))

    for i in range(0, y_h):
        for j in range(0, y_w):
            # 这里是逐元素相乘
            region = X[i:i+k_h, j:j+k_w]
            Y[i, j] = np.sum(region * K)

    return Y

## 考虑步长、填充

+ padding 之后的运算就和普通的运算一样了，此时只需要考虑步长
+ 卷积的时候，每次选择的区域ragein一定是和 卷积核大小相同的，毕竟是诸葛元素相乘
+ bais：一个卷积核一个偏置，

In [62]:
# 不考虑batchsize 和 kernel 维度考虑 填充和步长
def conv2d(X, K, bias=0, stride=1, padding=(0, 0)):
    if padding[0] > 0 or padding[1] > 0:
        X = np.pad(array = X, pad_width=padding, mode = "constant", constant_values=0)
    
    # padding 完之后， X就变了，所以后面的代码完全不用修改，包括输出高宽都不用改
    x_h, x_w = X.shape
    k_h, k_w = K.shape
    
    # 卷积输出的 高度和宽度
    y_h = (x_h - k_h) // stride + 1
    y_w = (x_w - k_w) // stride + 1
    
    Y =np.zeros((y_h, y_w))
    
    for i in range(0, x_h - k_h + 1, stride):
        for j in range(0, x_w - k_w + 1, stride):
            # 取出被核 滑到的区域 ，这一块区域肯定是和 核 大小相同的
            region = X[i:i+k_h, j:j+k_w]
            # 点乘，并赋给 输出位置的元素
            Y[int(i // stride)][int(j // stride)] = np.sum(region * K) + bias
            
    return Y

In [64]:
# 测试
X = np.random.randint(-10, 10, (5, 5))
K = np.random.randint(-2, 2, (3, 3))
conv2d(X, K, bias=1, stride=2, padding=(1, 1))

array([[-24.,  13.,   8.],
       [ -8.,  30.,  12.],
       [ -8.,  23.,  -2.]])

## 内积角度: input展开

对如下卷积，每次卷积核核卷积区域做逐元素相乘再相加。换一种角度，可以理解为：把卷积区域拉平为行向量，把卷积核拉平为列向量，然后求内积，内积结果即为输出！

![image.png](attachment:e196df0b-8d3a-4856-93e1-dd1e8edd0a81.png)

再进一步，对于如下完整的卷积操作，可以看作是一个 9行9列的矩阵 和 一个 维度为9的列向量相乘，然后再reshape
![image.png](attachment:6d3e5de8-a7a8-4633-b22a-a8895bfe686d.png )

In [67]:
def conv2d_input_flatten(X, K, bias=0, stride=1, padding=(0, 0)):
    if padding[0] > 0 or padding[1] > 0:
        X = np.pad(array = X, pad_width=padding, mode = "constant", constant_values=0)
    
    # padding 完之后， X就变了，所以后面的代码完全不用修改，包括输出高宽都不用改
    x_h, x_w = X.shape
    k_h, k_w = K.shape
    
    # 卷积输出的 高度和宽度
    y_h = (x_h - k_h) // stride + 1
    y_w = (x_w - k_w) // stride + 1
    
    # 存储着特征区域
    # 行是 最后又几个结果, 一行表示一个结果
    # 列是 要和 核维度相同
    region_matrix = np.zeros((y_h*y_w, k_h*k_w))
    
    kernel_matrix = K.reshape(k_h*k_w, 1)
    
    # 一行代表一个卷积区域，row_index 指当前的卷积区域
    row_index = 0
    for i in range(0, x_h - k_h + 1, stride):
        for j in range(0, x_w - k_w + 1, stride):
            # 取出被核滑到的区域 ，即特征区域
            region = X[i:i+k_h, j:j+k_w]
            region_vector = region.flatten() # 拉平
            region_matrix[row_index]  = region_vector # 第 i + j 个输出
            row_index += 1
            
    Y = region_matrix @ kernel_matrix
    Y = Y.reshape(y_h, y_w) + bias
    return Y

In [69]:
conv2d_input_flatten(X, K, bias=1, stride=2, padding=(1, 1))

array([[ 16.,  10.,  17.],
       [ -1.,  10.,  -6.],
       [  6.,  -8., -12.]])

## 内积角度：对Kernel展开，顺便可以推导转置卷积

In [65]:
# 通过对kernel 展开实现二维卷积
def get_kernel_matrix(K, input_size):
    # 基于 kernel 和输入特征图的大小，得到填充拉直后的kernel堆叠的矩阵
    # 每一行都是一个kernel，即每一行都代表着做一次卷积
    x_h, x_w = input_size
    k_h, k_w = K.shape
    
    y_h = x_h - k_h + 1
    y_w = x_w - k_w + 1
    # 初始化结果矩阵： 输出特征图元素个数 * 输入特征图元素个数
    idx = 0
    result = np.zeros((y_h*y_w, x_h*x_w))
    for i in range(0, x_h-k_h+1):
        for j in range(0, x_w-k_w+1):
            padded_kernel = np.pad(K, 
                                   ((i, x_h-k_h-i),(j, x_w-k_w-j)), 
                                   'constant',
                                    constant_values=0)
            result[idx] = padded_kernel.flatten()
            idx += 1
            
    return result

def conv2d_kernel_flatten(X, K, bias):
    x_h, x_w = X.shape
    k_h, k_w = K.shape
    
    y_h = x_h - k_h + 1
    y_w = x_w - k_w + 1
    kernel_matrix = get_kernel_matrix(K, (x_h, x_w))
    y = kernel_matrix @ X.reshape(-1, 1) + bias
    
    y = y.reshape(y_h, y_w)
    return y

In [72]:
# 测试
X = np.random.randint(-10, 10, (5, 5))
K = np.random.randint(-2, 2, (3, 3))
y = conv2d_kernel_flatten(X, K, bias=1)
y

array([[ 13.,  -8.,  15.],
       [ 41.,  -1.,  31.],
       [ 13., -20.,  35.]])

In [75]:
# 为什么上述方式又称为转置卷积呢？
# 是因为将上述 kernel_matrix 转置后与 y 相乘即可得到同输入特征图同样大小的矩阵
X_ = get_kernel_matrix(K, (5,5)).transpose(1, 0) @ y.flatten()
X.shape   # 即又还原出了原输入大小 

(5, 5)

## 批量 + 多通道

In [20]:
def conv2d(X, K, bias, stride=1, padding=0):
    """
    param:
        X: batch_size, x_c, x_h, x_w
        K: k_out, k_in, k_h, k_w
        bias:k_out    
    """
    
    if padding > 0:
        # 注意padding的时候只在高，宽这两个维度进行padding,对batch_size 和 channel 不做padding,然后高有上下，宽有左右。
        X = np.pad(X, 
                   ((0, 0),(0, 0), (padding, padding), (padding, padding)),
                   'constant',
                    constant_values=(0, 0))

    batch_size, in_channel, x_h, x_w = X.shape
    out_channel, in_channel, k_h, k_w = K.shape
    
    y_h = (x_h - k_h) // stride + 1
    y_w = (x_w - k_w) // stride + 1
    
    Y = np.zeros((batch_size, out_channel, y_h, y_w))
    # 下面这个循环从里面看好理解一点
    for bs in range(batch_size):
        for oc in range(out_channel):
            Y[bs, oc] += bias[oc]
            # 选择 当前卷积区域
            for ic in range(in_channel):
                for i in range(0, x_h - k_h + 1, stride):
                    for j in range(0, x_w - k_w + 1, stride):
                        region = X[bs, ic, i:i+k_h, j:j+k_w]
                        Y[bs, oc, int(i//stride), int(j//stride)] += np.sum(region * K[oc, ic])
                        
    return Y

In [27]:
# test
import torch
X = np.random.randn(2, 2, 5, 5)
K = np.random.randn(3, 2, 3, 3)
bias = np.random.randn(3)

pt_y =  torch.nn.functional.conv2d(input=torch.from_numpy(X), weight=torch.from_numpy(K), bias=torch.from_numpy(bias), padding=1, stride=2)
my_y = conv2d(X, K, bias, padding=1, stride=2)

np.allclose(pt_y.numpy(), my_y)

True

## 转置卷积

In [None]:
把卷积每一步看作是 5 * 5 的卷积核 和 5 * 5 的 X 进行内积操作，即每一步把 卷积核 扩为 5 * 5的矩阵。



## 池化

In [None]:
def pool2d(X, pool_size, mode='max'):
    
    p_h, p_w = pool_size
    Y = np.zeros((X.shape[0] - p_h + 1, X.shape[1] - p_w + 1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            if mode == 'max':
                Y[i, j] = X[i: i + p_h, j: j + p_w].max()
            elif mode == 'avg':
                Y[i, j] = X[i: i + p_h, j: j + p_w].mean()
    
    return Y