# 卷积
#### MLP存在的问题
1张12M像素的RGB照片
单层100个神经元，参数达100*12M*3 = 3.6B 约 14G，显然有问题，即使完全记住也不需要这么多
#### 两个原则
- 平移不变性
- 局部性

#### 总结
- 对全连接层使用平移不变性和局部性得到卷积层

# 卷积层
#### 二维交叉相关
- Input Kernel Output，做局部乘积求和
#### 二维卷积层(h w是下标)
- 输入X：nh * nw
- 核W:kh * kw
- 偏差实数b
- 输出Y: （nh-kh+1） * (nw-kw+1)
    Y = X * W + b (这里*表示卷积算子)
- W和b是可学习参数

#### 例子
- 不同算子对应不同结果，如边缘检测、锐化、模糊等

#### 交叉相关 vs 卷积
- 由于对称性，在实际使用中没有区别
- 实际上市二维交叉相关，为了方便没严格按照数学上的卷积来
- 二维交叉相关
![image.png](attachment:image.png)
- 二维卷积
![image-2.png](attachment:image-2.png)

#### 一维和三维交叉相关
- 一维
    - 文本、语言、时序序列
    ![image-3.png](attachment:image-3.png)
- 三维
    - 视频、医学图像、气象地图
    ![image-4.png](attachment:image-4.png)

#### 总结
- 卷积层将输入和核矩阵进行交叉相关，加上偏移后得到输出
- 核矩阵和偏移是可以学习的参数
- 核矩阵的大小是超参数（kernel size）

# 图像卷积
#### 互相关运算

In [6]:
import torch
from torch import nn
# from d2l import torch as d2l

# 手撕卷积
def corr2d(X, K):
    """计算二维互相关运算"""
    h, w = K.shape
    Y = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i,j] = (X[i:i + h, j:j + w] * K).sum()
            
    return Y

In [14]:
# 验证上述二维互相关运算的输出
X = torch.tensor([[0.0, 1.0, 2.0], [3.0, 4.0, 5.0], [6.0, 7.0, 8.0]])
K = torch.tensor([[0.0, 1.0], [2.0, 3.0]])
corr2d(X, K)

tensor([[19., 25.],
        [37., 43.]])

In [16]:
# 手撕卷积层
class Conv2D(nn.Module):
    def __init__(self, kernel_size):
        super().__init__()
        self.weight = nn.Parameter(torch.rand(kernel_size))
        self.bias = nn.Parameter(torch.zeros(1))
        
    def forward(self, x):
        return corr2d(x, self.weight) + self.bias
    

In [17]:
# 卷积的简单应用：检测图像中不同颜色的边缘
X = torch.ones((6, 8))
X[:, 2:6] = 0
X

tensor([[1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.]])

In [19]:
K = torch.tensor([[1, -1.0]])

In [20]:
# 输出Y中的1代表白到黑，-1代表黑到白的边缘 sobel算子
Y = corr2d(X, K)
Y

tensor([[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.]])

In [21]:
# 卷积核K只能检测垂直边缘,无法检测水平边缘
corr2d(X.t(), K)

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

In [22]:
# 学习由X生成Y的卷积核
conv2d = nn.Conv2d(1, 1, kernel_size=(1, 2), bias=False)

X = X.reshape((1, 1, 6, 8))
Y = Y.reshape((1, 1, 6, 7))

for i in range(10):
    Y_hat = conv2d(X)
    l = (Y_hat - Y) ** 2
    conv2d.zero_grad()
    l.sum().backward()
    conv2d.weight.data[:] -= 3e-2 * conv2d.weight.grad
    if(i + 1) % 2 == 0:
        print(f'batch {i+1}, loss {l.sum():.3f}')
    

batch 2, loss 7.789
batch 4, loss 1.352
batch 6, loss 0.245
batch 8, loss 0.049
batch 10, loss 0.011


In [24]:
# 看下学习出来的卷积效果
conv2d.weight.data.reshape((1, 2))

tensor([[ 0.9782, -0.9931]])

# QA
#### 为什么看那么远？感受野不是越大越好嘛？
- 不一定，类似于很浅很宽的全连接层效果往往不如深的窄的全连接效果好，卷积也是，做一个浅的核比较大的，不如网络较深，每层核比较小点的网络，最终的视野是一样的，一般3*3，最多5*5

#### 如何理解卷积是反过来走的？卷积公式里面的负号情况？
- 卷积来源于信号处理，那边FFT那块本来就是反的，DL只是拿过来用的

#### 卷积的核大小体现局部性，计算方式体现平移不变性
#### 模型训练时loss抖动性大？而不是范例原来越小越平滑
- 2个原因，一个是本身数据多样性太大，抖动下降没关系，可以手动平滑或者增加batch，不降就有问题了
- 还有一种，在于学习率设置太大

# 卷积中的填充和步幅
### 填充
- 输入n*m, kernal_size w*w，输出 (n - w + 1) * (n - w + 1)，会快速减少大小，不利于网络加深
- 在输入周围添加额外的行/列（0）
- 填充ph行和pw列(两个字母后面为下标)，输出形状为(nh - kh + ph + 1) * (nw - kw + pw + 1)
- 通常ph=kh-1,pw=kw-1，这样会输入输出维度不变，填充默认填0
    - 当kh为奇数，在上下两侧填充ph/2,大部分情况都是奇数 1*1 3*3 5*5
    - 当kh为偶数，在上侧填充ph/2（向上取整），在下侧填充ph/2（向下取整） 

### 步幅
- 填充减少的输出大小与层数相性相关
    - 给定输入224*224,在使用5*5卷积核的情况下，需要55层才能将输出降低到4*4
    - 需要大量计算才能得到较小输出
- 步幅是指行/列的滑动步长
- 给定高度sh和宽度sw的步幅，输出shape是
    - floor((nh - kh + ph + sh) / sh) * floor((nw - kw + pw + sw) / sw)
- 如果ph = kh - 1，pw = kw - 1 
    - floor((nh + sh - 1) / sh) * floor((nw + sw - 1) / sw)
- 如果输入高度和宽度可以被步幅整除
    - (nh / sh) * (nw / sw)

#### 总结
- 填充和步幅是卷积层的超参数
- 填充在输入周围添额外的行列，来控制输出形状的减少量
- 步幅是每次滑动核窗口的行列的步长，可以成倍减少输出形状

###  代码实现

In [33]:
# 在所有侧边填充1个像素
import torch
from torch import nn

def comp_conv2d(conv2d, X):
    # 此时默认不考虑batch和channel所以前两维为1
    X = X.reshape((1, 1) + X.shape)
    Y = conv2d(X)
    return Y.reshape(Y.shape[2:])

# 注意框架中的padding是单个数的时候，是单边，（1,1）实际总体大 小*2
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
comp_conv2d(conv2d, X).shape
    

torch.Size([8, 8])

In [34]:
# 填充不同的高宽
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

In [36]:
# 将高度和宽度的步幅设为2
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
comp_conv2d(conv2d, X).shape

torch.Size([4, 4])

In [37]:
# 稍微复杂的例子
conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
comp_conv2d(conv2d, X).shape

torch.Size([2, 2])

### QA
#### 关于kernal超参数的重要性排序？核大小、填充、步幅
- 核大小最重要，填充默认，步幅看计算量
- 一般来说padding都是ph-1，没有必要原因，就是为了好算
- 一般也是步幅为1，不选1的时候考虑的点在于计算量太大，不想太深网络减下来，通常取2，每次shape减半，看计算复杂度需求，一般来说比如要构造100层网络，输入224*224，算下需要除几次2，除以5次左右，然后把5个步幅为2的层均匀插在100层网络中

#### 卷积核为什么边长取奇数？
- 可以取偶数，效果差别不大，一般是为了padding的时候奇数好对称，偶数不对称，一般就是3*3
- 也可以kernal取不是方形，如果图片形状很奇怪，很扁很宽等情况，通过不同kernal适应他

#### 为什么步幅和填充这两个超参数实际中不调节？
- 不是不调节，一般情况下这两个是属于网络架构一部分，一般用哪个网络就用那种对应的方式

#### 现在多种经典网络，是自己设计不同核大小还是直接用？
- 理论上可以自己设计，但是大部分情况用经典网络，更直白来说就用Resnet，有18层，34层 50多或者152多层，用那一系列的即可解决大部分问题
- 一般不会手写神经网络，除非你的输入是非常不一样的一种情况，比如输入是20*1000的很扁的图片，经典的结构可能不好用，得改点东西，也可以在Resnet上稍微调节
- 而且很多时候网络结构没有那么重要，一般resnet就够用了，可能数据本身做预处理、训练细节更重要，参照经典结构设计

#### 为什么多用3*3？视野不是很小吗？
- 确实很小，但是很深的时候就很大了，类似金字塔投影，比如三层 3*3，最上面一层的单个元素对应最下面就由3*3感受野变成5*5,（假设此时stride=1）

#### 如何单独设定padding
- 传入tuble即可

#### 有办法进行超参数学习嘛？
- 有的，nas（net architech search），太贵，不建议，而且效果不一定多卓越，一次可能上百万美金
- 或者便宜点，设计大网络，然后其中包含不同模块，最后看激活的路劲，挑出来即可
- 常见情况没必要，直接用经典结构就行， 可能手机端需要nas针对硬件搜索适用的模型

#### 多层卷积最后输入出shape一样，特征会丢失吗？
- 当然会，信息论角度肯定会丢，但是ML本质就是压缩算法，压缩到一个数（分类）

#### 自动参数学习（autogluon），是不是更易过拟合？
- 确实，但是验证集取得好的话能做到挺好的控制

#### 多层3*3卷积是不是可以用不同大小卷积核如5*5处理等价？
- 可以的，比如10层3*3可能跟5层5*5效果相当，但是3*3 更快，5*5会贵

#### 底层用大kernel，上层用小kernel，想比都是同宽度kernel，哪个方案更适合多尺度情况？
- 底层那层可以用大点，5*5,7*7，甚至11*11,然后后面大部分还是3*3，主要刻意说3*3怎么样，一来会便宜点，参数少点，二来会简单点（都是一致的），方便构造深网络
- 哪样子的网络会记住，但是简单点会好点，哪怕效果稍微差点

# 多输入输出通道
## 多输入通道
- 彩色图像可能是RGB通道
- 转换为灰度会有丢失
- 每个通道都有一个卷积核，结果是所有通道卷积的和

- 输入X：$c_{i} * n_{h} * n_{w}$
- 核W:  $c_{i} * k_{h} * k_{w}$
- 输出Y: $m_{h} * n_{w}$
    - Y = 各自通道做卷积（相关）再求和

## 多输出通道
- 无论有多少个输入通道，目前为止只用到单输出通道
- 我们可以有多个三维卷积核，每个核生成一个输出通道
- 输入X：$c_{i} * n_{h} * n_{w}$
- 核W:  $c_{o} * c_{i} * k_{h} * k_{w}$
- 输出Y: $c_{o} * m_{h} * n_{w}$
    - $Y_{i,:,:} = X ☆ W_{i,:,:,:}$  for i = 1,...,$c_{o}$
    
## 输入输出通道为什么多通道
- 每个通道可以识别特定模式，可以理解为一种识别器
    - 如边缘、锐化、模糊等
- 输入通道核识别并组合输入中的模式
- 合理的情况就是原始图片像素进来，下层识别一些局部特征，如识别猫时，先识别出胡须、纹理等，越往上层将这些纹理组合，在某层识别猫头、尾巴等，最顶层那个识别整个猫

## 1x1 卷积层
- $k_{h}= k_{w}=1$ 是非常受欢迎的一种选择，它不识别空间信息，只是融合通道
- 相当于输入形状为$n_{h}n_{w} * c_{i}，权重为c_{o} * c_{i}$的全连接层

## 二维卷积层
- 输入X：$c_{i} * n_{h} * n_{w}$
- 核W:  $c_{o} * c_{i} * k_{h} * k_{w}$
- 偏差B: $c_{o} * c_{i}$
- 输出Y: $c_{o} * m_{h} * m_{w}$
    - Y = X ☆ W + B 
    - 这里的m_h m_w是跟n_h, n_w相关，经过stride padding运算得来 
- 计算复杂度（浮点计算数FLOP）$O(c_{i}c_{o}k_{h}k_{w}m_{h}m_{w})$
    - ci = co =100
    - kw = hw =5
    - mh = mw = 64
    - 复杂度 1GFLOP
- 10层， 1M样本（一般大概样本数），10PFLOP
    - CPU：0.15TF = 18h
    - GPU: 12TF = 14min
    - 上述为前向，反向的话*2时间即可
- 可以看出实际存储空间很小只有100*100*5*5，但是训练确不便宜可能得几十小时


## 总结
- 输出通道数是卷积层的超参数，输入不是，输入是上一层的
- 每个输入通道有独立的二维卷积核，所有通道结果相加得到一个输出通道结果
- 每个输出通道有独立的三维卷积核

## 代码实现
#### 实现一下多输入通道的互相关运算

In [5]:
import torch
from d2l import torch as d2l

ImportError: cannot import name 'QuantStub' from 'torch.ao.quantization' (/home/wesley/miniconda3/envs/d2l-zh/lib/python3.8/site-packages/torch/ao/quantization/__init__.py)

In [7]:
def corr2d_multi_in(X, K):
    # zip是分别将最外层取出来作为迭代器
    return sum(corr2d(x, k) for x, k in zip(X, K))

In [8]:
# 验证互相关运算的输出
X = torch.tensor([[[0.0, 1.0, 2.0], [3.0, 4.0, 5.0], [6.0, 7.0, 8.0]],
                  [[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0]]])
K = torch.tensor([[[0.0, 1.0], [2.0, 3.0]], [[1.0, 2.0], [3.0, 4.0]]])
corr2d_multi_in(X, K)

tensor([[ 56.,  72.],
        [104., 120.]])

#### 计算多通道的输出的互相关函数

In [9]:
def corr2d_multi_in_out(X, K):
    return torch.stack([corr2d_multi_in(X, k) for k in K], 0)

K = torch.stack((K, K + 1, K + 2), 0)
# 一般torch中的维度对应 输出维度*输入维度*高*宽，4D
K.shape

torch.Size([3, 2, 2, 2])

In [10]:
K

tensor([[[[0., 1.],
          [2., 3.]],

         [[1., 2.],
          [3., 4.]]],


        [[[1., 2.],
          [3., 4.]],

         [[2., 3.],
          [4., 5.]]],


        [[[2., 3.],
          [4., 5.]],

         [[3., 4.],
          [5., 6.]]]])

In [13]:
corr2d_multi_in_out(X, K)

tensor([[[ 56.,  72.],
         [104., 120.]],

        [[ 76., 100.],
         [148., 172.]],

        [[ 96., 128.],
         [192., 224.]]])

#### 验证1*1卷积与全连接

In [15]:
def corr2d_multi_in_out_1x1(X, K):
    c_i, h, w = X.shape
    c_o = K.shape[0]
    X = X.reshape((c_i, h*w))
    K = K.reshape((c_o, c_i))
    Y = torch.matmul(K, X)
    return Y.reshape((c_o, h, w))

X = torch.normal(0, 1, (3, 3, 3))
K = torch.normal(0, 1, (2, 3, 1, 1))

Y1 = corr2d_multi_in_out_1x1(X, K)
Y2 = corr2d_multi_in_out(X, K)

assert float(torch.abs(Y1 - Y2).sum()) < 1e-6


## 多通道IO QA
#### 输入输出通道数一般怎么设置的？
- 一般来说如果本层输出的高宽不变的话，一般保持输出通道不变
- 而宽高都减半的话，一般输出通道数加一倍，即输出空间信息压缩，但是用更多通道来保留下来

#### 网络越深，padding 0越多，是否会影响性能
- 性能可以看2种，一个是计算性能一个是模型性能
- 计算性能一般少量padding无所谓，大量padding计算会复杂有影响
- 模型性能无影响，0进来的话做矩阵运算还是0，常数对于神经网络影响可以忽略

#### 每个通道的卷积核，不同通道的卷积核大小？
- 每个通道的卷积核参数一般不一样，同一个通道内参数一样
- 不同通道间的卷积核大小一般是一样的，为了计算方便（效率更好），可以不一样（google net），但是需要多个卷积计算会比较麻烦

#### 计算卷积时，bias的有无对结果影响大吗？作用的？
- 统计上来说，bias是有用的，但是现在的影响会越来越小，可以几乎来说对结果没啥影响，一般默认即可（一般会用BN，会拉过来，偏移会很小）

#### 对于深度图像（外加depth通道），计算方式类似吗？
- 不是，当前介绍的都是2D卷积，只有高宽，不算channel，深度需要用3D卷积（输入4d，核5d）

#### 是不是可以3*3*3 和1*1*N的卷积层叠加来分别进行空间信息的检测和信息融合以及输出通道的调整
- 是的，MobileNet的思路，计算量少，非常低

#### 卷积能获取位置信息吗？
- 当然，对位置很敏感，当前位置的卷积值就是之前对于的矩阵的i j位置的矩阵乘法

#### 多通道时，每个kernel学习到不同参数，卷积如何共享参数的？
- 通道间不共享参数，每个通道可以理解为学习到特定的模式

#### feature map的梳理是什么？
- 输出的高宽，有时候是说通道数，就是卷积的输出的意思

#### 3d卷积是处理视频的吧，可以用做rgb+深度嘛？
- 可以的，甚至2d卷积+个rnn或者直接concat都可以做rgb+深度
- 目前3d卷积效果比2d好一点点，但是计算量太大，所以视频的模型一般太空洞

# 池化层
- 积对位置敏感
    - 检测垂直边缘时，可能原来的边缘没那么标准，实际情况会有偏差
    - ![image-2.png](attachment:image-2.png)
- 序号一定程度的平移不变性
    - 照明，物体位置，比例，外观等因素
    
### 二维最大池化
- 返回滑动窗口的最大值
- ![image.png](attachment:image.png)
- 允许一定偏移

### 最大池化层：填充，步幅和多个通道
- 池化层跟卷积层类似，都具有填充和步幅
- 没有可学习的参数
- 在每个输入通道应用池化层以获得相应的输出通道
- 输出通道数=输入通道数

### 平均池化层
- 最大池化层：输出最强的模式信号
- 平均池化层：平均信号
- ![image-3.png](attachment:image-3.png)

### 总结
- 池化层返回窗口中的最大、平均值
- 一般卷积层会位置的敏感性，池化层用来缓解敏感
- 同样有窗口大小、填充、和步幅作为超参数

### 代码实现
#### 池化层的正向传播

In [18]:
import torch
from torch import nn

def pool2d(X, pool_size, mode='max'):
    p_h, p_w = pool_size
    Y = torch.zeros((X.shape[0] - p_h + 1, X.shape[1] - p_w + 1))
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            if mode == 'max':
                Y[i,j] = X[i:i + p_h, j:j + p_w].max()
            elif mode == 'avg':
                Y[i,j] = X[i:i + p_h, j:j + p_w].mean()
                
    return Y

In [19]:
# 验证二维池化层的输出
X = torch.tensor([[0.0, 1.0, 2.0], [3.0, 4.0, 5.0], [6.0, 7.0, 8.0]])
pool2d(X, (2, 2))

tensor([[4., 5.],
        [7., 8.]])

In [20]:
pool2d(X, (2, 2), 'avg')

tensor([[2., 3.],
        [5., 6.]])

In [29]:
# 填充和步幅
X = torch.arange(16, dtype=torch.float32).reshape((1, 1, 4, 4))
X

tensor([[[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.]]]])

In [22]:
# 深度学习框架中的步幅和池化窗口的大小相同 ，意味着池化没有重叠
pool2d = nn.MaxPool2d(3)
pool2d(X)

tensor([[[[10.]]]])

In [23]:
# 填充和步幅可以手动设定
pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)

tensor([[[[ 5.,  7.],
          [13., 15.]]]])

In [24]:
# 设定任意大小的矩阵池化窗口，并分别设定stride 和padding,可以宽高不一致
pool2d = nn.MaxPool2d((2, 3), padding=(1, 1), stride = (2, 3))
pool2d(X)

tensor([[[[ 1.,  3.],
          [ 9., 11.],
          [13., 15.]]]])

In [30]:
# 池化层在每个通道上单独运算
X = torch.cat((X, X + 1), 1)
X.shape

torch.Size([1, 2, 4, 4])

In [31]:
X

tensor([[[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.]],

         [[ 1.,  2.,  3.,  4.],
          [ 5.,  6.,  7.,  8.],
          [ 9., 10., 11., 12.],
          [13., 14., 15., 16.]]]])

In [32]:
pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)

tensor([[[[ 5.,  7.],
          [13., 15.]],

         [[ 6.,  8.],
          [14., 16.]]]])

## 池化QA
#### 池化层的位置？
- 语义上来说，一般是在卷积后面

#### 池化时窗口的有无重叠影响？
- 可能没有太多区别，一般都是不重叠，没有真正影响
- 其实现在池化层越来越少

#### python创建位置宽高的矩阵，是不是先创建大小填0再填数值快点；未知宽高时拼接太慢了？
- 不建议，尽量少用python函数，如无必要还是别这样
- 一次性往里面写可以的[::]这种形式，多次for loop很慢
- 未知宽高时候，用list,然后append（此时有优化），不要用矩阵拼接，然后再转numpy

#### 池化层后计算量是否减少了？
- 看padding和stride，步幅2的话就是减1倍

#### 为什么现在池化层用的越来越少了？
- 自己理解，一般来说2个作用，stride=2减少计算和减少敏感性
- 但是现在一般stride=2可以放在卷积，这样池化功能减少1个
- 此外一般会对数据本身做增强，添加扰动，使得卷积层不会过拟合到某个位置
- 以上两点会淡化