# 深度卷积神经网络AlexNet
AlexNet和LeNet的架构非常相似，但是比相对较小的LeNet5要深得多。AlexNet由八层组成：五个卷积层、两个全连接隐藏层和一个全连接输出层
![image.png](attachment:image.png)
![image-3.png](attachment:image-3.png)
![image-2.png](attachment:image-2.png)

更多细节
- 激活函数从sigmoid变到了Relu（減缓梯度消失）
- 隐藏全连接层后加入了丢弃层
    - AlexNet通过dropout控制全连接层的模型复杂度，而LeNet只使用了权重衰减。 为了进一步扩充数据，AlexNet在训练时增加了大量的图像增强数据，如翻转、裁切和变色。 这使得模型更健壮，更大的样本量有效地减少了过拟合。
- 数据增强
![image.png](attachment:image.png)

In [1]:
import torch
from torch import nn
from d2l import torch as d2l
net = nn.Sequential(
    nn.Conv2d(1,96,kernel_size=11,stride=4,padding=1),nn.ReLU(),
    nn.MaxPool2d(kernel_size=3,stride=2),
    nn.Conv2d(96,256,padding=2,kernel_size=5),nn.ReLU(),
    nn.MaxPool2d(kernel_size=3,stride=2),
    # 使用三个连续的卷积层和较小的卷积窗口。
    nn.Conv2d(256,384,kernel_size=3,padding=1),nn.ReLU(),
    nn.Conv2d(384,384,kernel_size=3,padding=1),nn.ReLU(),
    nn.Conv2d(384,256,kernel_size=3,padding=1),nn.ReLU(),
    nn.MaxPool2d(kernel_size=3,stride=2),
    nn.Flatten(),
    # 全连接层
    nn.Linear(6400,4096),nn.ReLU(),
    nn.Dropout(p=0.5),
    nn.Linear(4096, 4096), nn.ReLU(),
    nn.Dropout(p=0.5),
    # 最后是输出层。由于这里使用Fashion-MNIST，所以用类别数为10，而非论文中的1000
    nn.Linear(4096, 10))

X = torch.randn(1, 1, 224, 224)
#观察每一层输出的形状
for layer in net:
    X=layer(X)
    print(layer.__class__.__name__,'output shape:\t',X.shape)

Conv2d output shape:	 torch.Size([1, 96, 54, 54])
ReLU output shape:	 torch.Size([1, 96, 54, 54])
MaxPool2d output shape:	 torch.Size([1, 96, 26, 26])
Conv2d output shape:	 torch.Size([1, 256, 26, 26])
ReLU output shape:	 torch.Size([1, 256, 26, 26])
MaxPool2d output shape:	 torch.Size([1, 256, 12, 12])
Conv2d output shape:	 torch.Size([1, 384, 12, 12])
ReLU output shape:	 torch.Size([1, 384, 12, 12])
Conv2d output shape:	 torch.Size([1, 384, 12, 12])
ReLU output shape:	 torch.Size([1, 384, 12, 12])
Conv2d output shape:	 torch.Size([1, 256, 12, 12])
ReLU output shape:	 torch.Size([1, 256, 12, 12])
MaxPool2d output shape:	 torch.Size([1, 256, 5, 5])
Flatten output shape:	 torch.Size([1, 6400])
Linear output shape:	 torch.Size([1, 4096])
ReLU output shape:	 torch.Size([1, 4096])
Dropout output shape:	 torch.Size([1, 4096])
Linear output shape:	 torch.Size([1, 4096])
ReLU output shape:	 torch.Size([1, 4096])
Dropout output shape:	 torch.Size([1, 4096])
Linear output shape:	 torch.Size([1,

In [None]:
batch_size = 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)
lr, num_epochs = 0.01, 4
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr,torch.device('cpu'))

# 使用块的网络VGG
虽然AlexNet证明深层神经网络卓有成效，但它没有提供一个通用的模板来指导后续的研究人员设计新的网络。
![image.png](attachment:image.png)

VGG网络可以分为两部分：第一部分主要由卷积层和pooling层组成，第二部分由全连接层组成。在下面的代码中，我们定义了一个名为vgg_block的函数来实现一个VGG块，在 vgg_block 函数内部，对于该块内的卷积层，输出通道数是固定的。

In [16]:
import torch
from torch import nn
from d2l import torch as d2l

def vgg_block(num_convs,in_channels,out_channels):
    layers=[]
    # 块内有多少卷积
    for _ in range(num_convs):
        layer= nn.Conv2d(in_channels,out_channels,kernel_size=3,padding=1)
        layers.append(layer)
        layers.append(nn.ReLU())
        in_channels = out_channels
    # 每个块结束之后还有一个最大池化层
    layers.append(nn.MaxPool2d(kernel_size=2,stride=2))
    return nn.Sequential(*layers) # 有个解包操作

-  *layers 将 layers 列表中的元素解包，使 nn.Sequential 接收的是多个层对象，而不是一个列表，符合 nn.Sequential 的参数要求。

以下是VGG-11的实例，因为有8个卷积层+3个全连接层。

In [21]:
conv_arch = ((1, 64), (1, 128), (2, 256), (2, 512), (2, 512))
def vgg(conv_arch):
    conv_blk=[]
    in_channels=1 # ?why
    for num_convs, out_channels in conv_arch:
        conv_blk.append(vgg_block(num_convs, in_channels, out_channels))
        in_channels=out_channels
    return nn.Sequential(
        *conv_blk,nn.Flatten(),
        # 全连接部分
        nn.Linear(out_channels * 7 * 7, 4096), nn.ReLU(), nn.Dropout(0.5),
        nn.Linear(4096, 4096), nn.ReLU(), nn.Dropout(0.5),
        nn.Linear(4096, 10))
net=vgg(conv_arch)


- 最后的7是怎么得来的呢：这里的 7 通常是由于 VGG 网络的架构和池化操作的结果。在 VGG 网络中，经过一系列的卷积和池化操作，最终的特征图尺寸会逐渐缩小。对于一个 224x224 的输入图像，经过 5 个池化层（因为 conv_arch 包含 5 个元组，每个元组的最后会添加一个池化层），其尺寸变化如下：
第一次池化：224 / 2 = 112
第二次池化：112 / 2 = 56
第三次池化：56 / 2 = 28
第四次池化：28 / 2 = 14
第五次池化：14 / 2 = 7


In [22]:
X = torch.randn(size=(1, 1, 224, 224))
for blk in net:
    X = blk(X)
    print(blk.__class__.__name__,'output shape:\t',X.shape)

Sequential output shape:	 torch.Size([1, 64, 112, 112])
Sequential output shape:	 torch.Size([1, 128, 56, 56])
Sequential output shape:	 torch.Size([1, 256, 28, 28])
Sequential output shape:	 torch.Size([1, 512, 14, 14])
Sequential output shape:	 torch.Size([1, 512, 7, 7])
Flatten output shape:	 torch.Size([1, 25088])
Linear output shape:	 torch.Size([1, 4096])
ReLU output shape:	 torch.Size([1, 4096])
Dropout output shape:	 torch.Size([1, 4096])
Linear output shape:	 torch.Size([1, 4096])
ReLU output shape:	 torch.Size([1, 4096])
Dropout output shape:	 torch.Size([1, 4096])
Linear output shape:	 torch.Size([1, 10])


由于VGG-11比AlexNet计算量更大，因此我们构建了一个通道数较少的网络，足够用于训练Fashion-MNIST数据集。



In [24]:
ratio = 4
small_conv_arch = [(pair[0], pair[1] // ratio) for pair in conv_arch]
net = vgg(small_conv_arch)

In [None]:
lr, num_epochs, batch_size = 0.05, 10, 128
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size, resize=224)
d2l.train_ch6(net, train_iter, test_iter, num_epochs, lr, d2l.try_gpu())

training on mps


# 网络中的网络（NiN）
最初的NiN网络是在AlexNet后不久提出的，NiN和AlexNet之间的一个显著区别是NiN**完全取消了全连接层**。 相反，NiN使用一个NiN块，其输出通道数等于标签类别的数量。最后放一个全局平均汇聚层（global average pooling layer），生成一个对数几率 （logits）。NiN设计的一个优点是，它显著减少了模型所需参数的数量。
![image-2.png](attachment:image-2.png)
 NiN块以一个普通卷积层开始，后面是两个1 * 1的卷积层。这两个1 * 1卷积层充当带有ReLU激活函数的逐像素全连接层。 第一层的卷积窗口形状通常由用户设置。 随后的卷积窗口形状固定为1 * 1。 
![image.png](attachment:image.png)

•最后使用全局平均池化层得到输出
•其输入通道数是类别数

In [3]:
import torch
from torch import nn
from d2l import torch as d2l


def nin_block(in_channels, out_channels, kernel_size, strides, padding):
    return nn.Sequential(
        nn.Conv2d(in_channels, out_channels, kernel_size, strides, padding),
        nn.ReLU(),
        nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU(),
        nn.Conv2d(out_channels, out_channels, kernel_size=1), nn.ReLU())

net = nn.Sequential(
    nin_block(1, 96, kernel_size=11, strides=4, padding=0),
    nn.MaxPool2d(3, stride=2),
    nin_block(96, 256, kernel_size=5, strides=1, padding=2),
    nn.MaxPool2d(3, stride=2),
    nin_block(256, 384, kernel_size=3, strides=1, padding=1),
    nn.MaxPool2d(3, stride=2),
    nn.Dropout(0.5),
    # 标签类别数是10
    nin_block(384, 10, kernel_size=3, strides=1, padding=1),
    nn.AdaptiveAvgPool2d((1, 1)),
    # 将四维的输出转成二维的输出，其形状为(批量大小,10)
    nn.Flatten())

In [4]:
X = torch.rand(size=(1, 1, 224, 224))
for layer in net:
    X = layer(X)
    print(layer.__class__.__name__,'output shape:\t', X.shape)

Sequential output shape:	 torch.Size([1, 96, 54, 54])
MaxPool2d output shape:	 torch.Size([1, 96, 26, 26])
Sequential output shape:	 torch.Size([1, 256, 26, 26])
MaxPool2d output shape:	 torch.Size([1, 256, 12, 12])
Sequential output shape:	 torch.Size([1, 384, 12, 12])
MaxPool2d output shape:	 torch.Size([1, 384, 5, 5])
Dropout output shape:	 torch.Size([1, 384, 5, 5])
Sequential output shape:	 torch.Size([1, 10, 5, 5])
AdaptiveAvgPool2d output shape:	 torch.Size([1, 10, 1, 1])
Flatten output shape:	 torch.Size([1, 10])


#  含并行连结的网络（GoogLeNet）
## Inception块
![image-2.png](attachment:image-2.png)


- **白色的块用来改变通道数，蓝色的卷积块是用来抽空间取信息。**。
- 先用白色的1 * 1再来一个3 * 3 conv目的：先把通道数降下来，防止后面的参数量过大
- 第二、三个先用1 * 1 conv降低通道数，从而降低模型的复杂度。因为通道数降低 卷积核的参数个数也会减少 ：
- ![image.png](attachment:bd1ecdbf-8090-4c02-ab1c-96113a8fb588.png)

![image.png](attachment:image.png)

高宽减半就是一个stage！![image.png](attachment:image.png)

![image.png](attachment:image.png)

总结：  
- Inception块用4条有不同超参数的卷积层和池化层的路来抽取不同的信息
    - 它的一个主要优点是模型参数小，计算复杂度低 
- GoogleNet使用了9个Inception块，是第一个达到上百层的网络
    - 后续有很多改进。现在一般用v3不用原来的
- 实际上很复杂，也不是很受欢迎哈哈

# 批量归一化batch normalization
（一般用于深层网络，浅层效果不好：更深层的网络很复杂，容易过拟合。 这意味着正则化变得更加重要。

![image.png](attachment:948b232a-55cb-450f-9454-0c8882724150.png)
![image.png](attachment:dc92a8fa-fac5-4dd7-b33f-c84c5b7a6cbc.png)

<font color=red> 批量归一化的核心是对每个特征（通道）进行归一化！！
![image.png](attachment:c9cdca06-787e-406c-97e5-144f4c8a9e98.png)
注意 一般不用于激活函数后哦 都是在激活函数之前

全连接每行是一个样本，每列是一个特征，那就是对每一列做归一化。卷积层是将形状为四维张量 **[Batch, Channels, Height, Width]** 的 Height 和 Width 拉平（Flatten），形成一个二维矩阵，形状为 [Batch × Height × Width, Channels]。
对每一列（即每个通道）计算均值和方差。使用这些均值和方差对该列的所有像素进行归一化。！

（自定义的话）关键代码 

In [None]:
if len(X.shape) == 2: # 如果是全连接的情况
    mean = X.mean(dim=0) # dim=0表表示沿着行（样本）方向操作，对每一列（特征）求均值
    var = ((X - mean) **2).mean(dim=0)
else:
    mean = X.mean(dim=(0,2,3),keepdim=True)
    var = ((X.mean) **2).mean(dim=(0,2,3),keepdim=True)
X_hat = (X-mean) / torch.sqrt(var+eps)

整体代码：

In [None]:
def batch_norm(X, gamma, beta, moving_mean, moving_var, eps, momentum):
    # 通过is_grad_enabled来判断当前模式是训练模式还是预测模式
    if not torch.is_grad_enabled():
        # 如果是在预测模式下，直接使用传入的移动平均所得的均值和方差
        X_hat = (X - moving_mean) / torch.sqrt(moving_var + eps)
    else:
        assert len(X.shape) in (2, 4)
        if len(X.shape) == 2:
            # 使用全连接层的情况，计算特征维上的均值和方差
            mean = X.mean(dim=0)
            var = ((X - mean) ** 2).mean(dim=0)
        else:
            # 使用二维卷积层的情况，计算通道维上（axis=1）的均值和方差。
            # 这里我们需要保持X的形状以便后面可以做广播运算
            mean = X.mean(dim=(0, 2, 3), keepdim=True)
            var = ((X - mean) ** 2).mean(dim=(0, 2, 3), keepdim=True)
        # 训练模式下，用当前的均值和方差做标准化
        X_hat = (X - mean) / torch.sqrt(var + eps)
        # 更新移动平均的均值和方差
        moving_mean = momentum * moving_mean + (1.0 - momentum) * mean
        moving_var = momentum * moving_var + (1.0 - momentum) * var
    Y = gamma * X_hat + beta  # 缩放和移位
    return Y, moving_mean.data, moving_var.data
    
# 创建一个正确的BatchNorm图层
class BatchNorm(nn.Module):
    def __init__(self, num_features, num_dims):
        super().__init__()
        if num_dims == 2:
            shape = (1, num_features) # num_features 为 feature map 的多少，即通道数的多少  
        else:
            shape = (1, num_features,1,1)
        self.gamma = nn.Parameter(torch.ones(shape)) # 伽马初始化为全1，贝塔初始化为全0
        self.beta = nn.Parameter(torch.zeros(shape)) # 伽马为要拟合的均值，贝塔为要拟合的方差
        self.moving_mean = torch.zeros(shape) # 伽马、贝塔需要在反向传播时更新，所以放在nn.Parameter里面，moving_mean、moving_var不需要迭代，所以不放在里面      
        self.moving_var = torch.ones(shape)
        
    def forward(self, X):
        Y, self.moving_mean, self.moving_var = batch_norm(
            X, self.gamma, self.beta,self.moving_mean,self.moving_var,
            eps=1e-5,momentum=0.9)
        return Y
        

上面num_features 表示特征的数量。在不同的神经网络层类型中，它有不同的具体指代。   
- 全连接层：在全连接层里，输入数据通常是二维的，形状为 [batch_size, num_features]，这里的 num_features 就是每个样本所具有的特征数量。例如，如果输入的是一个包含 100 个特征的样本，那么 num_features 就是 100。
- 卷积层：对于卷积层，输入数据一般是四维的，形状为 [batch_size, num_channels, height, width]，此时 num_features 对应着通道数（num_channels）。因为批量归一化在卷积层是针对每个通道进行的，所以这里的 num_features 就是通道的数量。比如一个卷积层的输出有 64 个通道，那么 num_features 就等于 64。

⚠️ 除了使用我们刚刚定义的BatchNorm，我们也可以直接使用深度学习框架中定义的BatchNorm。
[参考链接](https://blog.csdn.net/qq_40671063/article/details/126984314)

|归一化层|适用场景|输入数据形状|归一化维度|
|--|--|--|--|
|`nn.BatchNorm1d`|用于处理2D输入数据，通常是全连接层的输出|`(batch_size, num_features)`|在batch维度计算均值和方差，对特征归一化|
|`nn.BatchNorm2d`|用于处理4D输入数据，通常是卷积神经网络（CNN）中卷积层的输出|`(batch_size, num_channels, height, width)`|在batch、height、width维度计算均值和方差，对num_channels归一化|

In [None]:
net = nn.Sequential(
    nn.Conv2d(1, 6, kernel_size=5), nn.BatchNorm2d(6), nn.Sigmoid(),
    nn.AvgPool2d(kernel_size=2, stride=2),
    nn.Conv2d(6, 16, kernel_size=5), nn.BatchNorm2d(16), nn.Sigmoid(),
    nn.AvgPool2d(kernel_size=2, stride=2), nn.Flatten(),
    nn.Linear(256, 120), nn.BatchNorm1d(120), nn.Sigmoid(),
    nn.Linear(120, 84), nn.BatchNorm1d(84), nn.Sigmoid(),
    nn.Linear(84, 10))

😈 总结：
- 批量归一化固定小批量中的均值和方差，然后学习出适合的偏移和缩放
- BN可以加速收敛速度，但一般不改变模型精度
  
理解：批量归一化只是对输入数据进行归一化，并通过 gamma 和 beta 恢复数据的表达能力。它并没有引入新的非线性变换，因此不会改变模型的表达能力。                                                                      
为什么可以加快收敛速度呢：**改善梯度传播** 在深度神经网络中，梯度消失和梯度爆炸是常见的问题，会阻碍模型的训练。批量归一化使得数据的分布更加稳定，避免了数据在经过多层网络传递后变得过大或过小。这样在反向传播过程中，梯度的计算更加稳定，不会出现梯度消失或爆炸的情况，优化器可以更有效地更新模型参数，加快收敛速度。