# 1.模型结构搭建

深度学习与经典机器学习的一个最大的区别在于模型结构方面，经典机器学习模型往往有着固定的范式和结构，例如：随机森林就是由指定数量的决策树构成，虽然这里的n_estimators可以任选，但整体来看随机森林模型的结构是确定的；而深度学习模型的基础在于神经网络，即由若干的神经网络层构成，每一层使用的神经网络模块类型可以不同（全连接层、卷积层等等），包含的神经元数量差异也会带来很大的不同。也正因如此，深度学习给使用者提供了更大的设计创新空间。

当然，网络架构（Architecture）的设计不需要从零开始，PyTorch这些深度学习框架的一大功能就是提供了基础的神经网络模块（Module），而使用者仅需根据自己的设计意图将其灵活组装起来即可——就像搭积木一般！

In [1]:
from torch import nn
import torch
from torch.nn import functional as F

## 1.1线性层（全连接层）

- 功能：将所有输入特征连接起来，用于综合特征并进行分类或回归。
- 特点：
    - 每个神经元与上一层的所有神经元相连。
    - 输出的大小由神经元的数量决定。
- 应用：通常在模型的最后几层，用于最终输出预测。

In [2]:
m = nn.Linear(in_features=2, out_features=3)
inputs = torch.randn(2, 2)
print(inputs)
outputs = m(inputs)
print(outputs)

tensor([[-0.0733,  0.0938],
        [-0.5255,  0.8249]])
tensor([[-0.2552, -0.0646, -0.1035],
        [ 0.1195, -0.4522,  0.3056]], grad_fn=<AddmmBackward0>)


## 1.2卷积层

- 功能：提取局部特征，特别适用于图像和时序数据。
- 特点：
    - 使用卷积核（filter）扫描输入数据，提取边缘、纹理等局部特征。
    - 可调参数：卷积核大小、步长（stride）、填充（padding）等。
- 应用：主要用于卷积神经网络（CNN）中，如图像分类、目标检测等任务

In [3]:
m = nn.Conv2d(in_channels=3, out_channels=1, kernel_size=3, stride=1, padding=1)
inputs = torch.randn(2, 3, 4, 4)
print(inputs.shape)
outputs = m(inputs)
print(outputs.shape)

torch.Size([2, 3, 4, 4])
torch.Size([2, 1, 4, 4])


## 1.3池化层

- 功能：降维和压缩特征，减少计算量，提高模型的鲁棒性。
- 类型：
    - 最大池化（Max Pooling）：取窗口内的最大值。
    - 平均池化（Average Pooling）：取窗口内的平均值。
- 应用：通常与卷积层交替使用。

In [4]:
m = nn.MaxPool2d(kernel_size=2, stride=2)
inputs = torch.randn(2, 3, 4, 4)
print(inputs.shape)
outputs = m(inputs)
print(outputs.shape)

torch.Size([2, 3, 4, 4])
torch.Size([2, 3, 2, 2])


## 1.4激活函数

- 功能：引入非线性，增强模型的表达能力。
- 常见激活函数：
    - ReLU（Rectified Linear Unit）：常用于隐藏层。
    - Sigmoid：常用于二分类问题的输出层。
    - Softmax：用于多分类问题的输出层。
    - Tanh：用于某些特定场景。

In [5]:
x = torch.randn(2, 3)
print(F.relu(x).shape)

torch.Size([2, 3])


## 1.5归一化层

- 功能：加速训练，提高模型稳定性。
- 类型：
    - 批归一化（Batch Normalization）：对每个批次的数据进行归一化。
    - 层归一化（Layer Normalization）：对每一层的数据进行归一化。
- 应用：常用于深度网络中以防止梯度消失或梯度爆炸。

In [6]:
m = nn.BatchNorm2d(3)
inputs = torch.randn(2, 3, 4, 4)
print(inputs)
print(m(inputs))

tensor([[[[ 2.5365,  0.3870, -0.1164,  0.2676],
          [ 1.5227, -1.7113,  1.1136, -0.6260],
          [ 1.1938,  0.2248,  1.9933, -0.5470],
          [ 0.2528,  0.1072, -0.0306,  1.4356]],

         [[-0.6075, -1.5080,  0.2071, -0.2130],
          [-1.4075, -0.5103,  0.2406, -0.1766],
          [-0.7732,  0.0519, -1.0463,  0.6804],
          [-1.8552, -0.0937, -1.1536,  0.3946]],

         [[-1.7436, -0.4180,  0.2241, -0.7311],
          [ 0.5114,  0.5697, -0.6776,  1.1230],
          [ 1.1976,  0.8205, -0.9007, -0.3780],
          [-0.2600,  0.3184,  0.1622, -0.5020]]],


        [[[-1.2084, -0.1144,  0.8573, -0.2860],
          [ 0.4522, -1.2980, -1.1100, -0.5130],
          [ 1.5555,  0.5965, -2.4588,  1.1511],
          [-0.5226,  0.5959,  0.9648, -0.3850]],

         [[ 1.0762,  1.9738, -0.2268, -0.5448],
          [ 1.7196,  0.4344, -0.5330, -1.2647],
          [ 1.9816,  0.9225, -0.3852, -0.3985],
          [-1.4176,  1.9174, -2.6484, -1.5303]],

         [[ 0.6794,  0.0695,

## 1.6循环层

- 功能：用于处理序列数据，捕获时间依赖性。
- 类型：
    - 简单循环网络（RNN）。
    - 长短期记忆网络（LSTM）。
    - 门控循环单元（GRU）。
- 应用：主要用于自然语言处理、时间序列预测等任务。

In [7]:
rnn = nn.RNN(10, 20, 2)
input = torch.randn(5, 3, 10)
h0 = torch.randn(2, 3, 20)
output, hn = rnn(input, h0)

In [8]:
rnn = nn.LSTM(10, 20, 2)
input = torch.randn(5, 3, 10)
h0 = torch.randn(2, 3, 20)
c0 = torch.randn(2, 3, 20)
output, (hn, cn) = rnn(input, (h0, c0))

In [9]:
rnn = nn.GRU(10, 20, 2)
input = torch.randn(5, 3, 10)
h0 = torch.randn(2, 3, 20)
output, hn = rnn(input, h0)

## 1.7Dropout层

- 功能：随机丢弃部分神经元，防止过拟合。
- 特点：
    - 在训练阶段随机丢弃，推理阶段保留所有神经元。
    - 丢弃比例是一个超参数（如 0.5 表示丢弃 50%）

In [10]:
m = nn.Dropout(p=0.5)
inputs = torch.randn(2, 3, 4, 4)
print(inputs)
print(m(inputs))

tensor([[[[ 0.6562,  1.1819, -0.6612,  0.0488],
          [ 0.1650,  0.7617, -0.2739,  2.2296],
          [-1.1286, -1.3285, -1.3380, -2.2385],
          [ 0.5844,  1.2293, -0.3213, -1.4948]],

         [[-0.8440, -0.6661, -0.2623, -1.0485],
          [-0.1260,  1.1602, -0.1219,  0.3993],
          [-0.9475,  0.3352,  1.0902, -0.3701],
          [ 0.3603,  0.2368,  1.7852, -1.4311]],

         [[-1.3846, -0.5803, -0.7275,  0.4860],
          [-0.3897, -0.1366,  0.6730, -0.6027],
          [-0.0125, -0.4207, -0.3735,  1.5968],
          [-0.7558,  1.1566,  0.2997, -0.4727]]],


        [[[ 1.1133,  0.4340, -0.6724, -0.6159],
          [ 1.0488, -0.6575, -1.0524, -0.6648],
          [ 0.1163, -1.0748, -0.4455, -1.9232],
          [ 1.1048,  0.9456,  1.2264, -0.5542]],

         [[-0.5693, -1.0527, -0.1358,  0.1394],
          [ 1.1540,  1.7658, -1.0161,  1.4863],
          [-0.4111,  0.8375,  0.8287, -0.2332],
          [ 0.5378, -0.3942,  0.1947, -0.4537]],

         [[-0.3187,  1.2952,

## 1.8完整的模型搭建

In [11]:
import torch
from torch import nn
from torch.nn import functional as F
import torch.optim as optim

# 定义 MLP 模型
class MLP(nn.Module):
    def __init__(self, input_size, hidden_size, output_size):
        super(MLP, self).__init__()
        
        # 定义输入层到隐藏层的全连接层
        self.fc1 = nn.Linear(input_size, hidden_size)
        
        # 定义隐藏层到输出层的全连接层
        self.fc2 = nn.Linear(hidden_size, output_size)

         # 激活函数
        self.relu = nn.ReLU()
        
        # 输出层使用 Sigmoid 激活函数（因为是二分类问题）
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        # 输入通过第一个全连接层并激活
        x = self.fc1(x)
        x = self.relu(x)
        
        # 输入通过第二个全连接层
        x = self.fc2(x)
        
        # 使用 Sigmoid 激活函数得到概率值
        x = self.sigmoid(x)
        
        return x
    
# 实例化 MLP 模型
input_size = 10  # 输入特征的维度
hidden_size = 64  # 隐藏层的维度
output_size = 1  # 输出层的维度（对于二分类问题，输出层通常只有一个神经元）

model = MLP(input_size, hidden_size, output_size)

# 打印模型结构
print(model)

MLP(
  (fc1): Linear(in_features=10, out_features=64, bias=True)
  (fc2): Linear(in_features=64, out_features=1, bias=True)
  (relu): ReLU()
  (sigmoid): Sigmoid()
)


In [13]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchsummary import summary

class AlexNet(nn.Module):
    def __init__(self, num_classes=1000):
        super(AlexNet, self).__init__()
        # 定义卷积层
        self.features = nn.Sequential(
            nn.Conv2d(3, 96, kernel_size=11, stride=4, padding=2),  # 第1层卷积
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),  # 最大池化
            
            nn.Conv2d(96, 256, kernel_size=5, padding=2),  # 第2层卷积
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2),  # 最大池化
            
            nn.Conv2d(256, 384, kernel_size=3, padding=1),  # 第3层卷积
            nn.ReLU(inplace=True),
            
            nn.Conv2d(384, 384, kernel_size=3, padding=1),  # 第4层卷积
            nn.ReLU(inplace=True),
            
            nn.Conv2d(384, 256, kernel_size=3, padding=1),  # 第5层卷积
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=3, stride=2)  # 最大池化
        )

        # 定义全连接层
        self.classifier = nn.Sequential(
            nn.Dropout(),
            nn.Linear(256 * 6 * 6, 4096),  # 256通道，6x6图像大小
            nn.ReLU(inplace=True),
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(inplace=True),
            nn.Linear(4096, num_classes)  # 最后一层对应类别数量
        )

    def forward(self, x):
        x = self.features(x)  # 通过卷积层
        x = torch.flatten(x, 1)  # 展平
        x = self.classifier(x)  # 通过全连接层
        return x
    
# 示例用法
model = AlexNet(num_classes=10)  # 用于10类分类
print(model)

# 打印模型概况
summary(model, input_size=(3, 224, 224))  # 输入图像大小为224x224


AlexNet(
  (features): Sequential(
    (0): Conv2d(3, 96, kernel_size=(11, 11), stride=(4, 4), padding=(2, 2))
    (1): ReLU(inplace=True)
    (2): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (3): Conv2d(96, 256, kernel_size=(5, 5), stride=(1, 1), padding=(2, 2))
    (4): ReLU(inplace=True)
    (5): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
    (6): Conv2d(256, 384, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (7): ReLU(inplace=True)
    (8): Conv2d(384, 384, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (9): ReLU(inplace=True)
    (10): Conv2d(384, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): ReLU(inplace=True)
    (12): MaxPool2d(kernel_size=3, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (classifier): Sequential(
    (0): Dropout(p=0.5, inplace=False)
    (1): Linear(in_features=9216, out_features=4096, bias=True)
    (2): ReLU(inplace=True)
    (3): Dropout(p=0.5, 