### pytorch 搭建神经网络模型

In [7]:
# 实现神经网络模型
import torch.nn as nn

# X输入 shape(, 28*28) 
# 隐藏层 shape(28*28,64) 
# 隐藏层 shape(64,)
# 输出层 shape(64, 10)
# 输出层 shape(10 ,)
# Y输出 shape(, 10)

# 所有结构串联起来
model = nn.Sequential(
    nn.Linear(28*28, 64),
    nn.Sigmoid(),
    nn.Linear(64, 10)
)

In [8]:
# 实现神经网络模型
import torch.nn as nn

# X输入 shape(, 28*28) 
# 隐藏层 shape(28*28,64) 
# 隐藏层 shape(64,)
# 输出层 shape(64, 10)
# 输出层 shape(10 ,)
# Y输出 shape(, 10)

import torch
import torch.nn as nn

# 定义神经网络模型
class SimpleMLP(nn.Module):
    def __init__(self, input_size, hidden_size, num_classes):
        super(SimpleMLP, self).__init__()
        # 输入层 -> 隐藏层
        self.fc1 = nn.Linear(input_size, hidden_size)
        # 隐藏层 -> 输出层
        self.fc2 = nn.Linear(hidden_size, num_classes)
        # 激活函数
        self.relu = nn.ReLU()

    def forward(self, x):
        # 输入层 -> 隐藏层
        x = self.fc1(x)
        x = self.relu(x)
        # 隐藏层 -> 输出层
        x = self.fc2(x)
        return x

# 定义模型参数
input_size = 28 * 28  # 输入特征维度（MNIST 图像大小为 28x28）
hidden_size = 64       # 隐藏层维度
num_classes = 10       # 输出类别数（MNIST 有 10 个类别）

# 实例化模型
model = SimpleMLP(input_size, hidden_size, num_classes)

# 打印模型结构
print(model)

# 定义输入数据
batch_size = 4
x = torch.randn(batch_size, 28 * 28)  # 随机生成输入数据，形状为 (4, 784)

# 前向传播
output = model(x)

# 打印输出
print(f"输入形状: {x.shape}")  # 输出: torch.Size([4, 784])
print(f"输出形状: {output.shape}")  # 输出: torch.Size([4, 10])


SimpleMLP(
  (fc1): Linear(in_features=784, out_features=64, bias=True)
  (fc2): Linear(in_features=64, out_features=10, bias=True)
  (relu): ReLU()
)
输入形状: torch.Size([4, 784])
输出形状: torch.Size([4, 10])


### 损失函数

在 PyTorch 中，损失函数用于衡量模型预测结果与真实标签之间的差距。常见的损失函数包括：

- `nn.CrossEntropyLoss()`：交叉熵损失函数，常用于多分类问题。
- `nn.MSELoss()`：均方误差损失函数，常用于回归问题。

优化器的作用是更新模型参数，使得损失函数的值最小化。常见的优化器包括：

- `torch.optim.Adam()`：Adam 优化器，一种自适应学习率的优化器。
- `torch.optim.SGD()`：SGD 优化器，即随机梯度下降优化器。

**SGD 和 Adam 优化器的区别**

- **收敛速度**：Adam 通常比 SGD 收敛速度更快。
- **学习率**：Adam 具有自适应学习率的特性，而 SGD 通常需要手动调整学习率。
- **局部最优解**：Adam 有时可能会陷入局部最优解，而 SGD 相对来说更容易跳出局部最优解。
- **内存占用**：Adam 需要保存更多的中间变量，因此内存占用比 SGD 高。


In [None]:
# 损失函数


loss_fn = nn.CrossEntropyLoss() # 交叉熵损失函数
# 优化器    
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3) # SGD 优化器
print(optimizer)





CrossEntropyLoss()
SGD (
Parameter Group 0
    dampening: 0
    differentiable: False
    foreach: None
    fused: None
    lr: 0.001
    maximize: False
    momentum: 0
    nesterov: False
    weight_decay: 0
)
