# 🔗 MLP（Multi-Layer Perceptron 多层感知机）简介

多层感知机（MLP）是最基本的前馈神经网络结构，是现代神经网络和深度学习的基础。它通过多个线性层和非线性激活函数的组合，能够对输入数据建模出复杂的非线性关系。

MLP 通常用于：
- 分类任务（如手写数字识别、客户流失预测）
- 回归任务（如房价预测）
- 表格型结构化数据（非图像、非序列）

---

## 🌐 基本结构

一个典型的 MLP 包括：

- **输入层**：接收原始特征向量
- **1 个或多个隐藏层**：提取特征、建模复杂模式
- **输出层**：给出最终的预测结果（如分类概率）

每一层都执行：
$$
z = W · x + b
$$

$$
a = activation(z)
$$


其中：
- `W`: 权重矩阵
- `b`: 偏置向量
- `activation()`: 激活函数（如 ReLU、Sigmoid）(可以参考 basic/model_building_blocks/Activation_function.ipynb）

---

## 🧠 MLP 引入的新概念

| 概念             | 解释 |
|------------------|------|
| **神经元 (Neuron)**       | 模拟生物神经元的计算单元，执行 $z = w^\top x + b$ |
| **激活函数 (Activation)** | 给网络增加非线性能力。常用：ReLU、Sigmoid、Tanh |
| **隐藏层 (Hidden Layer)** | 输入层和输出层之间的中间层，用于提取特征 |
| **前向传播 (Forward Propagation)** | 从输入依次计算每层输出直到最终结果 |
| **反向传播 (Backpropagation)**     | 利用损失函数计算梯度，更新网络权重 |
| **优化器 (Optimizer)**   | 控制参数更新方式，如 SGD、Adam |
| **损失函数 (Loss Function)** | 衡量预测与真实标签的差异，指导模型学习 |

---

## 🔍 MLP 与逻辑回归的关系

- 逻辑回归 = 没有隐藏层的 MLP
- MLP = 多层非线性组合的逻辑回归
- 逻辑回归只能学习线性边界，而 MLP 可以学习任意复杂边界（由层数和激活函数决定）

---

## 🧩 应用场景示例

- 银行客户是否会购买理财产品（分类）
- 预测股票价格（回归）
- 神经网络中最常用的基础结构（NLP、CV前身）



# 🔗 多层感知机（MLP）：网络结构与前向传播

## 🧬 1. 神经元结构：线性变换 + 激活函数

每个神经元（Neuron）的核心操作可以表示为：

$$
z = \sum_{i=1}^{n} w_i x_i + b = \mathbf{w}^\top \mathbf{x} + b
$$

- $\mathbf{x}$：输入向量
- $\mathbf{w}$：权重向量
- $b$：偏置项
- $z$：加权和

然后将 $z$ 送入激活函数 $f(\cdot)$ 得到输出：

$$
a = f(z)
$$

---

## 🏗️ 2. 网络层结构：输入层 → 隐藏层 → 输出层

一个标准的 MLP 网络包含：

- **输入层**：接收特征向量（不计算）
- **一个或多个隐藏层**：每层含若干神经元
- **输出层**：用于输出预测结果

例如一个两层 MLP 结构如下：

$$
\text{输入层：} \quad \mathbf{x} \in \mathbb{R}^n \\
\text{隐藏层：} \quad \mathbf{a}^{(1)} = f(W^{(1)} \mathbf{x} + \mathbf{b}^{(1)}) \\
\text{输出层：} \quad \hat{\mathbf{y}} = g(W^{(2)} \mathbf{a}^{(1)} + \mathbf{b}^{(2)})
$$

---

## 🚀 3. 前向传播公式（矩阵向量形式）

以一个隐藏层为例，完整前向传播过程为：

$$
\begin{aligned}
\mathbf{z}^{(1)} &= W^{(1)} \mathbf{x} + \mathbf{b}^{(1)} \\
\mathbf{a}^{(1)} &= f(\mathbf{z}^{(1)}) \\
\mathbf{z}^{(2)} &= W^{(2)} \mathbf{a}^{(1)} + \mathbf{b}^{(2)} \\
\hat{\mathbf{y}} &= g(\mathbf{z}^{(2)})
\end{aligned}
$$

> 若有多隐藏层，只需重复上述结构。

---

## 🎯 4. 输出形式差异（分类 vs 回归）

| 任务类型       | 输出层激活函数 $g(z)$ | 典型损失函数               | 输出范围         |
|----------------|------------------------|----------------------------|------------------|
| 二分类         | Sigmoid                | Binary Cross-Entropy       | (0, 1) 概率       |
| 多分类         | Softmax                | Categorical Cross-Entropy  | 各类概率分布     |
| 回归           | Linear (恒等映射)      | MSE / MAE                  | 实数域            |

- **Sigmoid** 用于将输出压缩为概率
- **Softmax** 用于多类分类，输出为概率分布
- **Linear** 保持数值连续性，适用于回归任务


# 🔌 激活函数与权重初始化（Activation & Initialization）

在多层感知机（MLP）中，激活函数用于为模型引入非线性能力，而权重初始化则影响模型的训练效率与稳定性。

---

## 🧮 1. 为什么需要激活函数？

如果没有激活函数，多个线性层叠加仍然是线性的，MLP 退化为线性模型：

$$
f(x) = W_2(W_1 x + b_1) + b_2 = W x + b
$$

> 因此激活函数必须非线性，才能让 MLP 学习复杂的函数关系。

---

## ⚡ 2. 常见激活函数对比

| 激活函数 | 表达式 | 输出范围 | 是否中心化 | 是否稀疏 | 优点 | 缺点 |
|----------|--------|----------|--------------|------------|------|------|
| Sigmoid | $\frac{1}{1 + e^{-x}}$ | (0, 1) | ❌ | ❌ | 可导、概率输出 | 梯度消失、输出非零中心 |
| Tanh | $\tanh(x)$ | (-1, 1) | ✅ | ❌ | 输出零中心，梯度大于 sigmoid | 梯度仍可能消失 |
| ReLU | $\max(0, x)$ | [0, ∞) | ❌ | ✅（部分输出为 0） | 收敛快、计算简单 | Dying ReLU 问题 |
| Leaky ReLU | $\max(\alpha x, x)$ | (-∞, ∞) | ❌ | ✅ | 缓解 Dying ReLU 问题 | α 需要调参 |
| GELU / Swish | 自适应平滑 | (-∞, ∞) | ✅ | ❌ | 新一代激活，效果好 | 计算较慢 |

具体可以参考basic_concept中激活函数部分
---

## 🔧 3. 为什么初始化很重要？

- 不恰当的初始化可能导致：
  - 梯度消失或爆炸（训练不收敛）
  - 所有神经元行为一致（无学习）

初始化目标：
> 保持每层输出的方差稳定，避免信号在传播过程中变大或变小

---

## 🛠️ 4. 常见初始化方法

| 初始化方法 | 原理 | 推荐激活 | 数学表达 |
|------------|------|----------|-----------|
| 常规均匀分布 | 固定范围随机值 | 早期方法 | $U(-0.1, 0.1)$ |
| Xavier 初始化 | 保持前后方差一致 | Sigmoid / Tanh | $\mathcal{N}(0, \frac{1}{n_{\text{in}}})$ |
| He 初始化 | 考虑 ReLU 截断 | ReLU 系列 | $\mathcal{N}(0, \frac{2}{n_{\text{in}}})$ |

---

## 📌 小结

- 激活函数决定了模型的非线性能力，是深度学习的核心部分之一
- 常用 ReLU 作为默认激活函数，也可尝试 Swish/GELU 等
- 权重初始化需与激活函数匹配，如使用 ReLU 建议用 He 初始化



In [1]:
import torch
import torch.nn as nn
import torch.optim as optim
from torchvision import datasets, transforms
from torch.utils.data import DataLoader


In [2]:
# 数据预处理：转换为Tensor & 标准化
transform = transforms.Compose([
    transforms.ToTensor(),  # 转换为张量 (0~1)
    transforms.Normalize((0.1307,), (0.3081,))  # MNIST 均值 & 标准差
])

# 下载训练和测试集
train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)

# 数据加载器
train_loader = DataLoader(train_dataset, batch_size=64, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=1000)


100%|██████████| 9.91M/9.91M [00:00<00:00, 56.4MB/s]
100%|██████████| 28.9k/28.9k [00:00<00:00, 1.65MB/s]
100%|██████████| 1.65M/1.65M [00:00<00:00, 13.9MB/s]
100%|██████████| 4.54k/4.54k [00:00<00:00, 4.88MB/s]


In [4]:
class MLP(nn.Module):
    def __init__(self):
        super(MLP, self).__init__()
        self.model = nn.Sequential(
            nn.Flatten(),             # 28x28 -> 784
            nn.Linear(784, 128),      # 输入层 → 隐藏层1
            nn.ReLU(),
            nn.Linear(128, 64),       # 隐藏层1 → 隐藏层2
            nn.ReLU(),
            nn.Linear(64, 10)         # 隐藏层2 → 输出层（10类）
        )

    def forward(self, x):
        return self.model(x)


In [5]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model = MLP().to(device)
criterion = nn.CrossEntropyLoss()              # 自动加 softmax + one-hot loss
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)


In [6]:
def train(model, loader, optimizer, criterion, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(loader):
        data, target = data.to(device), target.to(device)

        # 前向传播
        output = model(data)
        loss = criterion(output, target)

        # 反向传播 + 更新参数
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()

        if batch_idx % 100 == 0:
            print(f"Train Epoch: {epoch} [{batch_idx * len(data)}/{len(loader.dataset)}]  Loss: {loss.item():.4f}")


In [7]:
def test(model, loader):
    model.eval()
    correct = 0
    total = 0

    with torch.no_grad():
        for data, target in loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            pred = output.argmax(dim=1)
            correct += (pred == target).sum().item()
            total += target.size(0)

    accuracy = 100. * correct / total
    print(f"Test Accuracy: {accuracy:.2f}%")


In [None]:
for epoch in range(1, 6):
    train(model, train_loader, optimizer, criterion, epoch)
    test(model, test_loader)


Train Epoch: 1 [0/60000]  Loss: 2.2964
Train Epoch: 1 [6400/60000]  Loss: 0.4901
Train Epoch: 1 [12800/60000]  Loss: 0.3854
Train Epoch: 1 [19200/60000]  Loss: 0.2871
Train Epoch: 1 [25600/60000]  Loss: 0.2668
Train Epoch: 1 [32000/60000]  Loss: 0.2352
Train Epoch: 1 [38400/60000]  Loss: 0.1647
Train Epoch: 1 [44800/60000]  Loss: 0.0816
Train Epoch: 1 [51200/60000]  Loss: 0.1236
Train Epoch: 1 [57600/60000]  Loss: 0.1558
Test Accuracy: 95.40%
Train Epoch: 2 [0/60000]  Loss: 0.1232
Train Epoch: 2 [6400/60000]  Loss: 0.1517
Train Epoch: 2 [12800/60000]  Loss: 0.1374
Train Epoch: 2 [19200/60000]  Loss: 0.2623
Train Epoch: 2 [25600/60000]  Loss: 0.0645
Train Epoch: 2 [32000/60000]  Loss: 0.0887
Train Epoch: 2 [38400/60000]  Loss: 0.3113
