| 模块 | 核心内容 | 关键细节 |
|------|----------|----------|
| **适用场景** | 多分类问题 | 解决“哪一个”的问题，如图像分类、垃圾邮件识别；可输出**硬性类别**（直接选最大概率类）或**软性类别**（输出各类别概率） |
| **标签表示** | 独热编码 | 类别数为 $q$ 时，标签为 $q$ 维向量，正确类别位置为 1，其余为 0；如 3 分类中“猫”对应 $(1,0,0)$ |
| **网络架构** | 单层全连接神经网络 | 1. 输入特征维度 $d$，输出类别数 $q$，权重矩阵 $\boldsymbol{W} \in \mathbb{R}^{d \times q}$，偏置 $\boldsymbol{b} \in \mathbb{R}^{1 \times q}$<br>2. 未规范化预测（logit）：$\boldsymbol{o} = \boldsymbol{W}\boldsymbol{x} + \boldsymbol{b}$<br>3. 属于线性模型，因输出由输入的仿射变换决定 |
| **Softmax 运算** | 概率归一化 | 1. 公式：$\hat{y}_j = \frac{\exp(o_j)}{\sum_{k}\exp(o_k)}$<br>2. 作用：将 logit 转换为**非负、总和为 1** 的概率分布<br>3. 特性：不改变 logit 的大小次序，预测时 $\arg\max_j \hat{y}_j = \arg\max_j o_j$ |
| **小批量矢量化计算** | 提升计算效率（适配 GPU） | 1. 小批量特征矩阵 $\boldsymbol{X} \in \mathbb{R}^{n \times d}$（$n$ 为批量大小）<br>2. 批量计算：$\boldsymbol{O} = \boldsymbol{X}\boldsymbol{W} + \boldsymbol{b}$，$\hat{\boldsymbol{Y}} = \text{softmax}(\boldsymbol{O})$<br>3. 输出 $\hat{\boldsymbol{Y}} \in \mathbb{R}^{n \times q}$，按行执行 softmax 运算 |
| **损失函数** | 交叉熵损失 | 1. 推导：基于**最大似然估计**，最小化负对数似然<br>2. 公式：$l(\boldsymbol{y}, \hat{\boldsymbol{y}}) = -\sum_{j=1}^q y_j \log\hat{y}_j$（$\boldsymbol{y}$ 为独热标签）<br>3. 导数性质：$\frac{\partial l}{\partial o_j} = \hat{y}_j - y_j$，梯度为预测概率与真实标签的差值 |
| **信息论基础** | 熵与交叉熵的意义 | 1. **熵 $H[P]$**：真实分布 $P$ 的信息量期望，衡量数据的不确定性<br>2. **交叉熵 $H(P,Q)$**：用预测分布 $Q$ 编码真实分布 $P$ 数据的期望惊异度；$P=Q$ 时交叉熵最小，等于熵 |
| **模型评估** | 精度 | 精度 = 正确预测数 / 总预测数，衡量分类结果的准确性 |
| **核心特性** | 线性多分类模型 | 虽含 softmax 非线性运算，但输出由输入的仿射变换决定，属于线性模型 |

1、Softmax 回归是线性多分类模型，通过全连接层 + softmax 运算实现多类别概率输出。

2、交叉熵损失是分类任务的核心损失函数，与最大似然估计等价，梯度计算简洁。

3、小批量矢量化是深度学习高效计算的关键手段，可充分利用硬件并行能力。

In [None]:
260110_2313