## 分类问题

为了估计每个类别的条件概率，需要一个有多个输出的模型，每个类别对应一个输出。

对应于线性回归，分类问题需要和输出一样多的仿射函数(affine function)，假设有4个特征，3个可能的输出类别，那么将需要12个标量表示权重，3个标量表示偏置。

$$
\begin{aligned}
o_1 &= x_1 w_{11} + x_2 w_{12} + x_3 w_{13} + x_4 w_{14} + b_1,\\
o_2 &= x_1 w_{21} + x_2 w_{22} + x_3 w_{23} + x_4 w_{24} + b_2,\\
o_3 &= x_1 w_{31} + x_2 w_{32} + x_3 w_{33} + x_4 w_{34} + b_3.
\end{aligned}
$$

![](./img/softmaxreg.png)

向量的表示形式为$\mathbf{o} = \mathbf{W}\mathbf{x} + \mathbf{b}$

## softmax

$\mathrm{softmax}$是将预测的概率进行归一化，然后取最大的概率对应的类别作为预测的结果。

$$\hat{\mathbf{y}} = \mathrm{softmax}(\mathbf{o}) \quad \text{其中}\quad  \hat{y}_j = \frac{exp(o_j)}{\sum_k exp(o_k)}$$


$$\operatorname*{argmax}_j \hat{y}_j = \operatorname*{argmax}_j o_j$$

## 损失函数

$\mathrm{softmax}$得到向量$\mathbf{\hat{y}}$，可以将其视为给定$\mathbf{x}$的每个类别的估计条件概率。

$$P(\mathbf{Y}\mid \mathbf{X})= \prod_{i=1}^n P(\mathbf{y^{(i)} \mid \mathbf{x}^{(i)}}).$$

根据最大似然估计，最大化$P(\mathbf{Y} \mid \mathbf{X})$相当于最小化负对数似然：

$$
-\log P(\mathbf{Y} \mid \mathbf{X}) = \sum_{i=1}^n -\log P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)})
= \sum_{i=1}^n l(\mathbf{y}^{(i)}, \hat{\mathbf{y}}^{(i)}),
$$

$$ l(\mathbf{y}, \hat{\mathbf{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j. $$

## softmax及其导数

$$
\begin{aligned}
l(\mathbf{y}, \hat{\mathbf{y}}) &=  - \sum_{j=1}^q y_j \log \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} \\
&= \sum_{j=1}^q y_j \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j\\
&= \log \sum_{k=1}^q \exp(o_k) - \sum_{j=1}^q y_j o_j.
\end{aligned}
$$

为了更好地理解发生了什么，考虑相对于任何未归一化的预测 $o_j$ 的导数。我们得到：

$$
\partial_{o_j} l(\mathbf{y}, \hat{\mathbf{y}}) = \frac{\exp(o_j)}{\sum_{k=1}^q \exp(o_k)} - y_j = \mathrm{softmax}(\mathbf{o})_j - y_j.
$$

误差函数的导数刚好对应$\mathrm{softmax}$函数。