# 3.4 softmax回归

## 3.4.1分类问题

让我们考虑一个简单的图像分类问题，其输入图像的高和宽均为2像素，且色彩为灰度。这样每个像素值都可以用一个标量表示。我们将图像中的4像素分别记为$x_1,x_2,x_3,x_4$。假设训练数据集中图像的真实标签为狗、猫或鸡（假设可以用4像素表示出这3种动物），这些标签分别对应离散值$y_1,y_2,y_3$。

### 3.4.2 softmax 回归模型

softmax回归的输出值个数等于标签里的类别数。因为一共有4种特征和3种输出动物类别，所以权重包含12个标量（带下标的$\omega$）、偏差包含3个标量（带下标的$b$），且对每个输入计算$o_1,o_2,o_3$这3个输出：

$$o_1=x_1\omega_{11}+x_2\omega_{21}+x_3\omega_{31}+x_4\omega_{41}+b_1$$
$$o_2=x_1\omega_{12}+x_2\omega_{22}+x_3\omega_{32}+x_4\omega_{42}+b_2$$
$$o_3=x_1\omega_{13}+x_2\omega_{23}+x_3\omega_{33}+x_4\omega_{43}+b_3$$

分类问题需要得到离散的预测输出，一个简单的办法是将输出值$o_i$当作预测类别是ii的置信度，并将值最大的输出所对应的类作为预测输出，即输出$ arg max_i o_i$。例如，如果$o_1,o_2,o_3$分别为0.1,10,0.10，由于$o_2$最大，那么预测类别为2，其代表猫。

然而，直接使用输出层的输出有两个问题。一方面，由于输出层的输出值的范围不确定，我们难以直观上判断这些值的意义。例如，刚才举的例子中的输出值10表示“很置信”图像类别为猫，因为该输出值是其他两类的输出值的100倍。但如果$o_1=o_3=10^3$，那么输出值10却又表示图像类别为猫的概率很低。另一方面，由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。

softmax运算符（softmax operator）解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布：

<font size='4'>$$\hat{y_1},\hat{y_2},\hat{y_3}=softmax(o_1,o_2,o_3)$$

其中， $\hat{y_i}=\frac{exp(o_i)}{\sum{i=1}^{3}exp(o_i)}$</font>

### 3.4.3 单样本分类的矢量计算表达式

假设softmax回归的权重和偏差参数分别为：

$W=\begin{bmatrix}
\omega_{11} & \omega_{12}  & \omega_{13} \\ 
\omega_{21}  & \omega_{22}  &\omega_{23}  \\ 
 \omega_{31} & \omega_{32}  & \omega_{33} \\ 
\omega_{41}  &\omega_{42}   & \omega_{43} 
\end{bmatrix}$,$b=[b_1, b_2,b_3]$

设高和宽分别为2个像素的图像样本$i$的特征为:
$$x^{(i)}=[x_1{(i)},  x_2{(i)}, x_3{(i)} , x_4{(i)}]$$

输出层的输出为：
$$O^{(i)}=[o_1^{(i)},o_2^{(i)},o_3^{(i)}]$$

预测为狗、猫或鸡的概率分布为:
    $$\hat{y}^{(i)}=[\hat{y_1}^{(i)},\hat{y_2}^{(i)},\hat{y_3}^{(i)}]$$

softmax回归对样本$i$分类的矢量计算表达式为:
$$o^{(i)}=x^{(i)}W+b$$
$$\hat{y}^{(i)}=softmax(o^{(i)})$$

### 3.4.4 小样本分类的矢量计算表达式

为了进一步提升计算效率，我们通常对小批量数据做矢量计算。广义上讲，给定一个小批量样本，其批量大小为$n$，输入个数（特征数）为$d$，输出个数（类别数）为$q$。设批量特征为$X\in \mathbb{R}^{n\times d}$。假设softmax回归的权重和偏差参数分别为$W\in \mathbb{R}^{d\times q}$和$b \in \mathbb{R}^{1\times q}$。softmax回归的矢量计算表达式为
$$O=XW+b$$
$$\hat{Y}=softmax(O)$$

其中的加法运算使用了广播机制，$O,\hat{Y}\in \mathbb{R}^{n\times q}$且这两个矩阵的第$i$行分别为样本$i$的输出$o^{(i)}$和概率分布$yˆ(i)$。

### 3.4.5 交叉熵损失函数

![Snipaste_2020-09-07_21-57-49.png](attachment:Snipaste_2020-09-07_21-57-49.png)

![Snipaste_2020-09-07_21-58-51.png](attachment:Snipaste_2020-09-07_21-58-51.png)