[【官方双语】深度学习之神经网络的结构](https://b23.tv/XNhooa)  
[【官方双语】深度学习之梯度下降法](https://b23.tv/bAS3Me)

# softmax的基本概念

- 分类问题：
    - 一个简单的图像分类问题，输入图像的高和宽均为2像素，色彩为灰度。
    - 图像中的4像素分别是$x_1$，$x_2$，$x_3$，$x_4$。
    - 假设真实标签为狗、猫或者鸡，这些标签对应的离散值为$y_1$，$y_2$，$y_3$。
    - 我们通常使用离散的数值来表示类别，例如$y_1=1$，$y_2=2$，$y_3=3$。
- 权重矢量
    - $o_1=x_1w_{11}+x_2w_{21}+x_3w_{31}+x_4w_{41}+b_1$
    - $o_2=x_1w_{12}+x_2w_{22}+x_3w_{32}+x_4w_{42}+b_2$
    - $o_3=x_1w_{13}+x_2w_{23}+x_3w_{33}+x_4w_{43}+b_3$
- 神经网络图
    - 下图用神经网络图描绘了上面的计算。softmax回归同线性回归一样，也是一个单层神经网络。由于每个输出$o_1$，$o_2$，$o_3$的计算都要依赖于所有的输入$x_1$，$x_2$，$x_3$，$x_4$，softmax回归的输出层也是一个全连接层。 
    
    <img src="https://cdn.nlark.com/yuque/0/2021/jpeg/1508544/1613313946469-ca66b5b1-4365-404d-9777-e7bf9abf890c.jpeg"/>

既然分类问题需要得到离散的预测输出，一个简单的办法是将输出值当作预测类别是的置信度，并将值最大的输出所对应的类作为预测输出，即 输出$\arg\max_i o_i$。例如，如果$o_1$，$o_2$，$o_3$分别是0.1,10,0.1,由于$o_2$最大，那么预测类别为2，其代表猫。
- 输出问题
    - 直接使用输出层的输出有两个问题：
    - 一方面，由于输出层的输出值的范围不确定，我们难以直观上判断这些值的意义。例如，刚才举的例子中的输出值10表示“很置信”图像类别为猫，因为输出值是其他两类的输出值的100倍。但如果$o_1=o_3=10^3$，那么输出值10却又表示图像类别为猫的概率很低。
    - 另一方面，由于真实标签是离散值，这些离散值与不确定范围的输出值之间的误差难以衡量。
- softmax运算符解决了以上两个问题。它通过下式将输出值变换成值为正且和为1的概率分布：
    - $\hat y_1,\hat y_2,\hat y_3=softmax(o_1,o_2,o_3)$
    - 其中，$\hat y_1=\frac{exp(o_1)}{\sum_{i=1}^3exp(o_i)}$，$\hat y_2=\frac{exp(o_2)}{\sum_{i=1}^3exp(o_i)}$，$\hat y_3=\frac{exp(o_3)}{\sum_{i=1}^3exp(o_i)}$
    - 容易看出$\hat y_1+\hat y_2+\hat y_3=1$且$0\leq \hat y_1, \hat y_2, \hat y_3 \leq 1$，因此$\hat y_1$, $\hat y_2$, $\hat y_3$是一个合法的概率分布。这时候，如果$\hat y_2 = 0.8$，不管$\hat y_1$和$\hat y_3$的值是多少，我们都知道图像类别为猫的概率为80%。此外，我们注意到$\arg\max_i o_i=\arg\max_i \hat y_i$。因此softmax运算不改变预测类别输出。
- 计算效率
    - 单样本矢量计算表达式
    - 为了提高计算效率，我们可以将单样本分类通过矢量计算来表达。在上面的图像分类问题中，假设softmax回归的权重和偏差参数分别为
        - $W=
\begin{bmatrix}
w_{11} & w_{12} & w_{13}\\
w_{21} & w_{22} & w_{23}\\
w_{31} & w_{32} & w_{33}\\
w_{41} & w_{42} & w_{43}
\end{bmatrix}$，$b=[b_1, b_2, b_3]$
        - 设高和宽分别为2个像素的图像样本的特征为：$x^{(i)}=[x_1^{(i)} \ x_2^{(i)} \ x_3^{(i)} \ x_4^{(i)}]$
        - 输出层的输出为：$o^{(i)}=[o_1^{(i)} \ o_2^{(i)} \ o_3^{(i)}]$
        - 预测为狗、猫或鸡的概率分布为：$\hat y^{(i)}=[\hat y_1^{(i)} \ \hat y_2^{(i)} \ \hat y_3^{(i)}]$
        - softmax回归对样本分类的矢量计算表达式为：$\begin{align}
o^{(i)}=x^{(i)}W+b\\
\hat y^{(i)}=softmax(o^{(i)})
\end{align}$
    - 小批量矢量计算表达式
    - 为了进一步提升计算效率，我们通常对小批量数据做矢量计算。广义上讲，给定一个小批量样本，其批量大小为$n$，输入个数（特征数）为$d$，输出个数（类别数）为$q$。设批量特征为$X\in R^{n×d}$。假设softmax回归的权重和偏差参数分别为$W\in R^{d×q}$和$b\in R^{1×q}$。softmax回归的矢量计算表达式为：$\begin{align}
O=XW+b\\
\hat Y=softmax(O)
\end{align}$
- 其中的加法运算使用了广播机制，$O,\hat Y\in R^{n×q}$且这两个矩阵的第$i$行分别为样本$i$的输出$o^{(i)}$和概率分布$\hat y^{(i)}$。

# 交叉熵损失函数
- 对于样本，我们构造向量$y^{(i)}\in R^q$，使其第$y^{(i)}$（样本$i$类别的离散数值）个元素为1，其余为0。这样我们的训练目标可以设为使预测概率分布$\hat y^{(i)}$尽可能接近真实的标签概率分布$y^{(i)}$。
- 平方损失估计：$Loss=|\hat y^{(i)}-y^{(i)}|^2/2$
- 然而，想要预测分类结果正确，我们其实并不需要预测概率完全等于标签概率。例如，在图像分类的例子里，如果$y^{(i)}=3$，那么我们只需要$\hat y_3^{(i)}$比其他两个预测值$\hat y_1^{(i)}$和$\hat y_2^{(i)}$大就行了。即使$\hat y_3^{(i)}$值为0.6，不管其他两个预测值为多少，类别预测均正确。而平方损失则过于严格，例如$\hat y_1^{(i)}=\hat y_2^{(i)}=0.2$比$\hat y_1^{(i)}=0, \hat y_2^{(i)}=0.4$的损失要小很多，虽然两者都有同样正确的分类预测结果。
- 改善上述问题的一个方法是使用更合适衡量两个概率分布差异的测量函数。其中，交叉熵是一个常用的衡量方法：$H\left(y^{(i)}, \hat y^{(i)}\right)=-\sum_{j=1}^qy_j^{(i)}\log \hat y_j^{(i)}$
- 假设训练数据集的样本数为，交叉熵损失函数定义为：$L(\theta)=\frac{1}{n}\sum_{i=1}^nH\left(y^{(i)}, 
\hat y^{(i)}\right)$
- 其中$\theta$代表模型参数。同样地，如果每个样本只有一个标签，那么交叉熵损失可以简写成$L(\theta)=-(1/n)\sum_{i=1}^n\log\hat y^{(i)}_{y^{(i)}}$。从另一个角度来看，我们知道最小化$L(\theta)$等价于最大化$exp(-nL(\theta))=\prod_{i=1}^n \hat y^{(i)}_{y^{(i)}}$，即最小化交叉熵损失函数等价于最大化训练数据集所有标签类别的联合预测概率。

# 模型训练和预测
- 在训练好softmax回归模型后，给定任一样本特征，就可以预测每个输出类别的概率。通常，我们把预测概率最大的类别作为输出类别。如果它与真实类别（标签）一致，说明这次预测是正确的。

# 代码


## 导入相关库

In [1]:
import torch
from torch import nn

## 定义数据集
- 自定义输入X为7张高和宽均为2像素的灰度图片
- 自定义输出target为$y_1=0$, $y_2=1$, $y_3=2$

In [2]:
# 确定随机数种子
torch.manual_seed(7)
# 自定义数据集
X = torch.rand((7, 2, 2))
target = torch.randint(0, 2, (7,))

## 定义网络结构
- 定义如下所示的网络结构
    - 一层全连接层 + Softmax层
    - $x_1$,$x_2$,$x_3$,$x_4$为 X
    - $o_1$,$o_2$,$o_3$为 target  

 <img src="https://cdn.nlark.com/yuque/0/2021/jpeg/1508544/1613313946469-ca66b5b1-4365-404d-9777-e7bf9abf890c.jpeg"/>

In [3]:
# 自定义网络结构
class LinearNet(nn.Module):
    def __init__(self):
        super(LinearNet, self).__init__()
        # 定义一层全连接层
        self.dense = nn.Linear(4, 3)
        # 定义Softmax
        self.softmax = nn.Softmax(dim=1)

    def forward(self, x):
        y = self.dense(x.view((-1, 4)))
        y = self.softmax(y)
        return y

net = LinearNet()

## 定义损失函数
- torch.nn.CrossEntropyLoss(weight=None, size_average=None, ignore_index=-100, reduce=None, reduction='mean')
- 衡量模型输出与真实标签的差异，在分类时相当有用。
- 结合了nn.LogSoftmax()和nn.NLLLoss()两个函数，进行交叉熵计算。
- 主要参数：
    - weight: 各类别的loss设置权值
    - ignore_index: 忽略某个类别
    - reduction: 计算模式，可为none/sum/mean
        - none: 逐个元素计算
        - sum: 所有元素求和，返回标量
        - mean: 加权平均，返回标量

In [4]:
loss = nn.CrossEntropyLoss()  # 交叉熵损失函数

## 定义优化函数
- torch.optim.SGD(params, lr=<required parameter>, momentum=0, dampening=0, weight_decay=0, nesterov=False)
- 构建一个优化器对象optimizer，用来保存当前的状态，并能够根据计算得到的梯度来更新参数，使得模型输出更接近真实标签。
- 学习率（learning rate）控制更新的步伐。
- 主要参数：
    - params: 管理的参数组
    - lr: 初始化学习率
    - momentum: 动量系数
    - weight_decay: L2正则化系数
    - nesterov: 是否采用NAG
- zero_grad(): 清空所管理参数的梯度，因为Pytorch张量梯度不自动清零。
- step(): 执行一步更新
    

In [5]:
optimizer = torch.optim.SGD(net.parameters(), lr=0.1)  # 随机梯度下降法

## 开始训练模型

In [6]:
for epoch in range(70):
    train_l = 0.0
    y_hat = net(X)
    l = loss(y_hat, target).sum()

    # 梯度清零
    optimizer.zero_grad()
    # 自动求导梯度
    l.backward()
    # 利用优化函数调整所有权重参数
    optimizer.step()

    train_l += l
    print('epoch %d, loss %.4f' % (epoch + 1, train_l))

epoch 1, loss 1.1055
epoch 2, loss 1.0455
epoch 3, loss 1.0058
epoch 4, loss 0.9789
epoch 5, loss 0.9587
epoch 6, loss 0.9419
epoch 7, loss 0.9269
epoch 8, loss 0.9130
epoch 9, loss 0.8999
epoch 10, loss 0.8874
epoch 11, loss 0.8752
epoch 12, loss 0.8634
epoch 13, loss 0.8519
epoch 14, loss 0.8407
epoch 15, loss 0.8298
epoch 16, loss 0.8194
epoch 17, loss 0.8093
epoch 18, loss 0.7995
epoch 19, loss 0.7901
epoch 20, loss 0.7810
epoch 21, loss 0.7723
epoch 22, loss 0.7639
epoch 23, loss 0.7559
epoch 24, loss 0.7482
epoch 25, loss 0.7409
epoch 26, loss 0.7338
epoch 27, loss 0.7270
epoch 28, loss 0.7206
epoch 29, loss 0.7145
epoch 30, loss 0.7086
epoch 31, loss 0.7030
epoch 32, loss 0.6977
epoch 33, loss 0.6926
epoch 34, loss 0.6878
epoch 35, loss 0.6832
epoch 36, loss 0.6788
epoch 37, loss 0.6747
epoch 38, loss 0.6707
epoch 39, loss 0.6669
epoch 40, loss 0.6632
epoch 41, loss 0.6598
epoch 42, loss 0.6565
epoch 43, loss 0.6533
epoch 44, loss 0.6503
epoch 45, loss 0.6474
epoch 46, loss 0.64

  allow_unreachable=True)  # allow_unreachable flag


# 练习题
选择题：
1. `softmax([100, 101, 102])`的结果等于以下的哪一项
    - A.`softmax([10.0, 10.1, 10.2])`
    - B.`softmax([-100, -101, -102])`
    - C.`softmax([-2, -1, 0])`
    - D.`softmax([1000, 1010, 1020])` 

答案：
1. C