# softmax回归

线性回归也是一种单层神经网络，输入有**n**个神经元，但是输出有**m**个神经元，因为它是用于分类的，输出代表不同类别的概率

### Softmax关键公式
1. Softmax的定义：Softmax函数将一个实数向量转换为概率分布。对于每个元素，它计算该元素的指数与所有元素的指数之和的比值。这样可以确保输出向量的所有元素都是非负的，并且总和为1，因此可以被视为概率分布

$$
\widehat{y} = softmax(o)     
\widehat{y}_{j} = \frac{exp(o_{j})}{\sum_{k=1}exp{(o_{k})}}
$$

2. Softmax的输出就是选择最有可能的类别（取概率最大的），尽管softmax函数改变了输出向量的值，但它不改变元素之间的顺序，如（1，2，2）-（0.2，0.4，0.4）

$$
argmax_{j} \widehat{y}_{j} = argmax_{j} o_{j}
$$

3. 交叉熵损失：在多分类问题中，模型预测的概率分布为  ，而真实的标签分布为  。交叉熵损失函数用于度量这两个分布之间的差异。公式如下：

$$
loss(y,\widehat{y}) = - \sum_{j=1}^{q} y_jlog{\widehat{y}_{j}}
$$

这里的log就是ln

4. 交叉熵损失的导数：交叉熵损失函数的梯度是softmax模型分配的概率与真实标签（由独热标签向量表示）之间的差异。

$$
\frac{\partial}{\partial{o_{j}}} loss(y,\widehat{y}) = softmax(o)_{j} - y_{j}
$$

将展平每个图像，把它们看作长度为784的向量。
因为我们的数据集有10个类别，所以网络输出维度为10

In [None]:
import torch
from torch import nn

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

num_inputs = 784
num_outputs = 10

net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))
net.apply(init_weights)

# 在交叉熵损失函数中传递未规范化的预测，并同时计算softmax及其对数
loss = nn.CrossEntropyLoss()

# 使用学习率为0.1的小批量随机梯度下降作为优化算法
trainer = torch.optim.SGD(net.parameters(), lr=0.1)


# 生成模拟数据
num_train = 80  # 训练样本数
num_test = 20   # 测试样本数
num_classes = 10  # 标签类别数

# 生成随机数据（形状：80*784的训练数据 + 20*784的测试数据）
train_data = torch.randn(num_train, num_inputs)  # 正态分布随机数
test_data = torch.randn(num_test, num_inputs)

# 生成100*1的标签（前80个是训练标签，后20个是测试标签）
labels = torch.randint(0, num_classes, (num_train + num_test, 1))  # 0~2的随机整数

# 分离训练和测试标签
train_labels = labels[:num_train]
test_labels = labels[num_train:]

# 训练
num_epochs = 100
for epoch in range(num_epochs):
    l = loss(net(train_data),train_labels.squeeze())
    trainer.zero_grad()
    l.backward()
    trainer.step()
    print(f'epoch {epoch + 1}, loss {l:f}')

# 在测试集上的准确率
y = test_labels.squeeze()
y_hat = net(test_data).argmax(dim=1)

acc = (y == y_hat).sum().item()/len(y)
print(acc)




epoch 1, loss 2.306316
epoch 2, loss 1.475313
epoch 3, loss 0.911730
epoch 4, loss 0.588419
epoch 5, loss 0.410199
epoch 6, loss 0.306664
epoch 7, loss 0.241836
epoch 8, loss 0.198371
epoch 9, loss 0.167557
epoch 10, loss 0.144721
epoch 11, loss 0.127190
epoch 12, loss 0.113344
epoch 13, loss 0.102151
epoch 14, loss 0.092927
epoch 15, loss 0.085202
epoch 16, loss 0.078642
epoch 17, loss 0.073005
epoch 18, loss 0.068111
epoch 19, loss 0.063823
epoch 20, loss 0.060038
epoch 21, loss 0.056671
epoch 22, loss 0.053658
epoch 23, loss 0.050946
epoch 24, loss 0.048492
epoch 25, loss 0.046262
epoch 26, loss 0.044227
epoch 27, loss 0.042361
epoch 28, loss 0.040646
epoch 29, loss 0.039063
epoch 30, loss 0.037598
epoch 31, loss 0.036238
epoch 32, loss 0.034972
epoch 33, loss 0.033792
epoch 34, loss 0.032688
epoch 35, loss 0.031654
epoch 36, loss 0.030682
epoch 37, loss 0.029768
epoch 38, loss 0.028907
epoch 39, loss 0.028094
epoch 40, loss 0.027326
epoch 41, loss 0.026598
epoch 42, loss 0.025907
e