# 一些概念

一般的分类问题：
![image.png](attachment:6f626ea4-862b-47f9-bdcb-fa575763c236.png)

而softmax回归是多分类问题。 
与线性回归一样，softmax回归也是一个单层神经网络。
由于计算每个输出$o_1$、$o_2$和$o_3$取决于
所有输入$x_1$、$x_2$、$x_3$和$x_4$，
所以softmax回归的输出层也是全连接层。

 ![image.png](attachment:19c0b325-0a69-430e-b2b7-623b69d11643.png)
通过向量形式表达为$\mathbf{o} = \mathbf{W} \mathbf{x} + \mathbf{b}$，

![image.png](attachment:87e5dfb1-16f1-4eaf-9794-6d1d7a674715.png)

**总结来说：** 
- Softmax回归是一个多类分类模型
- 使用Softmax操作子得到每个类的预测置信度
    - 通过Softmax操作，你可以得到每个类别的预测置信度，这些置信度表示模型认为输入数据属于每个类别的概率。在实际应用中，你通常会选择具有最高置信度的类别作为模型的预测结果。
- 使用交叉熵来来衡量预测和标号的区别
  
具体来说，假设你有一个分类问题，其中有 C 个类别。模型的最后一层通常会输出一个长度为 C 的向量，这个向量中的每个元素对应于一个类别的原始分数（logits）。Softmax函数的作用就是将这些原始分数转换为一组概率值，这些概率值加起来等于1，每个值表示对应类别的预测置信度。

# 从0开始实现
这里的实现还是看别人的吧 我这没有很完整。。。可以简单看个思路
[code](https://zh-v2.d2l.ai/chapter_linear-networks/softmax-regression-scratch.html)

引入的Fashion-MNIST数据集， 并设置数据迭代器的批量大小为256

In [1]:
import torch
from IPython import display
import d2l
batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

初始化模型参数  
- 原始数据集中的每个样本都是的图像。 本节将展平每个图像，把它们看作长度为784的向量。 【因为softmax回归输入需要是向量】

In [2]:
num_inputs = 784
num_outputs = 10

W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)
b = torch.zeros(num_outputs, requires_grad=True)

softmax定义 
 
 维度有点难懂！
- 按行求和：在计算softmax函数时，对于一个形状为(batch_size,num_classes)的张量【也是输入值X】，按行求和可以得到每个样本（每个样本对应一行）在所有类别上的概率总和，以确保每个样本的概率总和为1。
![image.png](attachment:image.png)

In [3]:
def softmax(X):
    X_exp = torch.exp(X)
    partition = X_exp.sum(1, keepdim=True)
    return X_exp / partition  # 这里应用了广播机制

定义模型  
- 定义softmax操作后，我们可以实现softmax回归模型。 下面的代码定义了输入如何通过网络映射到输出。 注意，将数据传递到模型之前，我们使用reshape函数将每张原始图像展平为向量。

In [4]:
def net(X):
    return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)

 定义损失函数

In [5]:
def cross_entropy(y_hat, y): #交叉熵损失函数
    return - torch.log(y_hat[range(len(y_hat)), y])

分类精度   
- 当预测与标签分类y一致时，即是正确的。 分类精度即正确预测数量与总预测数量之比。 

In [6]:
def accuracy(y_hat, y):  #@save
    """计算预测正确的数量"""
    if len(y_hat.shape) > 1 and y_hat.shape[1] > 1:
        y_hat = y_hat.argmax(axis=1)  # 沿着行方向进行的，也就是一行一行的检索最大值
    cmp = y_hat.type(y.dtype) == y
    return float(cmp.type(y.dtype).sum())
# accuracy(y_hat, y) / len(y) 最后还要再除以总样本数

In [7]:
def evaluate_accuracy(net, data_iter):  #@save
    """计算在指定数据集上模型的精度"""
    if isinstance(net, torch.nn.Module):
        net.eval()  # 将模型设置为评估模式
    metric = Accumulator(2)  # 正确预测数、预测总数
    with torch.no_grad():
        for X, y in data_iter:
            metric.add(accuracy(net(X), y), y.numel())
    return metric[0] / metric[1]

In [8]:
class Accumulator:  #@save
    """在n个变量上累加"""
    def __init__(self, n):
        self.data = [0.0] * n

    def add(self, *args):  #关键：会根据传入的参数值更新 self.data 列表中的各个元素，完成相应变量的累加过程。
        self.data = [a + float(b) for a, b in zip(self.data, args)]

    def reset(self):
        self.data = [0.0] * len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

其他需要设定的：

In [9]:
lr = 0.1

def updater(batch_size):
    return d2l.sgd([W, b], lr, batch_size)

训练

In [10]:
def train_epoch_ch3(net, train_iter, loss, updater):  #@save
    """训练模型一个迭代周期（定义见第3章）"""
    # 将模型设置为训练模式
    if isinstance(net, torch.nn.Module):
        net.train()
    # 训练损失总和、训练准确度总和、样本数
    metric = Accumulator(3)
    for X, y in train_iter:
        # 计算梯度并更新参数
        y_hat = net(X)
        l = loss(y_hat, y)
        if isinstance(updater, torch.optim.Optimizer):
            # 使用PyTorch内置的优化器和损失函数
            updater.zero_grad()
            l.mean().backward()
            updater.step()
        else:
            # 使用定制的优化器和损失函数
            l.sum().backward()   
            updater(X.shape[0])    #updater是更新模型参数的常用函数。它接受批量大小作为参数。
        metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())
    # 返回训练损失和训练精度
    return metric[0] / metric[2], metric[1] / metric[2]

In [None]:
num_epochs=10
for epoch in range(num_epochs):
    train_loss,train_acc=train_epoch_ch3(net,train_iter,cross_entropy,updater)
    test_acc=evaluate_accuracy(net,train_iter)
 
    print(f'train_loss:{train_loss},train_acc:{train_acc},test_acc:{test_acc}')

train_loss:nan,train_acc:0.27108333333333334,test_acc:0.1
train_loss:nan,train_acc:0.1,test_acc:0.1
train_loss:nan,train_acc:0.1,test_acc:0.1
train_loss:nan,train_acc:0.1,test_acc:0.1
train_loss:nan,train_acc:0.1,test_acc:0.1
train_loss:nan,train_acc:0.1,test_acc:0.1


预测

In [71]:
 def predict_ch3(net, test_iter, n=6):  #@save
    """预测标签（定义见第3章）"""
    for X, y in test_iter:
        break
    trues = d2l.get_fashion_mnist_labels(y)
    preds = d2l.get_fashion_mnist_labels(net(X).argmax(axis=1))

# 补充一点基础知识

In [25]:
# zip 函数用于将多个可迭代对象（如列表、元组等）中对应位置的元素打包成一个个元组，然后返回一个由这些元组组成的可迭代对象（迭代器形式）
list1 = [1, 2, 3]
list2 = [4, 5, 6]
zipped = zip(list1, list2)
print(list(zipped))  # 输出: [(1, 4), (2, 5), (3, 6)]

[(1, 4), (2, 5), (3, 6)]


2. 
列表推导式是 Python 中一种简洁且高效的创建列表的方式。它的基本语法形式是 [表达式 for 变量 in 可迭代对象]，其含义是对于 可迭代对象 中的每个元素，将其赋值给 变量，然后通过 表达式 进行相应的计算，并把计算结果依次添加到最终生成的列表中。

例如，[x**2 for x in range(5)]，这里 range(5) 是可迭代对象（会生成 0、1、2、3、4 这几个整数），对于其中每个元素 x，执行 x**2（求平方运算）这个表达式，最终生成的列表就是 [0, 1, 4, 9, 16]。