In [2]:
import torch
from IPython import display
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

### w，b 定义

展平图像，将其视为长度 784（28 * 28） 的向量，而标签是 10 个且作为输出（理所应当），由于输出是一个 `one-hot` 列表，
则公式应为 $output_{n * 10} = <X_{n * 784}, W_{784 * 10}> + b_{n * 10}$，这里的 `n` 代表的其实是样本数（batch_size）

对于公式的解释是：$X$ 代表 一定样本数的数据，每个样本数由 784 个点位组成且 784 个点位作为一个整体，$XW$ 代表每个整体点位都和每个标签权重做一次运算得到分类结果，行数只代表样本，每一行代表不同样本

In [3]:
num_inputs = 784 # softmax 输入向量
num_outputs = 10 # softmax 输出（10个标签 0-9）
W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True) # 权重
b = torch.zeros(num_outputs, requires_grad=True)

### 实现 softmax

$$
softmax(X)_{ij} = \frac {exp(X_{ij})} {\sum_k exp(X_{ik})}
$$
> $exp(X_{ij}) 代表对每一行进行 exp 操作$

In [4]:
def softmax(X):
    X_exp = torch.exp(X)
    partition = X_exp.sum(1, keepdim=True)
    print(partition)
    return X_exp / partition #广播机制，输出的每一行和为 1

### 实现 softmax 回归模型

In [5]:
def net(X):
    return softmax(torch.matmul(X.reshape(-1, W.shape[0]), W) + b)

#### 补充：`y_hat` 说明

这里索引代表，从 `y_hat` 两个维度中拿到和 `y` 中 0，1 下标对应数字的下标的值，即 `list(y_hat[0][y[0]], y_hat[1][y[1]])`

In [6]:
y = torch.tensor([0, 2])
y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.4, 0.5]])
y_hat[[0, 1], y] , list[y_hat[0][y[0]], y_hat[1][y[1]]]

(tensor([0.1000, 0.5000]), list[tensor(0.1000), tensor(0.5000)])

### 实现交叉熵损失函数

公式:$\ell(y,\hat y) = \sum_i{-y_ilog(y_i)} = -log{\hat y_y}$

In [7]:
def cross_entropy(y_hat, y):
    return -torch.log(y_hat[range(len(y_hat)), y]) # y_hat[range(len(y_hat)), y] 与 补充中的代码类似

cross_entropy(y_hat, y)

tensor([2.3026, 0.6931])

将预测类别与真实 `y` 元素进行比较

In [9]:
def accuracy(y_hat, y):
    if len(y_hat.shape) > 1 and y_hat.shape[1] > 1:
        y_hat = y_hat.argmax(axis=1) # 将每一行元素值最大的下标存到 y_hat 中
    cmp = y_hat.type(y.dtype) == y #将 y_hat 和 y 的元素类型相等后再比较每行下标是否相等，相等则赋 1
    return float(cmp.type(y.dtype).sum()) #把布尔转为 int

accuracy(y_hat, y) / len(y) #正确率

0.5

评估在任意模型的准确率

In [12]:
def evaluate_accuracy(net, data_iter):
    if isinstance(net, torch.nn.Module): # torch.nn.Module 是所有神经网络的基类
        net.eval() # 模型设置为评估模式
    metric = Accumulator(2) #累加器
    for X, y in data_iter:
        metric.add(accuracy(net(X), y), y.numel()) # numel 返回张量中元素总数，分别存储于下标 0 和 1
    return metric[0] / metric[1] # metric[0]表示累加器中正确预测的总数，metric[1]表示累加器中样本的总数