In [2]:
import torch
from IPython import display
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-images-idx3-ubyte.gz to ../data\FashionMNIST\raw\train-images-idx3-ubyte.gz


100.0%


Extracting ../data\FashionMNIST\raw\train-images-idx3-ubyte.gz to ../data\FashionMNIST\raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/train-labels-idx1-ubyte.gz to ../data\FashionMNIST\raw\train-labels-idx1-ubyte.gz


100.0%


Extracting ../data\FashionMNIST\raw\train-labels-idx1-ubyte.gz to ../data\FashionMNIST\raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-images-idx3-ubyte.gz to ../data\FashionMNIST\raw\t10k-images-idx3-ubyte.gz


100.0%


Extracting ../data\FashionMNIST\raw\t10k-images-idx3-ubyte.gz to ../data\FashionMNIST\raw

Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz
Downloading http://fashion-mnist.s3-website.eu-central-1.amazonaws.com/t10k-labels-idx1-ubyte.gz to ../data\FashionMNIST\raw\t10k-labels-idx1-ubyte.gz


100.0%

Extracting ../data\FashionMNIST\raw\t10k-labels-idx1-ubyte.gz to ../data\FashionMNIST\raw






In [3]:
"""1. 初始化模型参数
原始数据集中的每个样本都是28x28的图像。本节将展开每个图像，把它们看作长度为
784的向量。
我们的输出与类别一样多。因为我们的数据集由10个类别， 所以网络输出维度为10
权重将构成一个784x10的矩阵，偏置将构成一个1x10的行向量。与线性回归一样，我们
将使用正态分布初始化我们的权重W， 偏置初始化为0
"""
num_inputs = 784
num_outputs = 10

W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)
b = torch.zeros(num_outputs, requires_grad=True)

In [4]:
W

tensor([[-0.0014, -0.0025, -0.0275,  ..., -0.0090,  0.0121, -0.0010],
        [-0.0081,  0.0085,  0.0048,  ...,  0.0122,  0.0051, -0.0110],
        [ 0.0055, -0.0236, -0.0032,  ...,  0.0021,  0.0169, -0.0133],
        ...,
        [-0.0060, -0.0196,  0.0082,  ..., -0.0103,  0.0181, -0.0146],
        [ 0.0086, -0.0014, -0.0005,  ..., -0.0045, -0.0115, -0.0113],
        [-0.0010, -0.0081,  0.0025,  ..., -0.0058, -0.0222, -0.0005]],
       requires_grad=True)

In [5]:
b

tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.], requires_grad=True)

In [6]:
"""2. 定义softmax操作
在
实现softmax回归模型之前，我们简要回顾一下sum运算符如何沿着张量中的特定维度工作。
给定一个矩阵X，我们可以对所有元素求和（默认情况下）。也可以只求同一个轴上
的元素，即同一列（轴0）或同一行（轴1）。 如果X是一个形状为(2, 3)的张量，我们对
列进行求和，则结果将是一个具有形状（3，）的向量。当调用sum运算符时，我们可以指定
保持在原始张量的轴数，而不折叠求和的维度。这将产生一个形状(1,3)的二维张量

"""


X = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])
X.sum(0, keepdim=True)

tensor([[5., 7., 9.]])

In [7]:
X.sum(1, keepdim=True)

tensor([[ 6.],
        [15.]])

In [8]:
"""
softmax由3个步骤组成：
1. 对每个项求幂（使用exp）
2. 对每一行求和(小批量中每个样本是一行)， 得到每个样本的规范化常数；
3. 将每一行除以其规范化常数，确保结果的和为1
"""
from IPython.display import Image
Image(url="softmax_formula.png")

"""
分母或规范化常数，有时也称为配分函数（其对数称为对数-配分函数）
"""

In [9]:
def softmax(X):
    X_exp = torch.exp(X)
    partition = X_exp.sum(1, keepdim=True)
    return X_exp / partition

In [13]:
X = torch.normal(0, 1, (2,5))
X_prob = softmax(X)
X

tensor([[-0.9584, -1.7195, -0.0439,  0.5639,  1.1817],
        [ 0.7076, -1.1241,  0.4916,  0.1014,  0.1994]])

In [14]:
X_prob

tensor([[0.0587, 0.0274, 0.1464, 0.2689, 0.4987],
        [0.3213, 0.0514, 0.2588, 0.1752, 0.1933]])

In [15]:
X_prob.sum(1)

tensor([1.0000, 1.0000])

In [16]:
"""3. 定义模型
定义softmax操作后，我们可以实现softmax回归模型。下面的代码定义了输入如何通过
网络映射到输出。注意，将数据传递到模型之前，我们使用reshape函数将每张原始图像
展平为向量
"""
def net(X):
    return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)

In [18]:
"""4. 定义损失函数
交叉熵损失函数，这可能是深度学习中最常见的损失函数，因为目前分类问题的数量
远远超过回归问题的数量。

交叉熵采用真实标签的预测概率的负对数似然。 这里我们不使用Python的for循环
迭代预测(这往往是低效的)， 而是通过一个运算符选择所有元素。 下面，我们创建
一个数据样本y_hat, 其中包含2个样本在3个类别的预测概率，以及它们对应的标签y.
有了y, 我们知道在第一个样本中，第一类是正确的预测； 而在第二个样本中， 第三类
是正确的预测。然后使用y和y_hat中概率的索引， 我们选择第一个样本中第一个类别
的概率和第二个样本中第三个类的概率。
"""

y = torch.tensor([0,2])
y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3,0.2,0.5]])
y_hat[[0,1], y]

tensor([0.1000, 0.5000])

In [19]:
y_hat

tensor([[0.1000, 0.3000, 0.6000],
        [0.3000, 0.2000, 0.5000]])

In [20]:
y_hat[0]

tensor([0.1000, 0.3000, 0.6000])

In [23]:
y_hat[[0, 1], y]

tensor([0.1000, 0.5000])

In [25]:
y_hat[[0], 1]

tensor([0.3000])

In [26]:
# 实现交叉熵损失函数
def cross_entropy(y_hat, y):
    return - torch.log(y_hat[range(len(y_hat)), y])

cross_entropy(y_hat, y)

tensor([2.3026, 0.6931])

In [None]:
"""5. 分类精度
给定预测概率分布y_hat，当我们必须输出硬预测（hard prediction）时， 我们通常
选择预测概率最高的类。

当预测与标签分类y一致时，即是正确的。分类精度即正确预测数量与总预测数量之比。


"""