### 1. Tensor
我们将从最基本的张量开始。首先，浏览官方张量教程[这里](https://pytorch.org/tutorials/beginner/blitz/tensor_tutorial.html)。

> 张量是一种特殊的数据结构，与数组和矩阵非常相似。在PyTorch中，我们使用张量对模型的输入和输出以及模型的参数进行编码。张量与NumPy的 ndarray 类似，不同之处在于张量可以在GPU或其他专用硬件上运行以加速计算。如果您熟悉 ndarrays，那么您就会熟悉Tensor API。如果没有，请按照此下面的问题进行操作。最好可以不看答案操作一遍，先思考一下，再去搜索一下，最后比对一下正确的操作。这样子效果是最好的。

In [1]:
import torch

1. 将二维列表 [[5,3], [0,9]] 转换为一个张量

In [2]:
data = [[5, 3], [0, 9]]
x_data = torch.tensor(data)

2. 使用区间 [0, 1) 上均匀分布的随机数创建形状 (5, 4) 的张量“t”

In [3]:
t = torch.rand((5,4))

3. 找出张量“t”所在的设备及其数据类型。


In [4]:
print(t.device) # cpu

print(t.dtype) # float32

cpu
torch.float32


4. 创建形状 (4,4) 和 (4,4) 的两个随机张量，分别称为“u”和“v”。将它们连接起来形成形状为 (8, 4) 的张量。

In [5]:
u = torch.randn((4,4))
v = torch.randn((4,4))
print(torch.concat((u,v), dim=0).shape) # torch.Size([8, 4])

torch.Size([8, 4])


5. 连接 u 和 v 以创建形状 (2, 4, 4) 的张量。

In [6]:
print(torch.stack((u,v), dim=0).shape) # torch.Size([2, 4, 4])

torch.Size([2, 4, 4])


6. 连接 u 和 v 形成一个张量，称为形状 (4, 4, 2) 的 w。

In [7]:
w = torch.stack((u,v), dim=2)
print(w.shape) # torch.Size([4, 4, 2])

torch.Size([4, 4, 2])


7. 索引 w 位于 3, 3, 0。将该元素称为“e”。

In [8]:
e = w[3,3,0]

8. 会在 u 或 v 的哪一个中找到 w？并核实。

In [9]:
# in u
w[3,3,0] == u[3,3] # True

tensor(True)

9. 创建一个形状为 (4, 3) 的全为 1 的张量 ‘a’。对 ‘a’ 进行元素级别的自乘操作。

In [10]:
a = torch.ones((4,3))
a * a # tensor([[1., 1., 1.],[1., 1., 1.],[1., 1., 1.],[1., 1., 1.]])

tensor([[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]])

10. 向“a”添加一个额外的维度（新的第 0 维度）。

In [11]:
print(torch.unsqueeze(a, 0).shape) # torch.Size([1, 4, 3])

torch.Size([1, 4, 3])


11. 执行 a 与转置矩阵的乘法。

In [12]:
a @ a.T # tensor([3., 3., 3., 3.],[3., 3., 3., 3.],[3., 3., 3., 3.],[3.,

tensor([[3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.],
        [3., 3., 3., 3.]])

12. a.mul(a) 会产生什么结果？

In [17]:
# 元素乘法，与#9相同

13. a.matmul(a.T) 会产生什么结果？

In [14]:
# 矩阵乘法又称为点积，与 #11 相同

14. What would a.mul(a.T) result in?

In [18]:
# 错误；尺寸不匹配。

15. 猜猜下面会打印什么。验证一下

In [19]:
t = torch.ones(5)
n = t.numpy()
n[0] = 2
print(t)

tensor([2., 1., 1., 1., 1.])


16. 下面会打印什么？

In [20]:
t = torch.tensor([2., 1., 1., 1., 1.])
t.add(2)
t.add_(1)
print(n)

[2. 1. 1. 1. 1.]


### 2.Autograd 和神经网络
接下来，我们学习[自动梯度](https://pytorch.org/tutorials/beginner/blitz/autograd_tutorial.html)教程和[神经网络](https://pytorch.org/tutorials/beginner/blitz/neural_networks_tutorial.html)教程。

神经网络(NN) 是对某些输入数据执行的嵌套函数的集合。这些函数由参数（由权重和偏差组成）定义，这些参数在PyTorch中存储在张量中。可以使用 torch.nn 包构建神经网络。

训练神经网络分两步进行：

- 前向传播：在前向传播中，神经网络对正确的输出做出最佳猜测。它通过每个函数运行输入数据来进行猜测。
- 反向传播：在反向传播中，神经网络根据其猜测的误差按比例调整其参数。它通过从输出向后遍历、收集误差相对于函数参数（梯度）的导数并使用梯度下降来优化参数来实现这一点。

更一般地，神经网络的典型训练过程如下：

- 定义具有一些可学习参数（或权重）的神经网络
- 迭代输入数据集
- 通过网络处理输入
- 计算损失（输出距离正确还有多远）
- 将梯度传播回网络参数
- 更新网络的权重，通常使用简单的更新规则：权重=权重-学习率梯度

有了这些教程，我们就可以尝试以下练习了！假设我们有以下起始代码，将下面这段代码复制到你的编辑器中：

In [21]:
from torchvision.models import resnet18, ResNet18_Weights
model = resnet18(weights=ResNet18_Weights.DEFAULT)
data = torch.rand(1, 3, 64, 64)
labels = torch.rand(1, 1000)

Downloading: "https://download.pytorch.org/models/resnet18-f37072fd.pth" to /root/.cache/torch/hub/checkpoints/resnet18-f37072fd.pth
100%|██████████| 44.7M/44.7M [00:00<00:00, 150MB/s]


17. 使用数据对模型进行前向传递并将其保存为 `preds`。

In [22]:
preds = model(data)

18. `preds` 的形状应该是什么？验证你的猜测。

In [23]:
# It should be 1 x 1000
preds.shape # torch.Size([1, 1000])

torch.Size([1, 1000])

19. 将 `resnet18` 的 `conv1` 属性的权重参数保存为 `w`。打印 `w` 因为我们稍后需要它（请注意，我的 `w` 不会与你的相同）。

In [24]:
w = model.conv1.weight
print(w) # tensor([[[[-1.0419e-02,...

Parameter containing:
tensor([[[[-1.0419e-02, -6.1356e-03, -1.8098e-03,  ...,  5.6615e-02,
            1.7083e-02, -1.2694e-02],
          [ 1.1083e-02,  9.5276e-03, -1.0993e-01,  ..., -2.7124e-01,
           -1.2907e-01,  3.7424e-03],
          [-6.9434e-03,  5.9089e-02,  2.9548e-01,  ...,  5.1972e-01,
            2.5632e-01,  6.3573e-02],
          ...,
          [-2.7535e-02,  1.6045e-02,  7.2595e-02,  ..., -3.3285e-01,
           -4.2058e-01, -2.5781e-01],
          [ 3.0613e-02,  4.0960e-02,  6.2850e-02,  ...,  4.1384e-01,
            3.9359e-01,  1.6606e-01],
          [-1.3736e-02, -3.6746e-03, -2.4084e-02,  ..., -1.5070e-01,
           -8.2230e-02, -5.7828e-03]],

         [[-1.1397e-02, -2.6619e-02, -3.4641e-02,  ...,  3.2521e-02,
            6.6221e-04, -2.5743e-02],
          [ 4.5687e-02,  3.3603e-02, -1.0453e-01,  ..., -3.1253e-01,
           -1.6051e-01, -1.2826e-03],
          [-8.3730e-04,  9.8420e-02,  4.0210e-01,  ...,  7.0789e-01,
            3.6887e-01,  1.2455e-01]

20. `w` 的 `grad` 属性应该是什么？请验证。

In [25]:
# Should be None. That’s because we haven’t run backward yet.
print(w.grad) # None

None


21. 创建一个[交叉熵](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html)损失对象，并用它来使用 `labels` 和 `preds` 计算损失，保存为 `loss`。打印 `loss`，因为我们稍后需要它。

In [26]:
ce = torch.nn.CrossEntropyLoss()
loss = ce(preds, labels)
print(loss) # tensor(3631.9521, grad_fn=<DivBackward1>)

tensor(3577.2236, grad_fn=<DivBackward1>)


22. 打印最后一次产生 `loss` 损失的数学运算。

In [27]:
print(loss.grad_fn) # <DivBackward1>

<DivBackward1 object at 0x7a3343017b20>


23. 执行反向传播。

In [28]:
loss.backward()

24. `w` 应该改变吗？还可以检查 #19 的输出。

In [31]:
print(w, w.device, w.dtype)
# No,可以对比19的输出，意味着，在执行反向传播之后，w还没发生变化

Parameter containing:
tensor([[[[-1.0419e-02, -6.1356e-03, -1.8098e-03,  ...,  5.6615e-02,
            1.7083e-02, -1.2694e-02],
          [ 1.1083e-02,  9.5276e-03, -1.0993e-01,  ..., -2.7124e-01,
           -1.2907e-01,  3.7424e-03],
          [-6.9434e-03,  5.9089e-02,  2.9548e-01,  ...,  5.1972e-01,
            2.5632e-01,  6.3573e-02],
          ...,
          [-2.7535e-02,  1.6045e-02,  7.2595e-02,  ..., -3.3285e-01,
           -4.2058e-01, -2.5781e-01],
          [ 3.0613e-02,  4.0960e-02,  6.2850e-02,  ...,  4.1384e-01,
            3.9359e-01,  1.6606e-01],
          [-1.3736e-02, -3.6746e-03, -2.4084e-02,  ..., -1.5070e-01,
           -8.2230e-02, -5.7828e-03]],

         [[-1.1397e-02, -2.6619e-02, -3.4641e-02,  ...,  3.2521e-02,
            6.6221e-04, -2.5743e-02],
          [ 4.5687e-02,  3.3603e-02, -1.0453e-01,  ..., -3.1253e-01,
           -1.6051e-01, -1.2826e-03],
          [-8.3730e-04,  9.8420e-02,  4.0210e-01,  ...,  7.0789e-01,
            3.6887e-01,  1.2455e-01]

25. `w` 的 `grad` 属性会与 #20 不同吗？并验证。

In [32]:
print(w.grad) # tensor([[[[ 7.0471e+01,  5.9916e+00,...
# Yes，意味着参数虽然没变化，但是对应的grad属性发生了变化

tensor([[[[ 1.5557e+01,  3.2234e+01,  1.3943e+01,  ...,  1.2458e+01,
           -3.0728e+01, -1.3171e+01],
          [-3.7709e+00,  1.5890e+00,  1.2804e+01,  ..., -1.3437e+01,
           -1.9187e+01, -2.5725e+01],
          [-3.0219e+01,  4.5103e+01, -2.0667e+01,  ..., -2.5583e+01,
           -1.5257e+00,  2.2881e+01],
          ...,
          [ 2.5067e+01,  1.3528e+01,  2.2823e+01,  ...,  1.5760e+01,
            4.5022e+01,  2.0843e+01],
          [ 3.1609e+01,  2.1389e+01,  5.0992e-02,  ...,  3.7038e+00,
           -2.3746e+00,  7.8445e+00],
          [-5.1651e+00,  4.1003e+01,  1.8838e+01,  ...,  5.1312e+01,
            2.6850e+01, -1.3850e+00]],

         [[-7.3457e+00,  1.3157e+00, -2.7986e+01,  ..., -2.0768e+01,
            2.1666e+01, -2.1206e+01],
          [-3.5448e+00, -1.7306e+01,  2.4410e+01,  ...,  1.8149e+01,
           -3.5010e+01, -1.8431e+01],
          [ 1.4952e+01,  3.1402e+00,  1.5348e+01,  ..., -3.4521e+00,
           -2.7564e+01, -4.6773e+01],
          ...,
     

26. `loss` 的 `grad` 属性应该返回什么？验证一下。

In [36]:
print(loss.grad)
# 返回None值，在深度学习中，我们通常会计算损失（loss）并进行反向传播来更新模型的参数。这里提到的“loss”指的是计算出来的损失值，它不是模型参数中的一个叶子节点（叶子节点是指那些需要更新的参数）。

# 因为这个损失值不是叶子节点，所以默认情况下，它不会保存反向传播时计算出的梯度。如果我们想要保存这些梯度，就需要调用 loss.retain_grad() 方法来明确告诉系统“即使这个损失值不是叶子节点，也请保留它的梯度”。

# 由于我们没有调用这个方法，所以在进行反向传播时，损失值的梯度不会被保存。

None


  print(loss.grad)


27. `loss` 的 `requires_grad` 属性应该是什么？验证一下。

In [34]:
print(loss.requires_grad)
# True

True


28. `labels` 的 `requires_grad` 属性应该是什么？验证一下。

In [37]:
print(labels.requires_grad)
# False

False


29. 如果你再次执行反向传播会发生什么？

In [38]:
# 会发生运行时错误，因为在第一次调用 .backward() 时，计算图中保存的中间值会被释放，除非我们指定 retain_graph=True。

30. 创建一个学习率 (`lr=1e-2`) 和动量 (`momentum=0.9`) 的 [SGD](https://pytorch.org/docs/stable/generated/torch.optim.SGD.html#torch.optim.SGD) 优化器对象，并执行一步。

In [39]:
sgd = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)
sgd.step()

31. `w` 是否应该改变？检查第19题的输出。

In [44]:
print(w)
# Yes 意味着sgd.step()改变了w的参数

Parameter containing:
tensor([[[[-1.6598e-01, -3.2848e-01, -1.4124e-01,  ..., -6.7964e-02,
            3.2436e-01,  1.1902e-01],
          [ 4.8792e-02, -6.3623e-03, -2.3797e-01,  ..., -1.3687e-01,
            6.2791e-02,  2.6099e-01],
          [ 2.9525e-01, -3.9194e-01,  5.0215e-01,  ...,  7.7555e-01,
            2.7158e-01, -1.6524e-01],
          ...,
          [-2.7821e-01, -1.1924e-01, -1.5563e-01,  ..., -4.9045e-01,
           -8.7080e-01, -4.6624e-01],
          [-2.8547e-01, -1.7293e-01,  6.2340e-02,  ...,  3.7680e-01,
            4.1734e-01,  8.7614e-02],
          [ 3.7914e-02, -4.1371e-01, -2.1246e-01,  ..., -6.6382e-01,
           -3.5073e-01,  8.0671e-03]],

         [[ 6.2060e-02, -3.9776e-02,  2.4522e-01,  ...,  2.4020e-01,
           -2.1600e-01,  1.8632e-01],
          [ 8.1134e-02,  2.0667e-01, -3.4863e-01,  ..., -4.9401e-01,
            1.8960e-01,  1.8302e-01],
          [-1.5035e-01,  6.7018e-02,  2.4862e-01,  ...,  7.4241e-01,
            6.4451e-01,  5.9228e-01]

32. `loss` 是否应该改变？检查第5题的输出。

In [41]:
print(loss)
# 不会（因为它不是模型参数的一部分）

tensor(3577.2236, grad_fn=<DivBackward1>)


33. 将所有可训练参数的梯度清零。

In [42]:
model.zero_grad()

34. `w` 的 `grad` 属性应该是什么？验证一下。

In [43]:
print(w.grad)
# Zero

None


35. 在不运行的情况下，判断以下代码是否会成功执行。

In [45]:
data1 = torch.zeros(1, 3, 64, 64)
data2 = torch.ones(1, 3, 64, 64)

predictions1 = model(data1)
predictions2 = model(data2)
l = torch.nn.CrossEntropyLoss()
loss1 = l(predictions1, labels)
loss2 = l(predictions2, labels)

loss1.backward()
loss2.backward()

#可以执行成功，当计算图的中间值被释放时，loss2.backward() 将无法工作；然而，我们并未对 loss2 使用相同的中间值，所以它将能够工作。

36. 判断以下代码是否会成功执行。

In [46]:
data1 = torch.zeros(1, 3, 64, 64)
data2 = torch.ones(1, 3, 64, 64)

predictions1 = model(data1)
predictions2 = model(data1)

l = torch.nn.CrossEntropyLoss()
loss1 = l(predictions1, labels)
loss2 = l(predictions2, labels)

loss1.backward()
loss2.backward()

# 可以执行成功，当计算图的中间值被释放时，loss2.backward() 将无法工作；然而，我们并未对 loss2 使用相同的中间值，所以它将能够正常工作。

37. 判断以下代码是否会成功执行。

In [47]:
data1 = torch.zeros(1, 3, 64, 64)
data2 = torch.ones(1, 3, 64, 64)

predictions1 = model(data1)
predictions2 = model(data2)

l = torch.nn.CrossEntropyLoss()
loss1 = l(predictions1, labels) # 注意是predictions1
loss2 = l(predictions1, labels) # 注意是predictions1

loss1.backward()
loss2.backward()

# 不会成功，当计算图的中间值被释放时，loss2.backward() 将无法工作；在这里，predictions1 的中间值将已被释放。

RuntimeError: Trying to backward through the graph a second time (or directly access saved tensors after they have already been freed). Saved intermediate values of the graph are freed when you call .backward() or autograd.grad(). Specify retain_graph=True if you need to backward through the graph a second time or if you need to access saved tensors after calling backward.

38. 对于不能执行的代码，你如何修改其中一个 `.backward` 行使其工作？

In [49]:
# 将第一次调用 .backward() 改为使用 retain_graph=True。
data1 = torch.zeros(1, 3, 64, 64)
data2 = torch.ones(1, 3, 64, 64)

predictions1 = model(data1)
predictions2 = model(data2)

l = torch.nn.CrossEntropyLoss()
loss1 = l(predictions1, labels) # 注意是predictions1
loss2 = l(predictions1, labels) # 注意是predictions1

loss1.backward(retain_graph=True)
loss2.backward()

39. 以下代码的输出是什么？

In [53]:
predictions1 = model(data)
l = torch.nn.CrossEntropyLoss()
loss1 = l(predictions1, labels)
loss1.backward(retain_graph=True)

w = model.conv1.weight.grad[0][0][0][0]
a = w.item()

loss1.backward()
b = w.item()

model.zero_grad()
c = w.item()

print(b//a,c)

2.0 0.12895947694778442


40. 以下代码的输出是什么？

In [55]:
predictions1 = model(data)
l = torch.nn.CrossEntropyLoss()
loss1 = l(predictions1, labels)
loss1.backward(retain_graph=True)

a = model.conv1.weight.grad[0][0][0][0]

loss1.backward()
b = model.conv1.weight.grad[0][0][0][0]

model.zero_grad()
c = model.conv1.weight.grad[0][0][0][0]

print(b//a,c)

# tensor(nan) 和 tensor(0)。因为 a、b、c 都引用了相同的数据。没有使用 item()。

TypeError: 'NoneType' object is not subscriptable

41. 以下代码有什么问题？

In [None]:
learning_rate = 0.01
for f in net.parameters():
    f.data.sub(f.grad.data * learning_rate)

# sub 调用应该改为 sub_，这样才能正确地执行预期的原地操作。

42. 按正确的顺序排列训练循环的以下步骤（有多种正确答案，但你在教程中会看到一种典型的设置）：以下代码的输出是什么？

In [None]:
# optimizer.step(), optimizer.zero_grad(), loss.backward(), output = net(input), loss = criterion(output, target)
# 这是其中一种

optimizer.zero_grad()
output = net(input)
loss = criterion(output, target)
loss.backward()
optimizer.step()

43. 以下代码的输出是什么？

In [56]:
net = resnet18(weights=ResNet18_Weights.DEFAULT)
data = torch.rand(1, 3, 64, 64)
target = torch.rand(1, 1000)
optimizer = torch.optim.SGD(net.parameters(), lr=0.001, momentum=0.9)
criterion = torch.nn.CrossEntropyLoss()
orig = net.conv1.weight.clone()[0, 0, 0, 0]
weight = net.conv1.weight[0, 0, 0, 0]
# 1
optimizer.zero_grad()
print(f"{weight == orig}")

# 2
output = net(data)
loss = criterion(output, target)
print(f"{weight == orig}")

# 3
loss.backward()
print(f"{weight == orig}")

# 4
optimizer.step()
print(f"{weight == orig}")

#True
#True
#True
#False


True
True
True
False


44. 我们将实现一个有一个隐藏层的神经网络。这个网络将接受一个32x32的灰度图像输入，展开它，通过一个有100个输出特征的仿射变换，应用 `ReLU` 非线性，然后映射到目标类别（10）。实现初始化和前向传递，完成以下代码。使用 `nn.Linear`, `F.relu`, `torch.flatten`

In [57]:
import torch
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # 在这里补充代码

    def forward(self, x):
        # 在这里补充代码
        return x

In [78]:
class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        self.fc1 = nn.Linear(32 * 32 * 3, 100)
        self.fc2 = nn.Linear(100, 10)

    def forward(self, x):
        x = torch.flatten(x, 1)
        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

45. 用两行代码验证你能通过上述网络进行前向传递。

In [79]:
net = Net()
preds = net.forward(torch.randn(1, 3, 32, 32))

45. 在不运行代码的情况下，猜测以下语句的结果是什么？

In [80]:
net = Net()
print(len(list(net.parameters())))
# 4

4


47. 获取网络参数的名称

In [81]:
print([name for name, _ in net.named_parameters()]) # ['fc1.weight', 'fc1.bias', 'fc2.weight', 'fc2.bias']

['fc1.weight', 'fc1.bias', 'fc2.weight', 'fc2.bias']


48. 以下语句指的是哪个网络层？它将评估什么？

In [62]:
print(list(net.parameters())[1].size())
# Fc1.bias. torch.Size([100])

torch.Size([100])


49. 以下示意图包含了实现一个神经网络所需的所有信息。实现初始化和前向传递，完成以下代码。使用 `nn.Conv2d`, `nn.Linear`, `F.max_pool2d`, `F.relu`, `torch.flatten`。提示：`ReLU` 在子采样操作后和前两个全连接层之后应用。

In [63]:
import torch
import torch.nn as nn
import torch.nn.functional as F


class Net(nn.Module):

    def __init__(self):
        super(Net, self).__init__()
        # your code here

    def forward(self, x):
        # your code here
        return x

# 以下参考答案
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        # your code here
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.conv1(x)
        x = F.max_pool2d(x, 2)
        x = F.relu(x)
        x = self.conv2(x)
        x = F.max_pool2d(x, 2)
        x = F.relu(x)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        x = F.relu(x)
        x = self.fc3(x)
        return x

50.修改上述代码，使用 `nn.MaxPool2d` 代替 `F.max_pool2d`

In [69]:
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(1, 6, 5)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)
        self.maxpool = nn.MaxPool2d(2, 2) # 替换

    def forward(self, x):
        x = self.conv1(x)
        x = self.maxpool(x)
        x = F.relu(x)
        x = self.conv2(x)
        x = self.maxpool(x)
        x = F.relu(x)
        x = torch.flatten(x, 1)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        x = F.relu(x)
        x = self.fc3(x)
        return x

51. 尝试通过将第一个卷积层的输出通道数从6增加到12来增加网络的宽度。怎么修改？

In [65]:
# 以下只展示init函数
def __init__(self):
    super(Net, self).__init__()
    self.conv1 = nn.Conv2d(1, 12, 5)
    self.conv2 = nn.Conv2d(12, 16, 5) # 这里我们也可以修改输入的通道
    self.fc1 = nn.Linear(16 * 5 * 5, 120)
    self.fc2 = nn.Linear(120, 84)
    self.fc3 = nn.Linear(84, 10)
    self.maxpool = nn.MaxPool2d(2, 2)

### 3.分类器训练

接下来，我们进入教程的最后一部分：[Cifar10教程](https://pytorch.org/tutorials/beginner/blitz/cifar10_tutorial.html)。这个教程通过以下步骤来训练一个图像分类器：

- 使用torchvision加载和归一化 (normalize) CIFAR10训练和测试数据集
- 定义一个卷积神经网络
- 定义一个损失函数
- 在训练数据上训练网络
- 在测试数据上测试网络

完成上述教程后，回答以下问题：

52. 以下数据集加载代码可以运行，但代码中是否有错误？这些错误的影响是什么？如何修复这些错误？

In [66]:
import torch
from torchvision import datasets, transforms
transform = transforms.Compose(
   [transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

batch_size = 4

trainset = datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, shuffle=False, num_workers=2)

testset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=batch_size, shuffle=False, num_workers=2)

# 有两个错误。首先，我们没有对训练数据加载器进行随机打乱。其次，我们在测试集中加载了 CIFAR 的训练数据，而在训练集中加载了 CIFAR 的测试数据。

Downloading https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz to ./data/cifar-10-python.tar.gz


100%|██████████| 170498071/170498071 [00:04<00:00, 41521686.55it/s]


Extracting ./data/cifar-10-python.tar.gz to ./data
Files already downloaded and verified


53. 编写两行代码从数据加载器中获取随机的训练图像（假设上面的错误已经修复）。

In [73]:
# 修改代码如下
import torch
from torchvision import datasets, transforms
transform = transforms.Compose(
   [transforms.ToTensor(),
    transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

batch_size = 4

trainset = datasets.CIFAR10(root='./data', train=True, download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, shuffle=True, num_workers=2)

testset = datasets.CIFAR10(root='./data', train=False, download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=batch_size, shuffle=False, num_workers=2)

dataiter = iter(trainloader)
images, labels = next(dataiter)

Files already downloaded and verified
Files already downloaded and verified


54. 以下训练代码可以运行，但代码中是否有错误（包括计算效率低下）？这些错误的影响是什么？如何修复这些错误？

In [84]:
running_loss = 0.0
for epoch in range(2):    # loop over the dataset multiple times
  for i, data in enumerate(trainloader, 0):
      # get the inputs; data is a list of [inputs, labels]
      inputs, labels = data
      # forward + backward + optimize
      outputs = net(inputs)
      loss = criterion(outputs, labels)
      loss.backward()
      optimizer.step()

      # print statistics
      running_loss += loss
      if i % 2000 == 1999:    # print every 2000 mini-batches
          print(f'[{epoch + 1}, {i + 1:5d}] loss: {running_loss / 2000:.3f}')
          running_loss = 0.0
          break



# 有两个错误。首先，循环中应该有一个 optimizer.zero_grad()。没有这个步骤，梯度将会累积。其次，running_loss 应该使用 loss.item() 进行累加；否则，每个损失仍然会是计算图的一部分，这会占用内存，因为否则各个损失值会被垃圾回收。

[1,  2000] loss: 2.301
[2,  2000] loss: 2.302


55. 以下评估代码可以运行，但其中是否存在错误（包括计算效率低下）？这些错误的影响是什么？如何修正这些错误？

In [85]:
correct = 0
total = 0
# since we're not training, we don't need to calculate the gradients for our outputs
for data in testloader:
    images, labels = data
    # calculate outputs by running images through the network
    outputs = net(images)
    # the class with the highest energy is what we choose as prediction
    _, predicted = torch.max(outputs.data, 1)
    total += labels.size(0)
    correct += (predicted == labels).sum()

print(f'Accuracy of the network on the 10000 test images: {100 * correct // total} %')

# 有两个错误。首先，应该在循环外用 torch.no_grad()，这将禁用自动求导引擎，减少内存使用并加速计算，但你将无法进行反向传播（在评估脚本中这是不需要的）。其次，我们再次遗漏了 sum() 后的 .item() 调用，这意味着张量仍然会是计算图的一部分，占用内存。

Accuracy of the network on the 10000 test images: 11 %
