In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [None]:
%cd /content/drive/MyDrive/pytorch-test/tutorials/beginner_source/basics

/content/drive/MyDrive/pytorch-test/tutorials/beginner_source/basics


In [None]:
import torch
from torch import nn
# from torch.utils.data import dataloader
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor

In [None]:
#加载数据
training_data = datasets.MNIST(
    root="data",
    train=True,
    download=True,
    transform=ToTensor(),
)

test_data = datasets.MNIST(
    root="data",
    train=False,
    download=True,
    transform=ToTensor(),
)


In [None]:
batch_size = 64

# 数据加载
train_dataloader = DataLoader(training_data, batch_size=batch_size)
test_dataloader = DataLoader(test_data, batch_size=batch_size)

for X,y in test_dataloader:
  print(f"Shape of X [N, C, H, W]:{X.shape}")
  print(f"Shape of y :{y.shape}, {y.dtype}")

Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of y :torch.Size([64]), torch.int64
Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of y :torch.Size([64]), torch.int64
Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of y :torch.Size([64]), torch.int64
Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of y :torch.Size([64]), torch.int64
Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of y :torch.Size([64]), torch.int64
Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of y :torch.Size([64]), torch.int64
Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of y :torch.Size([64]), torch.int64
Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of y :torch.Size([64]), torch.int64
Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of y :torch.Size([64]), torch.int64
Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of y :torch.Size([64]), torch.int64
Shape of X [N, C, H, W]:torch.Size([64, 1, 28, 28])
Shape of


# **代码解析：**

## **1. 设备选择：**

- `device = "cuda" if torch.cuda.is_available() else "mps" if torch.backends.mps.is_available() else "cpu"`：这行代码动态地确定用于训练的可用设备。它优先选择CUDA（GPU），如果可用的话，然后是MPS（苹果硅GPU），如果两者都不可用，则回退到CPU。

## **2. 模型定义：**
- `class NeuralNetwork(nn.Module)`：定义一个继承自`nn.Module`的神经网络类。
- `self.flatten = nn.Flatten()`：将输入张量（图像）展平成一维向量。
- `self.linear_rule_stack = nn.Sequential(...)`：创建一个线性层和ReLU激活函数的顺序容器。
    - `nn.Linear(28*28, 512)`：第一个线性层接收一个28x28的输入（图像）并将其映射到512个神经元。
    - `nn.ReLU()`：应用ReLU激活函数以引入非线性。
    - `nn.Linear(512, 512)`：第二个线性层接收512维的输出并将其映射到另一个512个神经元。
    - `nn.ReLU()`：应用ReLU激活函数。
    - `nn.Linear(512, 10)`：最后一个线性层将512维的输出映射到10个神经元，代表10个可能的类别标签。
- `def forward(self, x)`：定义模型的正向传播。
    - `x = self.flatten(x)`：展平输入张量。
    - `logits = self.linear_rule_stack(x)`：将展平的输入通过顺序层以获得logits（未归一化的类别概率）。
    - `return logits`：返回logits。
- `model = NeuralNetwork().to(device)`：创建`NeuralNetwork`类的一个实例，并将其移动到选定的设备（CUDA、MPS或CPU）。

### **解释：**
- 该代码有效地定义了一个适用于图像分类任务的神经网络架构。
- `flatten`层对于将2D图像数据转换成1D向量以供线性层处理至关重要。
- 线性层和ReLU激活函数的顺序容器允许灵活地建模输入和输出之间的非线性关系。
- 最后一个层输出logits，可以在进行预测之前通过softmax函数将其转换为概率。
- 将模型移动到选定的设备上确保了在适当的硬件上进行高效计算。

### **关键点：**
- 代码结构良好，易于理解。
- 它为构建和训练用于图像分类的神经网络提供了一个坚实的基础。
- 设备的选择确保了基于可用硬件的最优性能。
- 使用顺序容器和激活函数允许自定义和尝试不同的架构。


在Python中，`super().__init__()` 是一个常用的语句，它用于调用父类（也称为超类或基类）的 `__init__` 方法。这通常出现在子类（也称为派生类）的构造函数（`__init__` 方法）中，目的是确保在子类中进行初始化之前，父类的初始化逻辑也被执行。

下面是一个简单的例子来说明这一点：
```python
class ParentClass:
    def __init__(self):
        print("父类的初始化")
class ChildClass(ParentClass):
    def __init__(self):
        super().__init__()  # 调用父类的 __init__ 方法
        print("子类的初始化")
# 创建 ChildClass 的实例
child_instance = ChildClass()
```

在这个例子中，当你创建 `ChildClass` 的一个实例时，首先会调用 `ParentClass` 的 `__init__` 方法，打印出 "父类的初始化"。然后，控制权返回到 `ChildClass` 的 `__init__` 方法，打印出 "子类的初始化"。

使用 `super()` 是一种良好的面向对象编程实践，它有助于维护继承层次结构，并确保所有必要的初始化步骤都被执行。这在涉及多重继承的情况下特别有用，因为 `super()` 能够正确处理方法解析顺序（MRO）。


In [None]:
device = (
    "cuda"
    if torch.cuda.is_available()
    else "mps"
    if torch.backends.mps.is_available()
    else "cpu"
)
print(f"Using {device} device")

# 定义模型
class NeuralNetwork(nn.Module):
  def __init__(self):
    super().__init__()
    self.flatten = nn.Flatten()
    self.linear_rule_stack = nn.Sequential(
        nn.Linear(28*28, 512),
        nn.ReLU(),
        nn.Linear(512, 512),
        nn.ReLU(),
        nn.Linear(512,10)
    )

  def forward(self, x):
    x = self.flatten(x)
    logits = self.linear_rule_stack(x)
    return logits

model = NeuralNetwork().to(device)
print(model)

Using cuda device
NeuralNetwork(
  (flatten): Flatten(start_dim=1, end_dim=-1)
  (linear_rule_stack): Sequential(
    (0): Linear(in_features=784, out_features=512, bias=True)
    (1): ReLU()
    (2): Linear(in_features=512, out_features=512, bias=True)
    (3): ReLU()
    (4): Linear(in_features=512, out_features=10, bias=True)
  )
)


## 优化模型参数：损失函数和优化器

### 损失函数 (loss function)

**`nn.CrossEntropyLoss()`** 是 PyTorch 中常用的交叉熵损失函数。它常用于多分类问题，计算预测概率分布与真实标签之间的差异。

* **为什么使用交叉熵损失？**
  * **直观性:** 交叉熵衡量两个概率分布之间的差异，越小表示预测越准确。
  * **广泛应用:** 在神经网络中，尤其是分类问题，交叉熵损失是标准的选择。

* **何时使用？**
  * 当你的输出层是一个 Softmax 层，输出的是各个类别的概率分布时，交叉熵损失非常适合。
  * 对于二分类问题，也可以使用二元交叉熵损失 (Binary Cross Entropy Loss)。

### 优化器 (optimizer)

**`torch.optim.SGD(model.parameters(), lr=1e-3)`** 使用了随机梯度下降 (Stochastic Gradient Descent, SGD) 优化器。

* **SGD 的工作原理：**
  * 通过计算损失函数对模型参数的梯度，来更新参数，使得模型在参数空间中朝着损失函数减小的方向移动。
  * 随机梯度下降每次只用一个样本或一小批样本计算梯度，因此效率更高，但也可能导致训练过程不稳定。

* **参数说明：**
  * `model.parameters()`: 获取模型中所有需要更新的参数。
  * `lr=1e-3`: 学习率 (learning rate) 设置为 0.001，控制每次参数更新的步长。学习率过大可能导致模型不收敛，过小则训练速度过慢。

### 优化过程

1. **前向传播:** 将输入数据送入模型，得到预测结果。
2. **计算损失:** 使用交叉熵损失函数计算预测结果与真实标签之间的差异。
3. **反向传播:** 计算损失函数对模型参数的梯度。
4. **参数更新:** 使用 SGD 优化器根据计算得到的梯度更新模型参数。

### 进一步优化

* **学习率调整:** 可以使用学习率调度器 (learning rate scheduler) 随着训练过程动态调整学习率，提高收敛速度。
* **优化器选择:** 除了 SGD，还有 Adam、RMSprop 等其他优化器，可以根据具体任务选择适合的优化器。
* **正则化:** 添加 L1 或 L2 正则化可以防止过拟合。
* **数据增强:** 对训练数据进行随机变换，增加模型的泛化能力。

### 代码解读

```python
loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)
```

* **第一行:** 定义了一个交叉熵损失函数实例。
* **第二行:** 创建了一个 SGD 优化器，并指定了要优化的参数和学习率。

### 总结

这段代码为模型训练设置了损失函数和优化器，是深度学习模型训练中最基础的一步。通过合理选择损失函数和优化器，并结合其他优化技巧，可以有效提高模型的性能。




In [None]:
# 优化模型参数
# 损失函数和优化器

loss_fn = nn.CrossEntropyLoss()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3)


这段代码定义了一个名为`train`的函数，用于执行机器学习模型的训练循环。以下是每个部分的作用分解：

# **函数参数：**
* `dataloader`：这是一个数据加载器对象，它提供了训练数据的批次。它按特定顺序遍历数据集，并确保高效的内存使用。
* `model`：这是您想要训练的机器学习模型。模型应该有一个`forward`方法，它接收输入数据并返回预测结果。
* `loss_fn`：这是用于测量模型预测与真实标签之间差异的损失函数。
* `optimizer`：这是优化器对象，用于根据计算出的损失更新模型的权重。

# **函数体：**
1. **获取数据集大小：**
  * `size = len(dataloader.dataset)`：这行代码计算由数据加载器表示的数据集中的数据点总数。
2. **设置模型为训练模式：**
  * `model.train()`：这行代码将模型设置为训练模式。这可能会影响某些层的行为，比如在训练期间用于正则化的dropout层。
3. **遍历训练数据：**
  * `for batch, (X, y) in enumerate(dataloader)`：这个循环遍历数据加载器提供的每个批次的数据。
      * `batch`：这个变量表示当前的批次编号。
      * `(X, y)`：这将批次数据解包到两个变量中：
          * `X`：这表示当前批次的输入特征。
          * `y`：这表示当前批次的相应标签（真实值）。
4. **将数据移动到设备上：**
  * `X, y = X.to(device), y.to(device)`：这行代码假设您正在使用GPU进行训练。它将数据（特征和标签）移动到指定的设备（`device`）上，该设备可能是CPU或GPU，具体取决于您的设置。
5. **计算预测误差：**
  * `pred = model(X)`：这行代码将当前批次的特征（`X`）通过模型以获取预测结果（`pred`）。
  * `loss = loss_fn(pred, y)`：这行代码使用选定的损失函数（`loss_fn`）计算损失。它将模型的预测结果（`pred`）与真实标签（`y`）进行比较。
6. **反向传播和优化：**
  * `loss.backward()`：这行代码执行反向传播。它计算损失函数相对于每个模型参数（权重和偏置）的梯度。
  * `optimizer.step()`：这行代码根据计算出的梯度使用选定的优化器（`optimizer`）更新模型的权重。
  * `optimizer.zero_grad()`：这行代码将梯度重置为零，以便下一轮迭代。
7. **打印训练进度（可选）：**
  * `if batch % 100 == 0`：这检查当前批次编号是否是100的倍数（可以根据需要调整更新频率）。
      * `loss, current = loss.item(), (batch + 1) * len(X)`：这计算当前损失值以及到目前为止处理过的样本数量。
      * `print(f"loss: {loss:>7f}  [{current:>5d}/{size:>5d}]")`：这打印当前损失、处理过的样本数量以及数据集中的总样本数量。

这个`train`函数有效地遍历训练数据，计算损失，更新模型的权重，并提供关于训练进度的可选反馈。


这里是`train`函数的详细分解，包括逐行注释：
```python
def train(dataloader, model, loss_fn, optimizer):
  """
  这个函数使用提供的dataloader、损失函数和优化器来训练给定的模型。
  参数:
      dataloader: 一个PyTorch dataloader对象，提供训练数据的批次。
      model: 要训练的机器学习模型。
      loss_fn: 用于测量预测值与真实标签之间差异的损失函数。
      optimizer: 根据计算出的损失更新模型权重的优化器。
  """  
  # 获取数据集中的总样本数
  size = len(dataloader.dataset)
  # 将模型设置为训练模式（影响某些层的行为）
  model.train()
  # 遍历dataloader提供的每个批次的数据
  for batch, (X, y) in enumerate(dataloader):
    # 将数据移动到选择的设备（CPU、GPU或MPS）
    X, y = X.to(device), y.to(device)
    # 计算预测误差（损失）
    pred = model(X)  # 前向传播：从模型获取预测
    loss = loss_fn(pred, y)  # 使用选择的损失函数计算损失
    # 反向传播：为参数更新计算梯度
    loss.backward()
    # 使用优化器根据梯度更新模型权重
    optimizer.step()
    # 清除梯度，为下一轮迭代做准备（避免梯度累积）
    optimizer.zero_grad()
    # 每100个批次打印一次训练进度（可选）
    if batch % 100 == 0:
      loss_val = loss.item()  # 提取实际的损失值（标量）
      current = (batch + 1) * len(X)  # 计算到目前为止处理的样本数
      print(f"loss: {loss_val:>7f}  [{current:>5d}/{size:>5d}]")
```
# **解释：**
1. **函数定义：**
   - `def train(dataloader, model, loss_fn, optimizer)`：定义了一个名为`train`的函数，它接受四个参数：
      - `dataloader`：一个PyTorch dataloader对象。
      - `model`：要训练的机器学习模型。
      - `loss_fn`：用于计算误差的损失函数。
      - `optimizer`：用于根据计算出的损失更新模型权重的优化器。
2. **获取数据集大小：**
   - `size = len(dataloader.dataset)`：计算由dataloader表示的数据集中的数据点总数。这在训练期间用于跟踪进度。
3. **设置模型为训练模式：**
   - `model.train()`：将模型设置为训练模式。这可能会影响某些层的行为，例如dropout层，这些层在训练期间用于正则化。
4. **遍历训练数据：**
   - `for batch, (X, y) in enumerate(dataloader)`：这个循环遍历dataloader提供的每个批次的数据。
      - `batch`：这个变量表示当前批次的编号（从0开始）。
      - `(X, y)`：这解包了批次数据到两个变量中：
          - `X`：这表示当前批次的输入特征。
          - `y`：这表示当前批次的相应标签（真实值）。
5. **将数据移动到设备：**
   - `X, y = X.to(device), y.to(device)`：假设您使用GPU进行训练，这行代码将数据（特征和标签）移动到指定的设备（`device`）上，这可能是CPU或GPU，具体取决于您的设置。
6. **计算预测误差（损失）：**
   - `pred = model(X)`：这行代码将当前批次的特征（`X`）通过模型以获取预测（`pred`）。
   - `loss = loss_fn(pred, y)`：这行代码使用选定的损失函数（`loss_fn`）计算损失。它比较模型的预测（`pred`）与真实标签（`y`）。
7. **反向传播和优化：**
   - `loss.backward()`：这行代码执行反向传播。它计算损失函数相对于每个模型参数（权重和偏置）的梯度。
   - `optimizer.step()`：这行代码根据计算出的梯度使用选定的优化器（`optimizer`）更新模型的权重。
   - `optimizer.zero_grad()`：这行代码重置梯度，为下一次迭代做准备，避免梯度在迭代过程中累积。

这段代码描述了在训练循环中如何使用反向传播来计算梯度，并使用优化器来更新模型参数，从而使得模型更加准确。在执行`optimizer.step()`之前，通常需要先执行`optimizer.zero_grad()`来确保梯度在每次迭代开始时被清零，这样可以防止梯度在多个批次之间累积，从而影响模型的训练过程。


In [None]:
def train(dataloader, model, loss_fn, optimizer):
  """
  This function trains the given model using the provided dataloader, loss function, and optimizer.

  Args:
      dataloader: A PyTorch dataloader object that provides batches of training data.
      model: The machine learning model to be trained.
      loss_fn: The loss function used to measure the difference between predictions and true labels.
      optimizer: The optimizer used to update the model's weights based on the calculated loss.
  """

  # Get the total number of samples in the dataset
  size = len(dataloader.dataset)

  # Set the model to training mode (affects behavior of certain layers)
  model.train()

  # Iterate over each batch of data provided by the dataloader
  for batch, (X, y) in enumerate(dataloader):

    # Move data to the chosen device (CPU, GPU, or MPS)
    X, y = X.to(device), y.to(device)

    # Calculate the prediction error (loss)
    pred = model(X)  # Forward pass: Get predictions from the model
    loss = loss_fn(pred, y)  # Calculate loss using the chosen loss function

    # Backpropagation: Calculate gradients for parameter updates
    loss.backward()

    # Update model weights based on gradients using the optimizer
    optimizer.step()

    # Clear gradients for the next iteration (avoids accumulating gradients)
    optimizer.zero_grad()

    # Print training progress every 100 batches (optional)
    if batch % 100 == 0:
      loss_val = loss.item()  # Extract the actual loss value (scalar)
      current = (batch + 1) * len(X)  # Calculate the number of samples processed so far
      print(f"loss: {loss_val:>7f}  [{current:>5d}/{size:>5d}]")


当然！以下是`test`函数的详细分解，包括逐行注释：
```python
def test(dataloader, model, loss_fn):
  """
  这个函数在给定的dataloader上评估模型的性能。
  参数:
      dataloader: 一个PyTorch dataloader对象，提供测试数据的批次。
      model: 训练好的机器学习模型。
      loss_fn: 用于评估时测量预测值与真实标签之间差异的损失函数。
  """
  # 获取数据集中的总样本数
  size = len(dataloader.dataset)
  # 获取dataloader中的批次数
  num_batches = len(dataloader)
  # 将模型设置为评估模式（禁用dropout和其他训练特定的行为）
  model.eval()
  # 初始化用于跟踪测试损失和准确性的变量
  test_loss = 0  # 用于累计总测试损失
  correct = 0    # 用于累计正确预测的数量
  # 在评估期间禁用梯度计算以提高性能
  with torch.no_grad():
    for X, y in dataloader:
      # 将数据移动到选择的设备（CPU、GPU或MPS）
      X, y = X.to(device), y.to(device)
      # 获取当前批次的模型预测
      pred = model(X)
      # 使用选定的损失函数计算批次的损失
      batch_loss = loss_fn(pred, y).item()  # 提取实际的损失值（标量）
      # 更新总测试损失
      test_loss += batch_loss
      # 计算当前批次中正确的预测数量
      correct += (pred.argmax(1) == y).type(torch.float).sum().item()
  # 计算平均测试损失
  test_loss /= num_batches
  # 计算准确率
  correct /= size
  # 打印测试结果
  print(f"Test Error: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")
```
# **解释：**
1. **函数定义：**
   - `def test(dataloader, model, loss_fn)`：定义了一个名为`test`的函数，它接受三个参数：
      - `dataloader`：一个包含测试数据的PyTorch dataloader对象。
      - `model`：已经训练好的机器学习模型。
      - `loss_fn`：用于评估时测量预测值与真实标签之间差异的损失函数。
2. **获取数据集大小和批次数：**
   - `size = len(dataloader.dataset)`：类似于`train`函数，这行代码计算由dataloader表示的数据集中的数据点总数。
   - `num_batches = len(dataloader)`：这计算了dataloader中的批次数，这对于计算所有批次的平均损失很有用。
3. **设置模型为评估模式：**
   - `model.eval()`：将模型设置为评估模式。这可能会禁用某些层，如在训练期间用于正则化的dropout层，这可能会在评估期间提高性能。
4. **初始化变量：**
   - `test_loss = 0`：初始化一个变量来累计所有批次的总测试损失。
   - `correct = 0`：初始化一个变量来累计正确预测的数量。
5. **禁用梯度计算：**
   - `with torch.no_grad()`：这个块确保在评估期间不计算梯度。梯度计算计算量较大，在评估时不需要。
6. **遍历测试数据：**
   - `for X, y in dataloader`：这个循环遍历测试dataloader中的每个批次的数据，类似于训练循环。
7. **移动数据到设备：**
   - `X, y = X.to(device), y.to(device)`：像以前一样，这行代码将数据（特征和标签）移动到选择的设备。
8. **获取预测：**
   - `pred = model(X)`：将当前批次的特征（`X`）通过模型以获得预测（`pred`）。
9. **计算批次损失：**
   - `batch_loss = loss_fn(pred, y).item()`：使用损失函数计算当前批次的损失，并提取实际的损失值（标量）。
10. **更新总损失和正确预测：**
   - `test_loss += batch_loss`：将当前批次的损失加到累计总测试损失中。
   - `correct += (pred.argmax(1) == y).type(torch.float).sum().item()`：计算当前批次中正确的预测数量。这行代码首先使用`argmax(1)`找到`pred`中每个样本的最大概率对应的类别索引，然后使用`== y`进行比较，确保预测与真实标签匹配。`type(torch.float)`将比较结果转换为浮点数类型，因为`sum()`方法要求输入为浮点数。最后，`sum().item()`将张量中的元素求和，并返回一个标量值。

这个函数在给定的测试数据集上评估模型的性能，计算总的测试损失，并跟踪正确的预测数量，以计算准确率。


In [None]:
def test(dataloader, model, loss_fn):
  """
  This function evaluates the model's performance on the given dataloader.

  Args:
      dataloader: A PyTorch dataloader object that provides batches of test data.
      model: The trained machine learning model.
      loss_fn: The loss function used to measure the difference between predictions and true labels.
  """

  # Get the total number of samples in the dataset
  size = len(dataloader.dataset)

  # Get the number of batches in the dataloader
  num_batches = len(dataloader)

  # Set the model to evaluation mode (disables dropout and other training-specific behaviors)
  model.eval()

  # Initialize variables for tracking test loss and accuracy
  test_loss = 0  # Accumulator for total test loss
  correct = 0    # Accumulator for number of correct predictions

  # Disable gradient calculation for better performance during evaluation
  with torch.no_grad():
    for X, y in dataloader:

      # Move data to the chosen device (CPU, GPU, or MPS)
      X, y = X.to(device), y.to(device)

      # Get model predictions for the current batch
      pred = model(X)

      # Calculate batch loss using the chosen loss function
      batch_loss = loss_fn(pred, y).item()  # Extract the actual loss value (scalar)

      # Update the total test loss
      test_loss += batch_loss

      # Calculate the number of correct predictions in the current batch
      correct += (pred.argmax(1) == y).type(torch.float).sum().item()

  # Calculate average test loss
  test_loss /= num_batches

  # Calculate accuracy
  correct /= size

  # Print test results
  print(f"Test Error: \n Accuracy: {(100*correct):>0.1f}%, Avg loss: {test_loss:>8f} \n")

In [None]:
epochs = 5

for t in range(epochs):
  print(f"Epoch {t+1}\n----------------------------")
  train(train_dataloader, model, loss_fn, optimizer)
  test(test_dataloader, model, loss_fn)

print("Done!")

Epoch 1
----------------------------
loss: 2.304570  [   64/60000]
loss: 2.302738  [ 6464/60000]
loss: 2.284112  [12864/60000]
loss: 2.286226  [19264/60000]
loss: 2.276767  [25664/60000]
loss: 2.284557  [32064/60000]
loss: 2.266635  [38464/60000]
loss: 2.274374  [44864/60000]
loss: 2.260965  [51264/60000]
loss: 2.245908  [57664/60000]
Test Error: 
 Accuracy: 29.8%, Avg loss: 2.251917 

Epoch 2
----------------------------
loss: 2.257498  [   64/60000]
loss: 2.250208  [ 6464/60000]
loss: 2.245125  [12864/60000]
loss: 2.226367  [19264/60000]
loss: 2.224510  [25664/60000]
loss: 2.229824  [32064/60000]
loss: 2.202370  [38464/60000]
loss: 2.227397  [44864/60000]
loss: 2.197726  [51264/60000]
loss: 2.178297  [57664/60000]
Test Error: 
 Accuracy: 61.4%, Avg loss: 2.183261 

Epoch 3
----------------------------
loss: 2.189927  [   64/60000]
loss: 2.173557  [ 6464/60000]
loss: 2.184169  [12864/60000]
loss: 2.135005  [19264/60000]
loss: 2.142450  [25664/60000]
loss: 2.142101  [32064/60000]
loss:

In [None]:
# save model and loading model
torch.save(model.state_dict(), "model/mnist-model.pth")
print("Save Pytorch Model State to mnist-model.pth")

Save Pytorch Model State to mnist-model.pth


In [None]:
model = NeuralNetwork().to(device)
model.load_state_dict(torch.load("./model/mnist-model.pth"))

<All keys matched successfully>

In [None]:
classes = [
    "0",
    "1",
    "2",
    "3",
    "4",
    "5",
    "6",
    "7",
    "8",
    "9",
]

model.eval()
x, y = test_data[0][0], test_data[0][1]
with torch.no_grad():
    x = x.to(device)
    pred = model(x)
    predicted, actual = classes[pred[0].argmax(0)], classes[y]
    print(f'Predicted: "{predicted}", Actual: "{actual}"')

Predicted: "7", Actual: "7"
