[Xem Mã Nguồn](https://github.com/mrdbourke/pytorch-deep-learning/blob/main/05_pytorch_going_modular.md) | [Xem Slides](https://github.com/mrdbourke/pytorch-deep-learning/blob/main/slides/05_pytorch_going_modular.pdf) 

# 05. PyTorch Chuyển Sang Modular

Phần này trả lời câu hỏi: "làm thế nào để chuyển mã notebook thành các script Python?"

Để làm điều này, chúng ta sẽ chuyển những ô mã hữu ích nhất trong [notebook 04. PyTorch Custom Datasets](https://www.learnpytorch.io/04_pytorch_custom_datasets/) thành một loạt các script Python được lưu vào thư mục có tên [`going_modular`](https://github.com/mrdbourke/pytorch-deep-learning/tree/main/going_modular).

## Chuyển sang modular là gì?

Chuyển sang modular bao gồm việc chuyển mã notebook (từ Jupyter Notebook hoặc Google Colab notebook) thành một loạt các script Python khác nhau cung cấp chức năng tương tự.

Ví dụ, chúng ta có thể chuyển mã notebook từ một loạt các ô thành các tệp Python sau:

* `data_setup.py` - một tệp để chuẩn bị và tải xuống dữ liệu nếu cần.
* `engine.py` - một tệp chứa các hàm huấn luyện khác nhau.
* `model_builder.py` hoặc `model.py` - một tệp để tạo mô hình PyTorch.
* `train.py` - một tệp để tận dụng tất cả các tệp khác và huấn luyện mô hình PyTorch mục tiêu.
* `utils.py` - một tệp dành riêng cho các hàm tiện ích hữu ích.

> **Lưu ý:** Việc đặt tên và bố cục của các tệp trên sẽ phụ thuộc vào trường hợp sử dụng và yêu cầu mã của bạn. Các script Python có tính tổng quát như các ô notebook riêng lẻ, có nghĩa là bạn có thể tạo một script cho hầu hết mọi loại chức năng.

## Tại sao bạn muốn chuyển sang modular?

Notebook rất tuyệt vời để khám phá lặp đi lặp lại và chạy thí nghiệm nhanh chóng.

Tuy nhiên, đối với các dự án quy mô lớn hơn, bạn có thể thấy các script Python có thể tái tạo và dễ chạy hơn.

Mặc dù đây là một chủ đề được tranh luận, vì các công ty như [Netflix đã cho thấy cách họ sử dụng notebook cho mã sản xuất](https://netflixtechblog.com/notebook-innovation-591ee3221233).

**Mã sản xuất** là mã chạy để cung cấp dịch vụ cho ai đó hoặc cái gì đó.

Ví dụ, nếu bạn có một ứng dụng chạy trực tuyến mà người khác có thể truy cập và sử dụng, mã chạy ứng dụng đó được coi là **mã sản xuất**.

Và các thư viện như [`nb-dev`](https://github.com/fastai/nbdev) của fast.ai (viết tắt của notebook development) cho phép bạn viết toàn bộ thư viện Python (bao gồm cả tài liệu) với Jupyter Notebooks.

### Ưu và nhược điểm của notebook so với Python scripts

Có những lập luận cho cả hai phía.

Nhưng danh sách này tóm tắt một số chủ đề chính.

|               | **Ưu điểm**                                               | **Nhược điểm**                                     |
| ------------- | ------------------------------------------------------ | -------------------------------------------- |
| **Notebooks** | Dễ thí nghiệm/bắt đầu                         | Quản lý phiên bản có thể khó                       |
|               | Dễ chia sẻ (ví dụ: link đến Google Colab notebook) | Khó sử dụng chỉ các phần cụ thể              |
|               | Rất trực quan                                            | Văn bản và đồ họa có thể cản trở mã |

|                    | **Ưu điểm**                                                                            | **Nhược điểm**                                                                                  |
| ------------------ | ----------------------------------------------------------------------------------- | ----------------------------------------------------------------------------------------- |
| **Python scripts** | Có thể đóng gói mã lại với nhau (tiết kiệm việc viết lại mã tương tự trên các notebook khác nhau) | Thí nghiệm không trực quan bằng (thường phải chạy toàn bộ script thay vì một ô) |
|                    | Có thể sử dụng git để quản lý phiên bản                                                          |                                                                                           |
|                    | Nhiều dự án mã nguồn mở sử dụng scripts                                               |                                                                                           |
|                    | Các dự án lớn hơn có thể chạy trên các nhà cung cấp cloud (không hỗ trợ nhiều cho notebooks)     |                                                                                           |

### Quy trình làm việc của tôi

Tôi thường bắt đầu các dự án machine learning trong Jupyter/Google Colab notebooks để thí nghiệm nhanh và trực quan hóa.

Sau đó khi tôi có thứ gì đó hoạt động, tôi chuyển những đoạn mã hữu ích nhất sang Python scripts.

<img src="https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/05-my-workflow-for-experimenting.png" alt="one possible workflow for writing machine learning code, start with jupyter or google colab notebooks and then move to Python scripts when you've got something working." width=1000/>

*Có nhiều quy trình làm việc có thể cho việc viết mã machine learning. Một số người thích bắt đầu với scripts, những người khác (như tôi) thích bắt đầu với notebooks và chuyển sang scripts sau này.*

### PyTorch trong thực tế

Trong các chuyến đi của bạn, bạn sẽ thấy nhiều kho mã cho các dự án ML dựa trên PyTorch có hướng dẫn về cách chạy mã PyTorch dưới dạng Python scripts.

Ví dụ, bạn có thể được hướng dẫn chạy mã như sau trong terminal/command line để huấn luyện mô hình:

```
python train.py --model MODEL_NAME --batch_size BATCH_SIZE --lr LEARNING_RATE --num_epochs NUM_EPOCHS
```

<img src="https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/05-python-train-command-line-annotated.png" alt="command line call for training a PyTorch model with different hyperparameters" width=1000/> 

*Chạy script PyTorch `train.py` trên command line với các cài đặt siêu tham số khác nhau.*

Trong trường hợp này, `train.py` là script Python mục tiêu, nó có thể sẽ chứa các hàm để huấn luyện mô hình PyTorch.

Và `--model`, `--batch_size`, `--lr` và `--num_epochs` được gọi là các cờ đối số.

Bạn có thể đặt chúng thành bất kỳ giá trị nào bạn thích và nếu chúng tương thích với `train.py`, chúng sẽ hoạt động, nếu không, chúng sẽ báo lỗi.

Ví dụ, giả sử chúng ta muốn huấn luyện mô hình TinyVGG từ notebook 04 trong 10 epoch với batch size 32 và learning rate 0.001:

```
python train.py --model tinyvgg --batch_size 32 --lr 0.001 --num_epochs 10
```

Bạn có thể thiết lập bất kỳ số lượng cờ đối số nào trong script `train.py` của mình để phù hợp với nhu cầu của bạn.

Bài đăng trên blog PyTorch để huấn luyện các mô hình thị giác máy tính tiên tiến sử dụng phong cách này.

<img src="https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/05-training-sota-recipe.png" alt="PyTorch training script recipe for training state of the art computer vision models" width=800/>

*Công thức script huấn luyện command line PyTorch để huấn luyện các mô hình thị giác máy tính tiên tiến với 8 GPU. Nguồn: [PyTorch blog](https://pytorch.org/blog/how-to-train-state-of-the-art-models-using-torchvision-latest-primitives/#the-training-recipe).*

## Chúng ta sẽ đề cập gì

Khái niệm chính của phần này là: **chuyển các ô mã notebook hữu ích thành các tệp Python có thể tái sử dụng.**

Làm điều này sẽ giúp chúng ta tiết kiệm việc viết cùng một mã đi viết lại nhiều lần.

Có hai notebook cho phần này:

1. [**05. Going Modular: Part 1 (cell mode)**](https://github.com/mrdbourke/pytorch-deep-learning/blob/main/going_modular/05_pytorch_going_modular_cell_mode.ipynb) - notebook này được chạy như một Jupyter Notebook/Google Colab notebook truyền thống và là phiên bản rút gọn của [notebook 04](https://www.learnpytorch.io/04_pytorch_custom_datasets/).
2. [**05. Going Modular: Part 2 (script mode)**](https://github.com/mrdbourke/pytorch-deep-learning/blob/main/going_modular/05_pytorch_going_modular_script_mode.ipynb) - notebook này giống như số 1 nhưng có thêm chức năng để chuyển từng phần chính thành Python scripts, chẳng hạn như `data_setup.py` và `train.py`.

Văn bản trong tài liệu này tập trung vào các ô mã 05. Going Modular: Part 2 (script mode), những ô có `%%writefile ...` ở đầu.

### Tại sao lại có hai phần?

Bởi vì đôi khi cách tốt nhất để học điều gì đó là xem nó *khác* như thế nào so với thứ khác.

Nếu bạn chạy từng notebook cạnh nhau, bạn sẽ thấy chúng khác nhau như thế nào và đó là nơi có những học hỏi quan trọng.

<img src="https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/05-notebook-cell-mode-vs-script-mode.png" alt="running cell mode notebook vs a script mode notebook" width=1000/>

*Chạy hai notebook cho phần 05 cạnh nhau. Bạn sẽ nhận thấy rằng **notebook script mode có thêm các ô mã** để chuyển mã từ notebook cell mode thành Python scripts.*

### Chúng ta đang hướng tới điều gì

Đến cuối phần này chúng ta muốn có hai thứ:

1. Khả năng huấn luyện mô hình chúng ta đã xây dựng trong notebook 04 (Food Vision Mini) chỉ với một dòng mã trên command line: `python train.py`.
2. Một cấu trúc thư mục của các Python scripts có thể tái sử dụng, chẳng hạn như:

```
going_modular/
├── going_modular/
│   ├── data_setup.py
│   ├── engine.py
│   ├── model_builder.py
│   ├── train.py
│   └── utils.py
├── models/
│   ├── 05_going_modular_cell_mode_tinyvgg_model.pth
│   └── 05_going_modular_script_mode_tinyvgg_model.pth
└── data/
    └── pizza_steak_sushi/
        ├── train/
        │   ├── pizza/
        │   │   ├── image01.jpeg
        │   │   └── ...
        │   ├── steak/
        │   └── sushi/
        └── test/
            ├── pizza/
            ├── steak/
            └── sushi/
```

### Những điều cần lưu ý

* **Docstrings** - Viết mã có thể tái tạo và dễ hiểu là quan trọng. Và với điều này trong đầu, mỗi hàm/class chúng ta sẽ đưa vào scripts đã được tạo với phong cách [Python docstring của Google](https://google.github.io/styleguide/pyguide.html#383-functions-and-methods) trong đầu.
* **Import ở đầu scripts** - Vì tất cả các Python scripts chúng ta sẽ tạo có thể được coi là một chương trình nhỏ riêng lẻ, tất cả các scripts đều yêu cầu các module đầu vào của chúng được import ở đầu script ví dụ:

```python
# Import modules required for train.py
import os
import torch
import data_setup, engine, model_builder, utils

from torchvision import transforms
```

## Bạn có thể nhận trợ giúp ở đâu?

Tất cả tài liệu cho khóa học này [có sẵn trên GitHub](https://github.com/mrdbourke/pytorch-deep-learning).

Nếu bạn gặp khó khăn, bạn có thể đặt câu hỏi trên [trang GitHub Discussions của khóa học](https://github.com/mrdbourke/pytorch-deep-learning/discussions).

Và tất nhiên, có [tài liệu PyTorch](https://pytorch.org/docs/stable/index.html) và [diễn đàn nhà phát triển PyTorch](https://discuss.pytorch.org/), một nơi rất hữu ích cho mọi thứ về PyTorch.

## 0. Cell mode so với script mode

Một notebook cell mode như [05. Going Modular Part 1 (cell mode)](https://github.com/mrdbourke/pytorch-deep-learning/blob/main/going_modular/05_pytorch_going_modular_cell_mode.ipynb) là một notebook chạy bình thường, mỗi ô trong notebook là mã hoặc markdown.

Một notebook script mode như [05. Going Modular Part 2 (script mode)](https://github.com/mrdbourke/pytorch-deep-learning/blob/main/going_modular/05_pytorch_going_modular_script_mode.ipynb) rất giống với notebook cell mode, tuy nhiên, nhiều ô mã có thể được chuyển thành Python scripts.

> **Lưu ý:** Bạn *không cần* tạo Python scripts thông qua notebook, bạn có thể tạo chúng trực tiếp thông qua IDE (integrated developer environment) như [VS Code](https://code.visualstudio.com/). Có notebook script mode như một phần của phần này chỉ để minh họa một cách chuyển từ notebooks sang Python scripts.

## 1. Lấy dữ liệu

Việc lấy dữ liệu trong từng notebook 05 xảy ra giống như trong [notebook 04](https://www.learnpytorch.io/04_pytorch_custom_datasets/#1-get-data).

Một cuộc gọi được thực hiện đến GitHub thông qua module `requests` của Python để tải xuống tệp `.zip` và giải nén nó.

```python 
import os
import requests
import zipfile
from pathlib import Path

# Setup path to data folder
data_path = Path("data/")
image_path = data_path / "pizza_steak_sushi"

# If the image folder doesn't exist, download it and prepare it... 
if image_path.is_dir():
    print(f"{image_path} directory exists.")
else:
    print(f"Did not find {image_path} directory, creating one...")
    image_path.mkdir(parents=True, exist_ok=True)
    
# Download pizza, steak, sushi data
with open(data_path / "pizza_steak_sushi.zip", "wb") as f:
    request = requests.get("https://github.com/mrdbourke/pytorch-deep-learning/raw/main/data/pizza_steak_sushi.zip")
    print("Downloading pizza, steak, sushi data...")
    f.write(request.content)

# Unzip pizza, steak, sushi data
with zipfile.ZipFile(data_path / "pizza_steak_sushi.zip", "r") as zip_ref:
    print("Unzipping pizza, steak, sushi data...") 
    zip_ref.extractall(image_path)

# Remove zip file
os.remove(data_path / "pizza_steak_sushi.zip")
```

Điều này dẫn đến việc có một tệp gọi là `data` chứa một thư mục khác gọi là `pizza_steak_sushi` với hình ảnh pizza, bít tết và sushi ở định dạng phân loại hình ảnh tiêu chuẩn.

```
data/
└── pizza_steak_sushi/
    ├── train/
    │   ├── pizza/
    │   │   ├── train_image01.jpeg
    │   │   ├── test_image02.jpeg
    │   │   └── ...
    │   ├── steak/
    │   │   └── ...
    │   └── sushi/
    │       └── ...
    └── test/
        ├── pizza/
        │   ├── test_image01.jpeg
        │   └── test_image02.jpeg
        ├── steak/
        └── sushi/
```

## 2. Tạo Datasets và DataLoaders (`data_setup.py`)

Khi chúng ta đã có dữ liệu, chúng ta có thể chuyển nó thành PyTorch `Dataset` và `DataLoader` (một cho dữ liệu huấn luyện và một cho dữ liệu kiểm tra).

Chúng ta chuyển đổi mã tạo `Dataset` và `DataLoader` hữu ích thành một hàm gọi là `create_dataloaders()`.

Và chúng ta viết nó vào tệp bằng dòng `%%writefile going_modular/data_setup.py`.

```py title="data_setup.py"
%%writefile going_modular/data_setup.py
"""
Contains functionality for creating PyTorch DataLoaders for 
image classification data.
"""
import os

from torchvision import datasets, transforms
from torch.utils.data import DataLoader

NUM_WORKERS = os.cpu_count()

def create_dataloaders(
    train_dir: str, 
    test_dir: str, 
    transform: transforms.Compose, 
    batch_size: int, 
    num_workers: int=NUM_WORKERS
):
  """Creates training and testing DataLoaders.

  Takes in a training directory and testing directory path and turns
  them into PyTorch Datasets and then into PyTorch DataLoaders.

  Args:
    train_dir: Path to training directory.
    test_dir: Path to testing directory.
    transform: torchvision transforms to perform on training and testing data.
    batch_size: Number of samples per batch in each of the DataLoaders.
    num_workers: An integer for number of workers per DataLoader.

  Returns:
    A tuple of (train_dataloader, test_dataloader, class_names).
    Where class_names is a list of the target classes.
    Example usage:
      train_dataloader, test_dataloader, class_names = \
        = create_dataloaders(train_dir=path/to/train_dir,
                             test_dir=path/to/test_dir,
                             transform=some_transform,
                             batch_size=32,
                             num_workers=4)
  """
  # Use ImageFolder to create dataset(s)
  train_data = datasets.ImageFolder(train_dir, transform=transform)
  test_data = datasets.ImageFolder(test_dir, transform=transform)

  # Get class names
  class_names = train_data.classes

  # Turn images into data loaders
  train_dataloader = DataLoader(
      train_data,
      batch_size=batch_size,
      shuffle=True,
      num_workers=num_workers,
      pin_memory=True,
  )
  test_dataloader = DataLoader(
      test_data,
      batch_size=batch_size,
      shuffle=False, # don't need to shuffle test data
      num_workers=num_workers,
      pin_memory=True,
  )

  return train_dataloader, test_dataloader, class_names
```

Nếu chúng ta muốn tạo `DataLoader`, bây giờ chúng ta có thể sử dụng hàm trong `data_setup.py` như sau:

```python
# Import data_setup.py
from going_modular import data_setup

# Create train/test dataloader and get class names as a list
train_dataloader, test_dataloader, class_names = data_setup.create_dataloaders(...)
```

## 3. Tạo mô hình (`model_builder.py`)

Qua một vài notebook vừa qua (notebook 03 và notebook 04), chúng ta đã xây dựng mô hình TinyVGG một vài lần.

Vì vậy, hợp lý khi đưa mô hình vào tệp riêng để chúng ta có thể tái sử dụng nó lần này đến lần khác.

Hãy đưa lớp mô hình `TinyVGG()` của chúng ta vào một script với dòng `%%writefile going_modular/model_builder.py`:

```python title="model_builder.py"
%%writefile going_modular/model_builder.py
"""
Contains PyTorch model code to instantiate a TinyVGG model.
"""
import torch
from torch import nn 

class TinyVGG(nn.Module):
  """Creates the TinyVGG architecture.

  Replicates the TinyVGG architecture from the CNN explainer website in PyTorch.
  See the original architecture here: https://poloclub.github.io/cnn-explainer/
  
  Args:
    input_shape: An integer indicating number of input channels.
    hidden_units: An integer indicating number of hidden units between layers.
    output_shape: An integer indicating number of output units.
  """
  def __init__(self, input_shape: int, hidden_units: int, output_shape: int) -> None:
      super().__init__()
      self.conv_block_1 = nn.Sequential(
          nn.Conv2d(in_channels=input_shape, 
                    out_channels=hidden_units, 
                    kernel_size=3, 
                    stride=1, 
                    padding=0),  
          nn.ReLU(),
          nn.Conv2d(in_channels=hidden_units, 
                    out_channels=hidden_units,
                    kernel_size=3,
                    stride=1,
                    padding=0),
          nn.ReLU(),
          nn.MaxPool2d(kernel_size=2,
                        stride=2)
      )
      self.conv_block_2 = nn.Sequential(
          nn.Conv2d(hidden_units, hidden_units, kernel_size=3, padding=0),
          nn.ReLU(),
          nn.Conv2d(hidden_units, hidden_units, kernel_size=3, padding=0),
          nn.ReLU(),
          nn.MaxPool2d(2)
      )
      self.classifier = nn.Sequential(
          nn.Flatten(),
          # Where did this in_features shape come from? 
          # It's because each layer of our network compresses and changes the shape of our inputs data.
          nn.Linear(in_features=hidden_units*13*13,
                    out_features=output_shape)
      )
    
  def forward(self, x: torch.Tensor):
      x = self.conv_block_1(x)
      x = self.conv_block_2(x)
      x = self.classifier(x)
      return x
      # return self.classifier(self.conv_block_2(self.conv_block_1(x))) # <- leverage the benefits of operator fusion
```

Bây giờ thay vì mã hóa mô hình TinyVGG từ đầu mỗi lần, chúng ta có thể import nó bằng:

```python
import torch
# Import model_builder.py
from going_modular import model_builder
device = "cuda" if torch.cuda.is_available() else "cpu"

# Instantiate an instance of the model from the "model_builder.py" script
torch.manual_seed(42)
model = model_builder.TinyVGG(input_shape=3,
                              hidden_units=10, 
                              output_shape=len(class_names)).to(device)
```

## 4. Tạo `train_step()` và `test_step()` functions và `train()` function (`engine.py`)

Chúng ta đã viết hàm `train_step()` và `test_step()` một vài lần.

Cũng như hàm `train()` để kết hợp chúng lại với nhau.

Tất cả những hàm này có thể được đưa vào một script riêng để có thể tái sử dụng.

Tôi thích gọi script chứa các hàm huấn luyện là `engine.py` (như động cơ huấn luyện), nhưng bạn có thể gọi nó là gì cũng được.

Hãy tạo `engine.py`:

%%writefile going_modular/engine.py
"""
Contains functions for training and testing a PyTorch model.
"""
import torch

from tqdm.auto import tqdm
from typing import Dict, List, Tuple

def train_step(model: torch.nn.Module, 
               dataloader: torch.utils.data.DataLoader, 
               loss_fn: torch.nn.Module, 
               optimizer: torch.optim.Optimizer,
               device: torch.device) -> Tuple[float, float]:
  """Trains a PyTorch model for a single epoch.

  Turns a target PyTorch model to training mode and then
  runs through all of the required training steps (forward
  pass, loss calculation, optimizer step).

  Args:
    model: A PyTorch model to be trained.
    dataloader: A DataLoader instance for the model to be trained on.
    loss_fn: A PyTorch loss function to minimize.
    optimizer: A PyTorch optimizer to help minimize the loss function.
    device: A target device to compute on (e.g. "cuda" or "cpu").

  Returns:
    A tuple of training loss and training accuracy metrics.
    In the form (train_loss, train_accuracy). For example:
    
    (0.1112, 0.8743)
  """
  # Put model in training mode
  model.train()
  
  # Setup train loss and train accuracy values
  train_loss, train_acc = 0, 0
  
  # Loop through data loader data batches
  for batch, (X, y) in enumerate(dataloader):
      # Send data to target device
      X, y = X.to(device), y.to(device)

      # 1. Forward pass
      y_pred = model(X)

      # 2. Calculate  and accumulate loss
      loss = loss_fn(y_pred, y)
      train_loss += loss.item()

      # 3. Optimizer zero grad
      optimizer.zero_grad()

      # 4. Loss backward
      loss.backward()

      # 5. Optimizer step
      optimizer.step()

      # Calculate and accumulate accuracy metric across all batches
      y_pred_class = torch.argmax(torch.softmax(y_pred, dim=1), dim=1)
      train_acc += (y_pred_class == y).sum().item()/len(y_pred)

  # Adjust metrics to get average loss and accuracy per batch 
  train_loss = train_loss / len(dataloader)
  train_acc = train_acc / len(dataloader)
  return train_loss, train_acc

def test_step(model: torch.nn.Module, 
              dataloader: torch.utils.data.DataLoader, 
              loss_fn: torch.nn.Module,
              device: torch.device) -> Tuple[float, float]:
  """Tests a PyTorch model for a single epoch.

  Turns a target PyTorch model to "eval" mode and then performs
  a forward pass on a testing dataset.

  Args:
    model: A PyTorch model to be tested.
    dataloader: A DataLoader instance for the model to be tested on.
    loss_fn: A PyTorch loss function to calculate loss on the test data.
    device: A target device to compute on (e.g. "cuda" or "cpu").

  Returns:
    A tuple of testing loss and testing accuracy metrics.
    In the form (test_loss, test_accuracy). For example:
    
    (0.0223, 0.8985)
  """
  # Put model in eval mode
  model.eval() 
  
  # Setup test loss and test accuracy values
  test_loss, test_acc = 0, 0
  
  # Turn on inference context manager
  with torch.inference_mode():
      # Loop through DataLoader batches
      for batch, (X, y) in enumerate(dataloader):
          # Send data to target device
          X, y = X.to(device), y.to(device)
  
          # 1. Forward pass
          test_pred_logits = model(X)
  
          # 2. Calculate and accumulate loss
          loss = loss_fn(test_pred_logits, y)
          test_loss += loss.item()
          
          # Calculate and accumulate accuracy
          test_pred_labels = test_pred_logits.argmax(dim=1)
          test_acc += ((test_pred_labels == y).sum().item()/len(test_pred_labels))
          
  # Adjust metrics to get average loss and accuracy per batch 
  test_loss = test_loss / len(dataloader)
  test_acc = test_acc / len(dataloader)
  return test_loss, test_acc

def train(model: torch.nn.Module, 
          train_dataloader: torch.utils.data.DataLoader, 
          test_dataloader: torch.utils.data.DataLoader, 
          optimizer: torch.optim.Optimizer,
          loss_fn: torch.nn.Module,
          epochs: int,
          device: torch.device) -> Dict[str, List]:
  """Trains and tests a PyTorch model.

  Passes a target PyTorch models through train_step() and test_step()
  functions for a number of epochs, training and testing the model
  in the same epoch loop.

  Calculates, prints and stores evaluation metrics throughout.

  Args:
    model: A PyTorch model to be trained and tested.
    train_dataloader: A DataLoader instance for the model to be trained on.
    test_dataloader: A DataLoader instance for the model to be tested on.
    optimizer: A PyTorch optimizer to help minimize the loss function.
    loss_fn: A PyTorch loss function to calculate loss on both datasets.
    epochs: An integer indicating how many epochs to train for.
    device: A target device to compute on (e.g. "cuda" or "cpu").

  Returns:
    A dictionary of training and testing loss as well as training and
    testing accuracy metrics. Each metric has a value in a list for 
    each epoch.
    In the form: {train_loss: [...],
              train_acc: [...],
              test_loss: [...],
              test_acc: [...]} 
    For example if training for epochs=2: 
             {train_loss: [2.0616, 1.0537],
              train_acc: [0.3945, 0.3945],
              test_loss: [1.2641, 1.5706],
              test_acc: [0.3400, 0.2973]} 
  """
  # Create empty results dictionary
  results = {"train_loss": [],
      "train_acc": [],
      "test_loss": [],
      "test_acc": []
  }
  
  # Loop through training and testing steps for a number of epochs
  for epoch in tqdm(range(epochs)):
      train_loss, train_acc = train_step(model=model,
                                        dataloader=train_dataloader,
                                        loss_fn=loss_fn,
                                        optimizer=optimizer,
                                        device=device)
      test_loss, test_acc = test_step(model=model,
          dataloader=test_dataloader,
          loss_fn=loss_fn,
          device=device)
      
      # Print out what's happening
      print(
          f"Epoch: {epoch+1} | "
          f"train_loss: {train_loss:.4f} | "
          f"train_acc: {train_acc:.4f} | "
          f"test_loss: {test_loss:.4f} | "
          f"test_acc: {test_acc:.4f}"
      )

      # Update results dictionary
      results["train_loss"].append(train_loss)
      results["train_acc"].append(train_acc)
      results["test_loss"].append(test_loss)
      results["test_acc"].append(test_acc)

  # Return the filled results at the end of the epochs
  return results

Bây giờ thay vì viết lại tất cả mã huấn luyện từ đầu, chúng ta có thể import và sử dụng nó bằng:

```python
# Import engine.py
from going_modular import engine

# Use train() by calling it from engine.py
engine.train(model=model,
             train_dataloader=train_dataloader,
             test_dataloader=test_dataloader,
             loss_fn=loss_fn,
             optimizer=optimizer,
             epochs=5,
             device=device)
```

## 5. Tạo một function để lưu mô hình (`utils.py`)

Chúng ta đã viết code để lưu mô hình PyTorch của chúng ta một vài lần.

Hãy biến nó thành một function để chúng ta có thể sử dụng lại nó.

Tôi sẽ gọi script này là `utils.py` vì nó chứa các tiện ích (functions hữu ích) mà chúng ta có thể sử dụng trong các dự án khác nhau.

%%writefile going_modular/utils.py
"""
Contains various utility functions for PyTorch model training and saving.
"""
import torch
from pathlib import Path

def save_model(model: torch.nn.Module,
               target_dir: str,
               model_name: str):
  """Saves a PyTorch model to a target directory.

  Args:
    model: A target PyTorch model to save.
    target_dir: A directory for saving the model to.
    model_name: A filename for the saved model. Should include
      either ".pth" or ".pt" as the file extension.
  
  Example usage:
    save_model(model=model_0,
               target_dir="models",
               model_name="05_going_modular_tingvgg_model.pth")
  """
  # Create target directory
  target_dir_path = Path(target_dir)
  target_dir_path.mkdir(parents=True,
                        exist_ok=True)
  
  # Create model save path
  assert model_name.endswith(".pth") or model_name.endswith(".pt"), "model_name should end with '.pt' or '.pth'"
  model_save_path = target_dir_path / model_name
  
  # Save the model state_dict()
  print(f"[INFO] Saving model to: {model_save_path}")
  torch.save(obj=model.state_dict(),
             f=model_save_path)

Bây giờ thay vì viết lại code lưu mô hình từ đầu, chúng ta có thể import và sử dụng nó bằng:

```python
# Import utils.py
from going_modular import utils

# Save a model to file
utils.save_model(model=model,
                 target_dir="models",
                 model_name="05_going_modular_tinyvgg_model.pth")
```

## 6. Train, evaluate và save mô hình (`train.py`)

Bây giờ chúng ta đã có tất cả các individual components, chúng ta có thể kết hợp chúng lại với nhau để tạo một training script.

Một training script sẽ kết hợp tất cả các script trước đó để train một mô hình.

Bởi vì tất cả logic được chứa trong các modules khác, `train.py` script sẽ khá ngắn gọn.