<a href="https://colab.research.google.com/github/minhbao1705/pytorch_tutorial/blob/main/PyTorch_Tutorial_How_to_Develop_Deep_Learning_Models_with_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **1. How to Install PyTorch**
Trong bài này, bạn sẽ khám phá PyTorch là gì, cách cài đặt và cách xác nhận nó được cài đúng.

## **1.1. What are Torch and PyTorch**



PyTorch là thư viện open-source Python dành cho deeplearning được phát triển và duy trì bởi Facebook.

Dự án bắt đầu vào năm 2016 và nhanh chóng trở thành một framework phổ biến đối với các nhà phát triển và nhà nghiên cứu.

Torch (Torch7) là một dự án nguồn mở dành cho deep learning được viết bằng C và thường được sử dụng thông qua giao diện Lua. Đó là dự án tiền thân của PyTorch và không còn được phát triển tích cực nữa. PyTorch bao gồm "Torch" trong tên, thừa nhận thư viện đèn pin trước đó có tiền tố "Py" biểu thị trọng tâm Python của dự án mới.

API PyTorch rất đơn giản và linh hoạt, khiến nó được các học giả và nhà nghiên cứu yêu thích trong việc phát triển các mô hình và ứng dụng deep learning mới. Việc sử dụng rộng rãi đã dẫn đến nhiều tiện ích mở rộng cho các ứng dụng cụ thể (chẳng hạn như văn bản, thị giác máy tính và dữ liệu âm thanh) và có thể các mô hình được đào tạo trước có thể được sử dụng trực tiếp. Vì vậy, nó có thể là thư viện phổ biến nhất được các học giả sử dụng.

Tính linh hoạt của PyTorch phải trả giá bằng sự dễ sử dụng, đặc biệt đối với người mới bắt đầu, so với các giao diện đơn giản hơn như Keras. Lựa chọn sử dụng PyTorch thay vì Keras mang lại sự dễ sử dụng, đường cong học tập dốc hơn một chút và nhiều mã hơn để linh hoạt hơn và có lẽ là một cộng đồng học thuật sôi động hơn

## **1.2. How to Install PyTorch**

Có nhiều cách để tải thư viện deep learning open-source PyTorch

Ví dụ: trên dòng lệnh, bạn có thể gõ:


```python
!sudo pip install torch
```

Có lẽ ứng dụng phổ biến nhất của deep learning là dành cho thị giác máy tính và gói thị giác máy tính PyTorch được gọi là "torchvision".

Việc cài đặt torchvision cũng rất được khuyến khích và nó có thể được cài đặt như sau:

```python
sudo pip install torchvision
```

Bạn có thể xem danh sách đầy đủ các hướng dẫn cài đặt tại đây:
* [PyTorch Installation Guide](https://pytorch.org/get-started/locally/)

## **1.3. How to confirm PyTorch is Installed**

Sau khi cài đặt PyTorch, điều quan trọng là phải xác nhận rằng thư viện đã được cài đặt thành công và bạn có thể bắt đầu sử dụng nó.

In [None]:
# check pytorch version
import torch
print(torch.__version__)

2.1.0+cu118


# **2. PyTorch Deep Learning Model Life-Cycle**

Trong phần này, bạn sẽ khám phá vòng đời của mô hình học sâu và API PyTorch mà bạn có thể sử dụng để xác định mô hình.

Một mô hình có vòng đời và kiến ​​thức rất đơn giản này cung cấp nền tảng cho cả việc lập mô hình tập dữ liệu và hiểu API PyTorch.
Năm bước trong vòng đời như sau:
1. Chuẩn bị dữ liệu.
2. Xác định mô hình.
3. Đào tạo người mẫu.
4. Đánh giá mô hình.
5. Đưa ra dự đoán.

Chúng ta hãy xem xét kỹ hơn lần lượt từng bước.

## **Step 1: Prepare the Data**

Bước đầu tiên là tải và chuẩn bị dữ liệu của bạn.

Các mô hình mạng thần kinh yêu cầu dữ liệu đầu vào dạng số và dữ liệu đầu ra dạng số.

Bạn có thể sử dụng thư viện Python tiêu chuẩn để tải và chuẩn bị dữ liệu dạng bảng, như tệp CSV. Ví dụ: Pandas có thể được sử dụng để tải tệp CSV của bạn và các công cụ từ scikit-learn có thể được sử dụng để mã hóa dữ liệu phân loại, chẳng hạn như nhãn lớp.

PyTorch cung cấp lớp Tập dữ liệu mà bạn có thể mở rộng và tùy chỉnh để tải tập dữ liệu của mình.

Ví dụ: hàm tạo của đối tượng tập dữ liệu có thể tải tệp dữ liệu của bạn (ví dụ: tệp CSV). Sau đó, bạn có thể ghi đè hàm `__len__()` có thể dùng để lấy độ dài của tập dữ liệu (số hàng hoặc mẫu) và hàm `__getitem__()` dùng để lấy mẫu cụ thể theo chỉ mục.

Khi tải tập dữ liệu của mình, bạn cũng có thể thực hiện bất kỳ phép biến đổi cần thiết nào, chẳng hạn như scaling hoặc encoding.


In [None]:
# dataset definition
class CSVDataset(Dataset):
  # load the dataset
  def __init(self, path):
    # store the inputs and outputs
    self.X = ...
    self.y = ...

  # number of rows in the dataset
  def __len__(self):
    return len(self.X)

  # get a row at an index
  def __getitem__(self, idx):
    return [self.X[idx], self.y[idx]]

Sau khi được tải, PyTorch cung cấp lớp DataLoader để điều hướng một phiên bản Dataset trong quá trình đào tạo và đánh giá mô hình của bạn.

Một phiên bản DataLoader có thể được tạo cho tập training dataset, test dataset và thậm chí cả validation dataset.

Hàm `Random_split()` có thể được sử dụng để chia tập data thành train và test set. Sau khi phân tách, một lựa chọn các hàng từ Dataset có thể được cung cấp cho DataLoader, cùng với batch size và liệu data có nên được xáo trộn mỗi epoch hay không.

Ví dụ: chúng ta có thể xác định DataLoader bằng cách chuyển vào một mẫu hàng đã chọn trong tập dữ liệu.

In [None]:
# create the dataset
dataset = CSVDataset(...)
# select rows from the dataset
train, test = random_split(dataset, [[...], [...]])
# create a data loader for train and test sets
train_dl = DataLoader(train, batch_size=32, shuffle=True)
test_dl = DataLoader(test, batch_size=1024, shuffle=False)

Sau khi được xác định, DataLoader có thể được liệt kê, mang lại giá trị một lô mẫu cho mỗi lần lặp.

In [None]:
# train the model
for i, (inputs, targets) in enumerate(train_dl):
...

## **Step 2: Define the Model**

Bước tiếp theo là xác định một mô hình.

Hàm tạo của lớp của bạn xác định các lớp của mô hình và hàm Forward() là phần ghi đè xác định cách chuyển tiếp đầu vào truyền qua các lớp được xác định của mô hình.

Có nhiều lớp, chẳng hạn như Linear cho các lớp được kết nối đầy đủ, Conv2d cho các lớp chập và MaxPool2d cho các lớp gộp.

Các acitvation function cũng có thể được định nghĩa là các lớp, chẳng hạn như ReLU, Softmax và Sigmoid.

Dưới đây là một ví dụ về mô hình MLP đơn giản với một lớp.

In [None]:
# model definition
class MLP(Module):
  # define model elements
  def __init__(self, n_inputs):
    super(MLP, self).__init__()
    self.layer = Linear(n_inputs, 1)
    self.activation = Sigmoid()

  # forward propagate input
  def forward(self, X):
    X = self.layer(X)
    X = self.activation(X)
    return X

Các trọng số của một lớp nhất định cũng có thể được khởi tạo sau khi lớp đó được xác định trong hàm tạo.

Các ví dụ phổ biến bao gồm các sơ đồ khởi tạo trọng số Xavier và He. Ví dụ:

In [None]:
xavier_uniform_(self.layer.weight)

## **Step 3: Train the Model**

Quá trình đào tạo yêu cầu bạn xác định hàm mất mát và thuật toán tối ưu hóa.

Các hàm mất mát phổ biến bao gồm:

* BCELoss: Mất entropy chéo nhị phân để phân loại nhị phân.
* CrossEntropyLoss: Mất entropy chéo theo phân loại để phân loại nhiều lớp.
* MSELoss: Tổn thất bình phương trung bình cho hồi quy.

Để biết thêm về các hàm mất mát nói chung, hãy xem hướng dẫn:
* [Hàm mất mát và mất mát để đào tạo Mạng thần kinh học sâu ](https://machinelearningmastery.com/loss-and-loss-functions-for-training-deep-learning-neural-networks/)

Độ dốc ngẫu nhiên được sử dụng để tối ưu hóa và thuật toán tiêu chuẩn được cung cấp bởi lớp SGD, mặc dù có sẵn các phiên bản khác của thuật toán, chẳng hạn như như Adam.

In [None]:
# define the optimization
criterion = MSELoss()
optimizer = SGD(model.parameters(), lr=0.01, momentum=0.9)

Huấn luyện mô hình bao gồm việc liệt kê DataLoader cho training dataset.

Đầu tiên, cần có một vòng lặp cho training epochs. Sau đó, cần có một vòng lặp bên trong cho các mini-batches để gradient descent ngẫu nhiên.

In [None]:
# enumerate epochs
for epoch in range(100):
  # enumerate mini batches
  for i, (inputs, targets) in enumerate(train_dl):

Mỗi bản cập nhật cho mô hình đều bao gồm cùng một mẫu chung bao gồm:
* Clearing the last error gradient.
* A forward pass of the input through the model.
* Calculating the loss for the model output.
* Backpropagating the error through the model.
* Update the model in an effort to reduce loss.

Ví dụ:

In [None]:
# clear the gradients
optimizer.zero_grad()
# compute the model output
yhat = model(inputs)
# calculate loss
loss = criterion(yhat, targets)
# credit assignment
loss.backward()
# update model weights
optimizer.step()

## **Step 4: Evaluate the model**

Khi mô hình phù hợp, nó có thể được đánh giá trên tập dữ liệu thử nghiệm.

Điều này có thể đạt được bằng cách sử dụng DataLoader cho test dataset và thu thập dự đoán cho test set, sau đó so sánh dự đoán với giá trị mong đợi của test set và tính toán chỉ số hiệu suất.

In [None]:
for i, (inputs, targets) in enumerate(test_dl):
  # evaluate the model on the test set
  yhat = model(inputs)

## **Step 5: Make predictions**

Một mô hình phù hợp có thể được sử dụng để đưa ra dự đoán về dữ liệu mới.

Ví dụ: bạn có thể có một hình ảnh hoặc một hàng dữ liệu và muốn đưa ra dự đoán.

Điều này yêu cầu bạn bọc dữ liệu trong cấu trúc dữ liệu PyTorch Tensor.

Tensor chỉ là phiên bản PyTorch của mảng NumPy để lưu trữ dữ liệu. Nó cũng cho phép bạn thực hiện các tác vụ phân biệt tự động trong biểu đồ mô hình, như gọi `backward()` khi huấn luyện mô hình.

Dự đoán cũng sẽ là một Tensor, mặc dù bạn có thể truy xuất mảng NumPy bằng cách tách Tensor khỏi biểu đồ vi phân tự động và gọi hàm NumPy

In [None]:
# convert row to data
row = Variable(Tensor([ros]).float())
# make prediction
yhat = model(row)
# retrieve numpy array
yhat = yhat.detach().numpy()

# **3. How to Develop PyTorch Deep Learning Models**

Trong phần này, bạn sẽ khám phá cách phát triển, đánh giá và đưa ra dự đoán bằng các mô hình học sâu tiêu chuẩn, bao gồm Multilayer Perceptrons (MLP) và Convolutional Neural Networks (CNN).

Mô hình Perceptron đa lớp, hay gọi tắt là MLP, là mô hình mạng thần kinh được kết nối đầy đủ tiêu chuẩn.

Nó bao gồm các lớp nút trong đó mỗi nút được kết nối với tất cả đầu ra từ lớp trước và đầu ra của mỗi nút được kết nối với tất cả đầu vào của các nút ở lớp tiếp theo.

MLP là một mô hình có một hoặc nhiều lớp được kết nối đầy đủ. Mô hình này phù hợp với dữ liệu dạng bảng, tức là dữ liệu được thể hiện trong bảng hoặc bảng tính với một cột cho mỗi biến và một hàng cho mỗi biến. Có ba vấn đề về mô hình dự đoán mà bạn có thể muốn khám phá với MLP; chúng là phân loại nhị phân, phân loại nhiều lớp và hồi quy.

Hãy điều chỉnh mô hình trên tập dữ liệu thực cho từng trường hợp này.

Lưu ý: Các mô hình trong phần này có hiệu quả nhưng chưa được tối ưu hóa. Xem liệu bạn có thể cải thiện hiệu suất của họ hay không. Đăng những phát hiện của bạn trong các ý kiến ​​​​dưới đây.

## **3.1. How to Develop an MLP for Binary Classification**

Chúng tôi sẽ sử dụng tập dữ liệu phân loại nhị phân tầng điện ly (hai lớp) để chứng minh MLP cho phân loại nhị phân.

Bộ dữ liệu này liên quan đến việc dự đoán liệu có cấu trúc nào trong khí quyển hay không hoặc radar không phản hồi.

Chúng tôi sẽ sử dụng LabelEncode để mã hóa nhãn chuỗi thành giá trị số nguyên 0 và 1. Mô hình sẽ phù hợp với 67% dữ liệu và 33% còn lại sẽ được sử dụng để đánh giá, phân tách bằng hàm `train_test_split()`.

Đó là một cách thực hành tốt để sử dụng kích hoạt 'relu' với khởi tạo trọng số *'He Uniform'*. Sự kết hợp này đã đi một chặng đường dài để khắc phục vấn đề biến mất độ dốc khi training deep neural network models.

Mô hình dự đoán xác suất của lớp 1 và sử dụng hàm kích hoạt sigmoid. Mô hình được tối ưu hóa bằng cách sử dụng phương pháp giảm độ dốc ngẫu nhiên và tìm cách giảm thiểu tổn thất binary cross-entropy loss.

Ví dụ đầy đủ được liệt kê dưới đây.

In [6]:
# pytorch mlp for binary classification
from numpy import vstack
from pandas import read_csv
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
from torch.utils.data import random_split
from torch import Tensor
from torch.nn import Linear
from torch.nn import ReLU
from torch.nn import Sigmoid
from torch.nn import Module
from torch.optim import SGD
from torch.nn import BCELoss
from torch.nn.init import kaiming_uniform_
from torch.nn.init import xavier_uniform_

# dataset definition
class CSVDataset(Dataset):
  # load the dataset
  def __init__(self, path):
    # load the csv file as a dataframe
    df = read_csv(path, header=None)
    # store the inputs and outputs
    self.X = df.values[:, :-1]
    self.y = df.values[:, -1]
    # ensure input data is floats
    self.X = self.X.astype('float32')
    # label encode target and ensure the values are floats
    self.y = LabelEncoder().fit_transform(self.y)
    self.y = self.y.astype('float32')
    self.y = self.y.reshape((len(self.y), 1))

  # number of rows in the dataset
  def __len__(self):
    return len(self.X)

  # get a row at an index
  def __getitem__(self, idx):
    return [self.X[idx], self.y[idx]]

  # get indexes for train and test rows
  def get_splits(self, n_test=0.33):
    # determine sizes
    test_size = round(n_test * len(self.X))
    train_size = len(self.X) - test_size
    # calculate the split
    return random_split(self, [train_size, test_size])

# model definition
class MLP(Module):
  # define model elements
  def __init__(self, n_inputs):
    super(MLP, self).__init__()
    # input to first hidden layer
    self.hidden1 = Linear(n_inputs, 10)
    kaiming_uniform_(self.hidden1.weight, nonlinearity='relu')
    self.act1 = ReLU()
    # second hidden layer
    self.hidden2 = Linear(10, 8)
    kaiming_uniform_(self.hidden2.weight, nonlinearity='relu')
    self.act2 = ReLU()
    # third hidden layer and output
    self.hidden3 = Linear(8, 1)
    xavier_uniform_(self.hidden3.weight)
    self.act3 = Sigmoid()

  # forward propagate input
  def forward(self, X):
    # input to first hidden layer
    X = self.hidden1(X)
    X = self.act1(X)
    # second hidden layer
    X = self.hidden2(X)
    x = self.act2(X)
    # third hidden layer and output
    X = self.hidden3(X)
    X = self.act3(X)
    return X

# prepare the dataset
def prepare_data(path):
  # load the dataset
  dataset = CSVDataset(path)
  # calculate split
  train, test = dataset.get_splits()
  # prepare data loaders
  train_dl = DataLoader(train, batch_size=32, shuffle=True)
  test_dl = DataLoader(test, batch_size=1024, shuffle=False)
  return train_dl, test_dl

# train the model
def train_model(train_dl, model):
  # define the optimization
  criterion = BCELoss()
  optimizer = SGD(model.parameters(), lr=0.01, momentum=0.9)
  # enumerate epochs
  for epoch in range(100):
    # enumerate mini batches
    for i, (inputs, targets) in enumerate(train_dl):
      # clear the gradients
      optimizer.zero_grad()
      # compute the model output
      yhat = model(inputs)
      # calculate loss
      loss = criterion(yhat, targets)
      # credict assignment
      loss.backward()
      # update model weights
      optimizer.step()

# evaluate the model
def evaluate_model(test_dl, model):
  predictions, actuals = list(), list()
  for i, (inputs, targets) in enumerate(test_dl):
    # evaluate the model on the test set
    yhat = model(inputs)
    # retrieve numpy array
    yhat = yhat.detach().numpy()
    actual = targets.numpy()
    actual = actual.reshape((len(actual), 1))
    # round to class values
    yhat = yhat.round()
    # store
    predictions.append(yhat)
    actuals.append(actual)
  predictions, actuals = vstack(predictions), vstack(actuals)
  # calculate accuracy
  acc = accuracy_score(actuals, predictions)
  return acc

# make a class prediction for one row of data
def predict(row, model):
  # convert row to data
  row = Tensor([row])
  # make prediction
  yhat = model(row)
  # retrieve numpy array
  yhat = yhat.detach().numpy()
  return yhat

# prepare the data
path = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/ionosphere.csv'
train_dl, test_dl = prepare_data(path)
print(len(train_dl.dataset), len(test_dl.dataset))
# define the network
model = MLP(34)
# train the model
train_model(train_dl, model)
# evaluate the model
acc = evaluate_model(test_dl, model)
print('Accuracy: %3f' % acc)
# make a single prediction (expect class=1)
row = [1,0,0.99539,-0.05889,0.85243,0.02306,0.83398,-0.37708,1,0.03760,0.85243,-0.17755,0.59755,-0.44945,0.60536,-0.38223,0.84356,-0.38542,0.58212,-0.32192,0.56971,-0.29674,0.36946,-0.47357,0.56811,-0.51171,0.41078,-0.46168,0.21266,-0.34090,0.42267,-0.54487,0.18641,-0.45300]
yhat = predict(row, model)
print('Predicted: %3f (class=%3d)' % (yhat, yhat.round()))

235 116
Accuracy: 0.948276
Predicted: 0.999283 (class=  1)
