# Nguồn:
1. https://towardsdatascience.com/a-complete-guide-to-using-tensorboard-with-pytorch-53cb2301e8c3
2. https://pytorch.org/tutorials/intermediate/tensorboard_tutorial.html#adding-a-projector-to-tensorboard
3. https://debuggercafe.com/track-your-pytorch-deep-learning-project-with-tensorboard/

# Nội dung chính:
1. Giới thiệu
2. Thiết lập mô hình CNN
3. Hiển thị hình ảnh và đồ thị với Tensorboard
4. Vòng lặp training để mô phỏng đánh giá
5. Hyperparameter Tuning

# 1. Giới thiệu
Trong phần này, chúng ta sẽ sử dụng bộ dữ liệu **FashionMNIST** (bao gồm 60000 hình ảnh quần áo và 10 class labels cho các loại quần áo khác nhau) là một dataset trong thư viện **torch vision**. Nó bao gồm các hình ảnh quần áo, giày,... với các nhãn là các số nguyên tương ứng. Chúng ta sẽ tạo một bộ phân loại CNN và rồi rút ra kết luận từ nó. Tuy nhiên, trong bài viết này sẽ giúp bạn mở rộng sức mạnh của Tensorboard cho dự án bất kỳ trong Pytorch mà bạn làm việc sử dụng Custom dataset.

Lưu ý rằng bài viết này sẽ không đi sâu vào chi tiết cách thực thi mô hình CNN và setting vòng lặp training. Thay vào đó, tập trung vào các dự án Deep Learning để có được hình ảnh về hoạt động bên trong của các mô hình (**weights** và **bias**) và các chỉ số đánh giá (**loss, độ accuracy, num_correct_predictions**) cùng với điều chỉnh siêu tham số.

In [1]:
import torch
import torch.nn as nn
import torch.optim as opt
torch.set_printoptions(linewidth=120)
import torch.nn.functional as F
import torchvision
import torchvision.transforms as transforms
from torch.utils.tensorboard import SummaryWriter

Lệnh cuối cùng bên trên cho phép chúng ta import **Tensorboard**. Chúng ta sẽ tạo instance của **SummaryWriter** và rồi thêm các đặc trưng được tính toán bởi mô hình như loss, số dự đoán đúng, accuracy... vào nó. Một trong những điểm nổi bật của Tensorboard là chúng ta dễ dàng feed các output tensor vào nó và nó hiển thị đồ thị của tất cả các độ đo (metric).

In [2]:
def get_num_correct(preds, labels):
    return preds.argmax(dim=1).eq(labels).sum().item()

Code trên cho phép chúng ta lấy số labels đúng sau khi training model và apply vào tập test. **argmax** lất chỉ số tương ứng với giá trị cao nhất của một tensor. Lấy tại **dim=1** bởi vì **dim=0** là tương ứng với **batch_size**. Nếu dự đoán đúng với nhãn thật thì sẽ trả lại 1,và ngược lại trả lại 0. Cuối cùng , chúng ta lấy tổng các số 1 là tổng số dự đoán đúng. Sau khi thực hiện các phép toán trên tensor, đầu ra cũng được trả về dưới dạng tensor. Vì vậy chúng ta cần dùng **item** để chuyển tensor về float thông thường trong Python. Khi đó chúng ta có thể append giá trị này vào một list (*total_correct*) để plot trên Tensorboard (Tensor append vào 1 list không thể vẽ trên Tensorboard được).

# 2. Thiết lập mô hình CNN

In [3]:
class CNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=6, kernel_size=5)
        self.conv2 = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=5)

        self.fc1 = nn.Linear(in_features=12*4*4, out_features=120)
        self.fc2 = nn.Linear(in_features=120, out_features=60)
        self.out = nn.Linear(in_features=60, out_features=10)

    def forward(self, x):
        x = F.relu(self.conv1(x))
        x = F.max_pool2d(x, kernel_size = 2, stride = 2)
        x = F.relu(self.conv2(x))
        x = F.max_pool2d(x, kernel_size = 2, stride = 2)
        x = torch.flatten(x,start_dim = 1)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.out(x)

        return x

Tiếp theo chúng ta sẽ import data và tạo train loader:

In [5]:
train_set = torchvision.datasets.FashionMNIST(
    root='./data',
    train = True,
    download=True,
    transform=transforms.ToTensor()
)

train_loader = torch.utils.data.DataLoader(
    train_set,
    batch_size=100,
    shuffle=True
)

# 3. Hiển thị hình ảnh và đồ thị với Tensorboard

In [6]:
tb = SummaryWriter()
model = CNN()
images, labels = next(iter(train_loader))
grid = torchvision.utils.make_grid(images)

tb.add_image("images", grid)
tb.add_graph(model, images)
tb.close()

Chúng ta tạo một đối tượng **tb** của **SummaryWriter** và thêm các hình ảnh vào nó bằng cách sử dụng **tb.add_image**. Nó có 2 tham số chính, một là **tiêu đề** của ảnh và **tensor** của ảnh. Trong trường hợp này, chúng ta đã tạo một batch gồm 100 ảnh và passed chúng thành 1 grid rồi thêm vào **tb**. 

Hàm **tb.add_graph**, chúng ta pass mô hình CNN và một batch đơn vào để sinh đồ thị của mô hình.

Sau khi chạy code, thư mục **runs** sẽ được tạo ra. Tất cả tiêu đề đầu trong thư mục sẽ sắp xếp theo **date**. Điều này giúp bạn có thể chạy và so sánh trong Tensorboard.

Để chạy tensorboard, chúng ta chạy lệnh sau:

> tensorboard --logdir runs

Tensorboard sẽ khởi chạy localhost ở cổng nào đó (xem trên cmd) và chúng ta truy cập vào link đó để xem kết quả mô phỏng.

Hình ảnh có thể thấy dưới tab **Images**. Chúng ta có thể sử dụng regex để lọc qua các lần chạy và đánh dấu vào những lần chúng ta muốn hình dung.

![img](./images/6.png)

Ở tab **Graph**, chúng ta sẽ đấy graph của mô hình. Nó cho thấy chi tiết pipeline số chiều của các batch hình ảnh thay đổi như thế nào qua mỗi convolution và layer liner. Nhấn đúp vào để lấy thêm thông tin chi tiết của graph. Nó cũng cung cấp kích thước của tất cả các ma trận trọng số và bias bằng cách nhấp đúp vào bất kỳ lớp Conv2d hoặc Linear nào.

![img](./images/7.png)

# 4. Vòng lặp training để mô phỏng đánh giá

In [9]:
device = ("cuda" if torch.cuda.is_available() else "cpu")
model = CNN().to(device)
train_loader = torch.utils.data.DataLoader(
    train_set,
    batch_size=100,
    shuffle=True
)
optimizer = opt.Adam(model.parameters(), lr=0.01)
criterion = torch.nn.CrossEntropyLoss()

tb = SummaryWriter()

for epoch in range(10):
    total_loss = 0
    total_correct = 0
    for images, labels in train_loader:
        images, labels = images.to(device), labels.to(device)
        preds = model(images)
        
        loss = criterion(preds, labels)
        total_loss += loss.item()
        total_correct += get_num_correct(preds, labels)
        
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
    # For tensorboard
    tb.add_scalar("Loss", total_loss, epoch)
    tb.add_scalar("Correct", total_correct, epoch)
    tb.add_scalar("Accuracy", total_correct/len(train_set), epoch)
    
    tb.add_histogram("conv1.bias", model.conv1.bias, epoch)
    tb.add_histogram("conv1.weight", model.conv1.weight, epoch)
    tb.add_histogram("conv2.bias", model.conv2.bias, epoch)
    tb.add_histogram("conv2.weight", model.conv2.weight, epoch)
    
    print("epoch:", epoch, "total_correct:", total_correct, "loss:",
         total_loss)
    
tb.close()

epoch: 0 total_correct: 46570 loss: 357.7504176944494
epoch: 1 total_correct: 51260 loss: 238.48734259605408
epoch: 2 total_correct: 51914 loss: 220.13289082050323
epoch: 3 total_correct: 52380 loss: 207.42743049561977
epoch: 4 total_correct: 52720 loss: 197.08434410393238
epoch: 5 total_correct: 52813 loss: 196.58541917055845
epoch: 6 total_correct: 53044 loss: 189.38912853598595
epoch: 7 total_correct: 53052 loss: 187.89532232284546
epoch: 8 total_correct: 53216 loss: 186.15575233101845
epoch: 9 total_correct: 53163 loss: 187.00692084431648


Ngoài ra, chúng ta cũng có thể sử dụng vòng lặp for để lặp qua tất cả các tham số mô hình bao gồm các lớp fc và softmax:

In [10]:
for name, weight in model.named_parameters():
    tb.add_histogram(name, weight, epoch)
    tb.add_histogram(f'{name}.grad', weight.grad, epoch)

Chúng ta chạy vòng lặp 10 epochs.

![img](./images/8.png)
![img](./images/9.png)

# 5. Hyperparameter Tuning

Đầu tiên chúng ta cần thay đổi **batch_size, learning_rate, shuffle** thành các biến động. Chúng ta làm điều này bằng cách tạo dictionary như sau:

In [11]:
from itertools import product
parameters = dict(
    lr = [0.01, 0.001],
    batch_size = [32, 64, 128],
    shuffle = [True, False]
)

param_values = [v for v in parameters.values()]
print(param_values)

[[0.01, 0.001], [32, 64, 128], [True, False]]


In [12]:
for lr, batch_size, shuffle in product(*param_values):
    print(lr, batch_size, shuffle)

0.01 32 True
0.01 32 False
0.01 64 True
0.01 64 False
0.01 128 True
0.01 128 False
0.001 32 True
0.001 32 False
0.001 64 True
0.001 64 False
0.001 128 True
0.001 128 False


Chúng ta sẽ có tổng cộng 12 lần chạy với các tham số khác nhau. Chúng ta sẽ sửa lại mô hình huấn luyện như sau:

In [13]:
for run_id, (lr,batch_size, shuffle) in enumerate(product(*param_values)):
    print("run id:", run_id + 1)
    model = CNN().to(device)
    train_loader = torch.utils.data.DataLoader(train_set,batch_size = batch_size, shuffle = shuffle)
    optimizer = opt.Adam(model.parameters(), lr= lr)
    criterion = torch.nn.CrossEntropyLoss()
    comment = f' batch_size = {batch_size} lr = {lr} shuffle = {shuffle}'
    tb = SummaryWriter(comment=comment)
    for epoch in range(5):
        total_loss = 0
        total_correct = 0
        for images, labels in train_loader:
            images, labels = images.to(device), labels.to(device)
            preds = model(images)

            loss = criterion(preds, labels)
            total_loss+= loss.item()
            total_correct+= get_num_correct(preds, labels)

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

        tb.add_scalar("Loss", total_loss, epoch)
        tb.add_scalar("Correct", total_correct, epoch)
        tb.add_scalar("Accuracy", total_correct/ len(train_set), epoch)

        print("batch_size:",batch_size, "lr:",lr,"shuffle:",shuffle)
        print("epoch:", epoch, "total_correct:", total_correct, "loss:",total_loss)
    print("__________________________________________________________")

    tb.add_hparams(
            {"lr": lr, "bsize": batch_size, "shuffle":shuffle},
            {
                "accuracy": total_correct/ len(train_set),
                "loss": total_loss,
            },
        )

tb.close()

run id: 1
batch_size: 32 lr: 0.01 shuffle: True
epoch: 0 total_correct: 47710 loss: 1029.5563011020422
batch_size: 32 lr: 0.01 shuffle: True
epoch: 1 total_correct: 50464 loss: 810.2039105370641
batch_size: 32 lr: 0.01 shuffle: True
epoch: 2 total_correct: 50969 loss: 770.8068676441908
batch_size: 32 lr: 0.01 shuffle: True
epoch: 3 total_correct: 50887 loss: 760.232678130269
batch_size: 32 lr: 0.01 shuffle: True
epoch: 4 total_correct: 51133 loss: 755.1276897788048
__________________________________________________________
run id: 2
batch_size: 32 lr: 0.01 shuffle: False
epoch: 0 total_correct: 47869 loss: 1012.1429817378521
batch_size: 32 lr: 0.01 shuffle: False
epoch: 1 total_correct: 50685 loss: 794.2090410962701
batch_size: 32 lr: 0.01 shuffle: False
epoch: 2 total_correct: 51001 loss: 760.5343775339425
batch_size: 32 lr: 0.01 shuffle: False
epoch: 3 total_correct: 51364 loss: 730.1249665990472
batch_size: 32 lr: 0.01 shuffle: False
epoch: 4 total_correct: 51555 loss: 715.760625701

Như đã thấy ở trên, mình đã di chuyển mọi thứ theo vòng lặp for để xem xét tất cả các kết hợp khác nhau của các siêu tham số và tại mỗi lần chạy. Chúng ta phải khởi tạo lại mô hình cũng như tải lại các batches của tập dữ liệu. **comment** cho phép tạo các thư mục khác nhau ở trong folder **runs** phụ thuộc vào siêu tham số. Chúng ta pass comment vào **SummaryWriter**. Lưu ý rằng chúng ta sẽ xem tất cả các runs chạy vào so sánh tất cả các siêu tham số trong Tensorboard.

* **tb.add_scalar** giống như trước đó chỉ là chúng tôi hiển thị nó cho tất cả các lần chạy.
* **tb.add_hparams** cho phép thêm các siêu tham số bên trong là các đối số để theo dõi tiến trình đào tạo.

Cần có hai dict làm đầu vào, một cho siêu tham số và một dict khác để phân tích các chỉ số đánh giá.  Kết quả được ánh xạ trên tất cả các siêu tham số này.  Nó sẽ rõ ràng từ sơ đồ ánh xạ đồ thị ở phía dưới.

![img](./images/10.png)
![img](./images/11.png)

các vấn đề về Tensorboard trong Pytorch các bạn có thể xem thêm tại: https://pytorch.org/docs/stable/tensorboard.html