# Image classification

# Phân loại các loại hoa

In [1]:
 # Được viết trong chương 9

# Một vài mô hình CNN nổi tiếng

# VGG-16 

In [2]:
from torch import nn
import torch

# Định nghĩa lớp VGG16 với số lớp đầu ra là 10 (mặc định)
class VGG16(nn.Module):
    def __init__(self, num_classes=10):
        super(VGG16, self).__init__()

        # Khối 1: Conv2d, BatchNorm2d, ReLU
        self.layer1 = nn.Sequential(
            nn.Conv2d(3, 64, kernel_size=3, stride=1, padding=1),  # Lớp tích chập (3 đầu vào, 64 đầu ra)
            nn.BatchNorm2d(64),  # Chuẩn hóa đầu ra của Conv2d
            nn.ReLU()  # Hàm kích hoạt ReLU
        )
        
        # Khối 2: Conv2d, BatchNorm2d, ReLU, MaxPool
        self.layer2 = nn.Sequential(
            nn.Conv2d(64, 64, kernel_size=3, stride=1, padding=1),  # Conv2d tiếp tục với 64 đầu vào và đầu ra
            nn.BatchNorm2d(64),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)  # Giảm kích thước với MaxPooling
        )

        # Khối 3: Conv2d, BatchNorm2d, ReLU
        self.layer3 = nn.Sequential(
            nn.Conv2d(64, 128, kernel_size=3, stride=1, padding=1),  # Tích chập từ 64 lên 128 kênh
            nn.BatchNorm2d(128),
            nn.ReLU()
        )
        
        # Khối 4: Conv2d, BatchNorm2d, ReLU, MaxPool
        self.layer4 = nn.Sequential(
            nn.Conv2d(128, 128, kernel_size=3, stride=1, padding=1),  # Tích chập từ 128 lên 128 kênh
            nn.BatchNorm2d(128),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)  # MaxPooling để giảm kích thước
        )

        # Khối 5: Conv2d, BatchNorm2d, ReLU
        self.layer5 = nn.Sequential(
            nn.Conv2d(128, 256, kernel_size=3, stride=1, padding=1),  # Tích chập từ 128 lên 256 kênh
            nn.BatchNorm2d(256),
            nn.ReLU()
        )
        
        # Khối 6: Conv2d, BatchNorm2d, ReLU
        self.layer6 = nn.Sequential(
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),  # Tích chập từ 256 lên 256 kênh
            nn.BatchNorm2d(256),
            nn.ReLU()
        )
        
        # Khối 7: Conv2d, BatchNorm2d, ReLU, MaxPool
        self.layer7 = nn.Sequential(
            nn.Conv2d(256, 256, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(256),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)  # MaxPooling để giảm kích thước
        )

        # Khối 8: Conv2d, BatchNorm2d, ReLU
        self.layer8 = nn.Sequential(
            nn.Conv2d(256, 512, kernel_size=3, stride=1, padding=1),  # Tích chập từ 256 lên 512 kênh
            nn.BatchNorm2d(512),
            nn.ReLU()
        )
        
        # Khối 9: Conv2d, BatchNorm2d, ReLU
        self.layer9 = nn.Sequential(
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(512),
            nn.ReLU()
        )
        
        # Khối 10: Conv2d, BatchNorm2d, ReLU, MaxPool
        self.layer10 = nn.Sequential(
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(512),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)  # MaxPooling để giảm kích thước
        )

        # Khối 11: Conv2d, BatchNorm2d, ReLU
        self.layer11 = nn.Sequential(
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(512),
            nn.ReLU()
        )
        
        # Khối 12: Conv2d, BatchNorm2d, ReLU
        self.layer12 = nn.Sequential(
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(512),
            nn.ReLU()
        )
        
        # Khối 13: Conv2d, BatchNorm2d, ReLU, MaxPool
        self.layer13 = nn.Sequential(
            nn.Conv2d(512, 512, kernel_size=3, stride=1, padding=1),
            nn.BatchNorm2d(512),
            nn.ReLU(),
            nn.MaxPool2d(kernel_size=2, stride=2)  # MaxPooling để giảm kích thước
        )

        # Các lớp fully connected
        self.fc = nn.Sequential(
            nn.Dropout(0.5),  # Dropout để giảm overfitting
            nn.Linear(7*7*512, 4096),  # Tầng fully connected với 4096 đầu ra
            nn.ReLU()
        )
        self.fc1 = nn.Sequential(
            nn.Dropout(0.5),
            nn.Linear(4096, 4096),
            nn.ReLU()
        )
        self.fc2 = nn.Sequential(
            nn.Linear(4096, num_classes)  # Lớp cuối cùng cho phân loại, với số lớp đầu ra bằng `num_classes`
        )
        
    # Định nghĩa hàm forward để truyền dữ liệu qua các lớp của mạng
    def forward(self, x):
        out = self.layer1(x)
        out = self.layer2(out)
        out = self.layer3(out)
        out = self.layer4(out)
        out = self.layer5(out)
        out = self.layer6(out)
        out = self.layer7(out)
        out = self.layer8(out)
        out = self.layer9(out)
        out = self.layer10(out)
        out = self.layer11(out)
        out = self.layer12(out)
        out = self.layer13(out)
        out = out.reshape(out.size(0), -1)  # Làm phẳng tensor để đưa vào các lớp fully connected
        out = self.fc(out)
        out = self.fc1(out)
        out = self.fc2(out)
        return out  # Trả về kết quả dự đoán của mạng

# Khởi tạo mô hình VGG16 và in cấu trúc mô hình
model = VGG16()
print(model)


VGG16(
  (layer1): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU()
  )
  (layer2): Sequential(
    (0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU()
    (3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (layer3): Sequential(
    (0): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU()
  )
  (layer4): Sequential(
    (0): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU()
    (3): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=

# VGG-19

In [3]:
from torch import nn
import torch

# Định nghĩa lớp VGGNet19 với số lượng lớp đầu ra là 1000 (mặc định)
class VGGNet19(nn.Module):
    def __init__(self, num_classes=1000):
        super().__init__()
        self.__name__ = "VGGNet19"  # Đặt tên cho mô hình là VGGNet19

        # Cấu hình cho các khối convolution (tầng tích chập)
        self.conv_configs = [
            # Tầng 1 và 2: 2 lớp Conv với 3 đầu vào và 64 đầu ra
            {
                "in_channels": 3,
                "out_channels": 64,
                "num_convs": 2,
            },
            # Tầng 3 và 4: 2 lớp Conv với 64 đầu vào và 128 đầu ra
            {
                "in_channels": 64,
                "out_channels": 128,
                "num_convs": 2,
            },
            # Tầng 5, 6, 7, 8: 4 lớp Conv với 128 đầu vào và 256 đầu ra
            {
                "in_channels": 128,
                "out_channels": 256,
                "num_convs": 4,
            },
            # Tầng 9, 10, 11, 12: 4 lớp Conv với 256 đầu vào và 512 đầu ra
            {
                "in_channels": 256,
                "out_channels": 512,
                "num_convs": 4,
            },
            # Tầng 13, 14, 15, 16: 4 lớp Conv với 512 đầu vào và 512 đầu ra
            {
                "in_channels": 512,
                "out_channels": 512,
                "num_convs": 4,
            },
        ]

        # Cấu hình cho các khối fully connected (tầng kết nối đầy đủ)
        self.fc_configs = [
            # Tầng 17: với 512*7*7 đầu vào và 4096 đầu ra
            {
                "in_features": 512 * 7 * 7,
                "out_features": 4096,
            },
            # Tầng 18: với 4096 đầu vào và 4096 đầu ra
            {
                "in_features": 4096,
                "out_features": 4096,
            },
            # Tầng 19: với 4096 đầu vào và số lớp đầu ra (mặc định 1000)
            {
                "in_features": 4096,
                "out_features": 1000,
            },
        ]

        # Tạo các khối convolution và fully connected
        self.conv_blocks = self._build_conv_blocks()
        self.fc_blocks = self._build_fc_blocks()

    # Hàm xây dựng các khối convolution dựa trên cấu hình
    def _build_conv_blocks(self):
        blocks = []
        for conv_config in self.conv_configs:
            in_channels = conv_config["in_channels"]
            out_channels = conv_config["out_channels"]
            num_convs = conv_config["num_convs"]

            layers = []
            # Tạo các lớp Conv2d, BatchNorm2d và ReLU theo số lần conv
            for _ in range(num_convs):
                layers.append(
                    nn.Conv2d(
                        in_channels=in_channels,
                        out_channels=out_channels,
                        kernel_size=(3, 3),
                        stride=(1, 1),
                        padding=(1, 1),
                    )
                )
                layers.append(nn.BatchNorm2d(out_channels))  # Sử dụng BatchNorm để ổn định huấn luyện
                layers.append(nn.ReLU(inplace=True))  # Sử dụng ReLU làm hàm kích hoạt
                in_channels = out_channels  # Cập nhật số lượng kênh đầu vào cho lớp tiếp theo

            # Thêm MaxPooling để giảm kích thước ảnh (pooling sau các lớp Conv)
            layers.append(nn.MaxPool2d(kernel_size=(2, 2), stride=(2, 2)))

            blocks.extend(layers)  # Thêm các lớp vào danh sách các khối

        return nn.Sequential(*blocks)  # Chuyển danh sách thành nn.Sequential để dễ sử dụng

    # Hàm xây dựng các khối fully connected dựa trên cấu hình
    def _build_fc_blocks(self):
        blocks = []

        for i, fc_config in enumerate(self.fc_configs):
            in_features = fc_config["in_features"]
            out_features = fc_config["out_features"]

            # Nếu không phải là lớp cuối cùng, thêm ReLU và Dropout để tránh overfitting
            if i < len(self.fc_configs) - 1:
                layers = [
                    nn.Linear(in_features=in_features, out_features=out_features),
                    nn.ReLU(),
                    nn.Dropout(p=0.5),  # Dropout với xác suất 0.5 để giảm overfitting
                ]
            else:
                # Lớp cuối cùng chỉ cần lớp Linear (không cần ReLU hay Dropout)
                layers = [nn.Linear(in_features=in_features, out_features=out_features)]

            blocks.extend(layers)  # Thêm các lớp vào danh sách các khối

        return nn.Sequential(*blocks)  # Chuyển danh sách thành nn.Sequential để dễ sử dụng

    # Định nghĩa hàm forward (truyền dữ liệu đầu vào qua các lớp của mạng)
    def forward(self, x):
        x = self.conv_blocks(x)  # Truyền dữ liệu qua các khối convolution
        x = x.flatten(start_dim=1)  # Làm phẳng đầu ra trước khi đưa vào các lớp fully connected

        x = self.fc_blocks(x)  # Truyền dữ liệu qua các khối fully connected

        return x  # Trả về kết quả

# Khởi tạo mô hình VGGNet19 và in cấu trúc mô hình
model = VGGNet19()
print(model)


VGGNet19(
  (conv_blocks): Sequential(
    (0): Conv2d(3, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU(inplace=True)
    (3): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (4): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (5): ReLU(inplace=True)
    (6): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=False)
    (7): Conv2d(64, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (8): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (9): ReLU(inplace=True)
    (10): Conv2d(128, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (11): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (12): ReLU(inplace=True)
    (13): MaxPool2d(kernel_size=(2, 2), stride=(2, 2), padding=0, dilation=1, ceil_mode=Fals

# InceptionNet

In [4]:
import torch
from torch import nn
import torch.nn.functional as F

# Lớp ConvBlock: định nghĩa một khối convolution đơn giản với Batch Normalization và ReLU
class ConvBlock(nn.Module):
    def __init__(self, in_channels, out_channels, **kwargs):
        super().__init__()
        # Sử dụng convolution 2D với các tham số truyền vào
        self.conv = nn.Conv2d(in_channels, out_channels, bias=False, **kwargs)
        # Áp dụng Batch Normalization để ổn định việc huấn luyện
        self.bn = nn.BatchNorm2d(out_channels, eps=0.001)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        # Áp dụng convolution, batch normalization và hàm kích hoạt ReLU
        x = self.bn(self.conv(x))
        return F.relu(x, inplace=True)

# Lớp InceptionBlock: khối Inception chính với nhiều nhánh (branches)
class InceptionBlock(nn.Module):
    def __init__(
        self,
        in_channels,             # Số lượng channels đầu vào
        out_1x1,                 # Số lượng channels của nhánh 1x1
        outinception_3x3_reduced, # Số lượng channels giảm trước khi áp dụng 3x3
        outinception_3x3,        # Số lượng channels của nhánh 3x3
        outinception_5x5_reduced, # Số lượng channels giảm trước khi áp dụng 5x5
        outinception_5x5,        # Số lượng channels của nhánh 5x5 (thực tế là hai lớp 3x3)
        out_pool                 # Số lượng channels của nhánh MaxPooling
    ):
        super().__init__()

        # Nhánh 1: Convolution 1x1 đơn giản
        self.branch1 = ConvBlock(
            in_channels, out_1x1, kernel_size=1, stride=1
        )

        # Nhánh 2: Convolution 1x1 để giảm số channels sau đó là Convolution 3x3
        self.branch2 = nn.Sequential(
            ConvBlock(in_channels, outinception_3x3_reduced, kernel_size=1),
            ConvBlock(outinception_3x3_reduced, outinception_3x3, kernel_size=3, padding=1),
        )

        # Nhánh 3: Convolution 1x1 giảm số lượng channels rồi áp dụng hai lớp Conv 3x3
        # Điều này hiệu quả hơn so với việc sử dụng một lớp 5x5 trực tiếp.
        self.branch3 = nn.Sequential(
            ConvBlock(in_channels, outinception_5x5_reduced, kernel_size=1),
            ConvBlock(outinception_5x5_reduced, outinception_5x5, kernel_size=3, padding=1),
            ConvBlock(outinception_5x5, outinception_5x5, kernel_size=3, padding=1),
        )

        # Nhánh 4: MaxPooling để giảm kích thước không gian, sau đó là Convolution 1x1
        self.branch4 = nn.Sequential(
            nn.MaxPool2d(kernel_size=3, stride=1, padding=1),
            ConvBlock(in_channels, out_pool, kernel_size=1),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        # Áp dụng từng nhánh và kết hợp kết quả từ các nhánh bằng hàm torch.cat
        y1 = self.branch1(x)
        y2 = self.branch2(x)
        y3 = self.branch3(x)
        y4 = self.branch4(x)

        # Kết hợp đầu ra từ các nhánh bằng cách ghép lại theo chiều số lượng channels
        return torch.cat([y1, y2, y3, y4], 1)

# Lớp Inception: định nghĩa toàn bộ mô hình Inception với các khối liên tiếp
class Inception(nn.Module):
    def __init__(self, img_channel):
        super().__init__()

        # Lớp convolution đầu tiên để xử lý đầu vào
        self.first_layers = nn.Sequential(
            ConvBlock(img_channel, 192, kernel_size=3, padding=1)
        )

        # Các khối Inception nối tiếp nhau
        self.inception_3a = InceptionBlock(192, 64, 96, 128, 16, 32, 32)
        self.inception_3b = InceptionBlock(256, 128, 128, 192, 32, 96, 64)

        # Lớp MaxPooling để giảm kích thước không gian
        self.max_pool = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)

        # Tiếp tục thêm các khối Inception trong tầng 4 và 5
        self.inception_4a = InceptionBlock(480, 192, 96, 208, 16, 48, 64)
        self.inception_4b = InceptionBlock(512, 160, 112, 224, 24, 64, 64)
        self.inception_4c = InceptionBlock(512, 128, 128, 256, 24, 64, 64)
        self.inception_4d = InceptionBlock(512, 112, 144, 288, 32, 64, 64)
        self.inception_4e = InceptionBlock(528, 256, 160, 320, 32, 128, 128)

        self.inception_5a = InceptionBlock(832, 256, 160, 320, 32, 128, 128)
        self.inception_5b = InceptionBlock(832, 384, 192, 384, 48, 128, 128)

        # Lớp trung bình gộp (AvgPool) để giảm kích thước không gian về 1x1
        self.avg_pool = nn.AvgPool2d(kernel_size=8, stride=1)
        # Lớp fully connected để đưa ra kết quả phân loại
        self.fc = nn.Linear(1024, 10)

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        out: torch.Tensor
        # Áp dụng lớp convolution đầu tiên
        out = self.first_layers(x)

        # Áp dụng các khối Inception trong tầng 3
        out = self.inception_3a(out)
        out = self.inception_3b(out)
        out = self.max_pool(out)

        # Áp dụng các khối Inception trong tầng 4
        out = self.inception_4a(out)
        out = self.inception_4b(out)
        out = self.inception_4c(out)
        out = self.inception_4d(out)
        out = self.inception_4e(out)
        out = self.max_pool(out)

        # Áp dụng các khối Inception trong tầng 5
        out = self.inception_5a(out)
        out = self.inception_5b(out)

        # Áp dụng lớp trung bình gộp và đưa về dạng vector
        out = self.avg_pool(out)
        out = out.view(out.size(0), -1)

        # Trả về kết quả sau khi qua lớp fully connected
        return self.fc(out)

# Hàm main: tạo mô hình và kiểm tra kích thước đầu ra với một input mẫu
def main() -> None:
    device = 'cuda' if torch.cuda.is_available() else 'cpu'
    net = Inception(1).to(device)  # Khởi tạo mô hình Inception với 1 channel đầu vào
    x = torch.randn(3, 1, 32, 32, device=device)  # Tạo một input giả kích thước (3, 1, 32, 32)

    y: torch.Tensor = net(x)  # Tính toán đầu ra của mô hình với input x
    print(f'{y.size() = }')  # In kích thước của đầu ra

# Tạo mô hình Inception và in cấu trúc mô hình
model = Inception(1)
print(model)


Inception(
  (first_layers): Sequential(
    (0): ConvBlock(
      (conv): Conv2d(1, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True)
    )
  )
  (inception_3a): InceptionBlock(
    (branch1): ConvBlock(
      (conv): Conv2d(192, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True)
    )
    (branch2): Sequential(
      (0): ConvBlock(
        (conv): Conv2d(192, 96, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (bn): BatchNorm2d(96, eps=0.001, momentum=0.1, affine=True, track_running_stats=True)
      )
      (1): ConvBlock(
        (conv): Conv2d(96, 128, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
        (bn): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
    (branch3): Sequential(
      (0): ConvBlock(
    

# ResNet

In [5]:
from torch import nn
import torch

# Lớp Downsample: giảm kích thước không gian (spatial dimensions) của input nếu cần
class Downsample(nn.Module):
    def __init__(self, in_channels, out_channels, stride):
        super().__init__()
        # Sử dụng convolution 1x1 để giảm số lượng channels
        self.conv = nn.Conv2d(
            in_channels, out_channels, kernel_size=1, stride=stride, bias=False
        )
        # Áp dụng Batch Normalization để ổn định việc huấn luyện
        self.bn = nn.BatchNorm2d(out_channels)

    def forward(self, x):
        # Áp dụng convolution và Batch Normalization
        x = self.conv(x)
        x = self.bn(x)
        return x


# Lớp Bottleneck: khối cơ bản của ResNet-50, có cấu trúc gồm ba lớp convolution
class Bottleneck(nn.Module):
    def __init__(
        self, in_channels, hidden_channels, out_channels, stride=1, downsample=None
    ):
        super().__init__()
        # Lớp conv1: convolution 1x1 để giảm số lượng channels
        self.conv1 = nn.Conv2d(
            in_channels, hidden_channels, kernel_size=1, stride=1, bias=False
        )
        self.bn1 = nn.BatchNorm2d(hidden_channels)
        
        # Lớp conv2: convolution 3x3 để học đặc trưng không gian
        self.conv2 = nn.Conv2d(
            hidden_channels,
            hidden_channels,
            kernel_size=3,
            stride=stride,
            padding=1,
            bias=False,
        )
        self.bn2 = nn.BatchNorm2d(hidden_channels)
        
        # Lớp conv3: convolution 1x1 để tăng số lượng channels
        self.conv3 = nn.Conv2d(
            hidden_channels, out_channels, kernel_size=1, stride=1, bias=False
        )
        self.bn3 = nn.BatchNorm2d(out_channels)
        
        # Downsample nếu cần để đảm bảo kích thước khớp với đầu ra
        self.downsample = downsample
        
        # Hàm kích hoạt ReLU
        self.relu = nn.ReLU(inplace=True)

    def forward(self, x):
        identity = x  # Lưu lại giá trị input để dùng cho kết nối tắt (skip connection)

        # Áp dụng conv1, bn1
        out = self.conv1(x)
        out = self.bn1(out)

        # Áp dụng conv2, bn2
        out = self.conv2(out)
        out = self.bn2(out)

        # Áp dụng conv3, bn3
        out = self.conv3(out)
        out = self.bn3(out)

        # Sử dụng downsample nếu cần để khớp kích thước giữa input và output
        if self.downsample is not None:
            identity = self.downsample(x)

        # Cộng giá trị input (identity) với output từ các lớp convolution
        out += identity
        
        # Áp dụng hàm kích hoạt ReLU
        out = self.relu(out)

        return out


# Lớp ResNet50: định nghĩa kiến trúc tổng thể của mạng ResNet-50
class ResNet50(nn.Module):
    def __init__(self, num_classes=1000):
        super().__init__()
        self.__name__ = "ResNet50"

        # Lớp conv1: convolution 7x7 để xử lý đầu vào (input) ban đầu
        self.conv1 = nn.Conv2d(3, 64, kernel_size=7, stride=2, padding=3, bias=False)
        self.bn1 = nn.BatchNorm2d(64)
        self.relu1 = nn.ReLU(inplace=True)
        
        # Lớp maxpool1: giảm kích thước không gian của output
        self.maxpool1 = nn.MaxPool2d(kernel_size=3, stride=2, padding=1)
        
        # Định nghĩa layer1: gồm 3 Bottleneck, trong đó block đầu tiên có downsample
        self.layer1 = nn.Sequential(
            Bottleneck(
                in_channels=64,
                hidden_channels=64,
                out_channels=256,
                stride=1,
                downsample=Downsample(in_channels=64, out_channels=256, stride=1),
            ),
            Bottleneck(in_channels=256, hidden_channels=64, out_channels=256, stride=1),
            Bottleneck(in_channels=256, hidden_channels=64, out_channels=256, stride=1),
        )
        
        # Định nghĩa layer2: gồm 4 Bottleneck, trong đó block đầu tiên có downsample
        self.layer2 = nn.Sequential(
            Bottleneck(
                in_channels=256,
                hidden_channels=128,
                out_channels=512,
                stride=2,
                downsample=Downsample(in_channels=256, out_channels=512, stride=2),
            ),
            Bottleneck(
                in_channels=512, hidden_channels=128, out_channels=512, stride=1
            ),
            Bottleneck(
                in_channels=512, hidden_channels=128, out_channels=512, stride=1
            ),
            Bottleneck(
                in_channels=512, hidden_channels=128, out_channels=512, stride=1
            ),
        )
        
        # Định nghĩa layer3: gồm 6 Bottleneck, trong đó block đầu tiên có downsample
        self.layer3 = nn.Sequential(
            Bottleneck(
                in_channels=512,
                hidden_channels=256,
                out_channels=1024,
                stride=2,
                downsample=Downsample(in_channels=512, out_channels=1024, stride=2),
            ),
            Bottleneck(
                in_channels=1024, hidden_channels=256, out_channels=1024, stride=1
            ),
            Bottleneck(
                in_channels=1024, hidden_channels=256, out_channels=1024, stride=1
            ),
            Bottleneck(
                in_channels=1024, hidden_channels=256, out_channels=1024, stride=1
            ),
            Bottleneck(
                in_channels=1024, hidden_channels=256, out_channels=1024, stride=1
            ),
            Bottleneck(
                in_channels=1024, hidden_channels=256, out_channels=1024, stride=1
            ),
        )
        
        # Định nghĩa layer4: gồm 3 Bottleneck, trong đó block đầu tiên có downsample
        self.layer4 = nn.Sequential(
            Bottleneck(
                in_channels=1024,
                hidden_channels=512,
                out_channels=2048,
                stride=2,
                downsample=Downsample(in_channels=1024, out_channels=2048, stride=2),
            ),
            Bottleneck(
                in_channels=2048, hidden_channels=512, out_channels=2048, stride=1
            ),
            Bottleneck(
                in_channels=2048, hidden_channels=512, out_channels=2048, stride=1
            ),
        )
        
        # Lớp avgpool: adaptive pooling để giảm kích thước xuống 1x1
        self.avgpool = nn.AdaptiveAvgPool2d(output_size=(1, 1))
        
        # Lớp fully connected (fc) để phân loại đầu ra
        self.fc = nn.Linear(2048, num_classes)

    # Định nghĩa hàm forward: xử lý các bước tính toán trên input x
    def forward(self, x):
        # Xử lý đầu vào qua conv1, bn1, ReLU, maxpool1
        x = self.conv1(x)
        x = self.bn1(x)
        x = self.relu1(x)
        x = self.maxpool1(x)

        # Xử lý qua các layer
        x = self.layer1(x)
        x = self.layer2(x)
        x = self.layer3(x)
        x = self.layer4(x)

        # Sử dụng adaptive average pooling và flatten để chuyển về vector
        x = self.avgpool(x)
        x = x.flatten(start_dim=1)
        
        # Dùng fully connected layer để đưa ra kết quả cuối cùng
        x = self.fc(x)

        return x

# Tạo mô hình ResNet-50 và in ra cấu trúc của nó
model = ResNet50()
print(model)


ResNet50(
  (conv1): Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)
  (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  (relu1): ReLU(inplace=True)
  (maxpool1): MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)
  (layer1): Sequential(
    (0): Bottleneck(
      (conv1): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (bn2): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (conv3): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (bn3): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (downsample): Downsample(
        (conv): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (b