In [2]:
import os
import pandas as pd
import numpy as np
import sns
from PIL import Image

In [8]:
# Đường dẫn thư mục dữ liệu
data_dir = r"E:\HANDS-VNOnDB"
folders = ["InkData_word", "InkData_line", "InkData_paragraph"]

for folder in folders:
    folder_path = os.path.join(data_dir, folder)
    if os.path.exists(folder_path):
        print(f"Thư mục {folder_path} tồn tại.")
    else:
        print(f"LỖI: Thư mục {folder_path} không tồn tại!")

Thư mục E:\HANDS-VNOnDB\InkData_word tồn tại.
Thư mục E:\HANDS-VNOnDB\InkData_line tồn tại.
Thư mục E:\HANDS-VNOnDB\InkData_paragraph tồn tại.


In [11]:
# 3. Chuẩn hóa file gán nhãn

def split_id(df, id_col="id"):
    df[['document_id', 'line_id', 'word_id']] = df[id_col].str.rsplit('_', n=2, expand=True)
    return df.head()

print(split_id(pd.read_csv(os.path.join(data_dir, "InkData_word.csv"))))

                             id  label               document_id line_id  \
0  20140603_0003_BCCTC_tg_0_0_0    Bản  20140603_0003_BCCTC_tg_0       0   
1  20140603_0003_BCCTC_tg_0_0_1   chất  20140603_0003_BCCTC_tg_0       0   
2  20140603_0003_BCCTC_tg_0_0_2    của  20140603_0003_BCCTC_tg_0       0   
3  20140603_0003_BCCTC_tg_0_0_3  thành  20140603_0003_BCCTC_tg_0       0   
4  20140603_0003_BCCTC_tg_0_0_4   công  20140603_0003_BCCTC_tg_0       0   

  word_id  
0       0  
1       1  
2       2  
3       3  
4       4  


In [14]:
# 5. Lưu file gán nhãn đã chuẩn hóa
def save_normalized_labels(file_name):
    path = os.path.join(data_dir, file_name)
    df = pd.read_csv(path)
    df[['document_id', 'line_id', 'word_id']] = df['id'].str.rsplit('_', n=2, expand=True)
    save_path = os.path.join(data_dir, f"normalized_{file_name}")
    df.to_csv(save_path, index=False)
    print(f"Lưu file: {save_path}")

# Lưu cả ba file
save_normalized_labels("InkData_word.csv")
save_normalized_labels("InkData_line.csv")
save_normalized_labels("InkData_paragraph.csv")

Lưu file: E:\HANDS-VNOnDB\normalized_InkData_word.csv
Lưu file: E:\HANDS-VNOnDB\normalized_InkData_line.csv
Lưu file: E:\HANDS-VNOnDB\normalized_InkData_paragraph.csv


In [235]:
# 5. Chuyển ảnh sang grayscale, chuẩn hóa pixel và resize
def convert_to_grayscale_and_resize(image_path, target_size=(640, 640)):
    with Image.open(image_path) as img:
        # img_gray = img.convert("L")  # Chuyển sang grayscale
        img_resized = img.resize(target_size)  # Resize ảnh về kích thước (640, 640)
        img_array = np.array(img_resized) / 255.0  # Chuẩn hóa pixel về [0,1]
    return img_resized, img_array

In [240]:
from tqdm import tqdm
import os


def process_and_save_images(input_folder, output_folder, target_size=(640, 640)):
    # Tạo thư mục đầu ra nếu chưa có
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)

    # Lấy danh sách ảnh trong thư mục đầu vào
    image_files = [f for f in os.listdir(input_folder) if f.endswith(('.png', '.jpg'))]

    # Thêm thanh tiến trình với tqdm
    for img_file in tqdm(image_files, desc="Processing images", unit="image"):
        img_path = os.path.join(input_folder, img_file)

        # Chuyển ảnh sang grayscale, resize và chuẩn hóa
        processed_img, _ = convert_to_grayscale_and_resize(img_path, target_size)

        # Lưu ảnh đã xử lý vào thư mục đầu ra
        output_img_path = os.path.join(output_folder, img_file)
        processed_img.save(output_img_path)

        # # Kiểm tra chế độ ảnh
        # check_image_mode(img_path)
        # print(f"Ảnh đã được lưu tại: {output_img_path}")


# Thư mục đầu vào và đầu ra
input_folder = r"E:\HANDS-VNOnDB\InkData_word"  # Đổi thành thư mục chứa ảnh gốc
output_folder = r"E:\HANDS-VNOnDB\Processed_Images_Words"  # Đổi thành thư mục lưu ảnh đã xử lý

In [241]:
process_and_save_images(input_folder, output_folder)

Processing images:   1%|          | 646/110746 [00:15<43:18, 42.38image/s]  


KeyboardInterrupt: 

In [242]:
# 5. Chuyển ảnh sang grayscale, chuẩn hóa pixel và resize
def convert_to_grayscale_and_resize_lines(image_path, target_size=(740, 320)):
    with Image.open(image_path) as img:
        # img_gray = img.convert("L")  # Chuyển sang grayscale
        img_resized = img.resize(target_size)  # Resize ảnh về kích thước (640, 640)
        img_array = np.array(img_resized) / 255.0  # Chuẩn hóa pixel về [0,1]
    return img_resized, img_array

In [244]:
# Hàm xử lý tất cả ảnh trong thư mục và lưu vào thư mục mới
from tqdm import tqdm
def process_and_save_images_line(input_folder, output_folder, target_size=(640, 640)):
    # Tạo thư mục đầu ra nếu chưa có
    if not os.path.exists(output_folder):
        os.makedirs(output_folder)
    
    # Lấy danh sách ảnh trong thư mục đầu vào
    image_files = [f for f in os.listdir(input_folder) if f.endswith(('.png', '.jpg'))]
    
    # Dùng tqdm để theo dõi tiến trình
    for img_file in tqdm(image_files, desc="Đang xử lý ảnh", unit="ảnh"):
        img_path = os.path.join(input_folder, img_file)
        
        # Chuyển ảnh sang grayscale, resize và chuẩn hóa
        processed_img, _ = convert_to_grayscale_and_resize_lines(img_path, target_size)
        
        # Lưu ảnh đã xử lý vào thư mục đầu ra
        output_img_path = os.path.join(output_folder, img_file)
        processed_img.save(output_img_path)

In [245]:
process_and_save_images_line(r"E:\HANDS-VNOnDB\InkData_line", r"E:\HANDS-VNOnDB\Processed_Images_Lines")

Đang xử lý ảnh: 100%|██████████| 7296/7296 [04:03<00:00, 29.99ảnh/s]


In [28]:
process_and_save_images(r"E:\HANDS-VNOnDB\InkData_paragraph", r"E:\HANDS-VNOnDB\Processed_Images_Paragraphs")

Đang xử lý ảnh: 100%|██████████| 1144/1144 [00:20<00:00, 56.71ảnh/s]


In [102]:
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from PIL import Image
import numpy as np

# # Đọc các file gán nhãn
# word_labels_df = pd.read_csv(r"E:\HANDS-VNOnDB\reduced_normalized_InkData_word.csv")
# line_labels_df = pd.read_csv(r"E:\HANDS-VNOnDB\reduced_normalized_InkData_line.csv")
# paragraph_labels_df = pd.read_csv(r"E:\HANDS-VNOnDB\reduced_normalized_InkData_paragraph.csv")
# 
# # Chọn thư mục chứa ảnh đã xử lý
# word_images_folder = r"E:\HANDS-VNOnDB\reduced_Processed_Images_Words"
# line_images_folder = r"E:\HANDS-VNOnDB\reduced_Processed_Images_Lines"
# paragraph_images_folder = r"E:\HANDS-VNOnDB\reduced_Processed_Images_Paragraphs"

# # Đọc các file gán nhãn
word_labels_df = pd.read_csv(r"E:\HANDS-VNOnDB\normalized_InkData_word.csv")
line_labels_df = pd.read_csv(r"E:\HANDS-VNOnDB\normalized_InkData_line.csv")
paragraph_labels_df = pd.read_csv(r"E:\HANDS-VNOnDB\normalized_InkData_paragraph.csv")

# Chọn thư mục chứa ảnh đã xử lý
word_images_folder = r"E:\HANDS-VNOnDB\Processed_Images_Words"
line_images_folder = r"E:\HANDS-VNOnDB\Processed_Images_Lines"
paragraph_images_folder = r"E:\HANDS-VNOnDB\Processed_Images_Paragraphs"

In [103]:
# Hàm tải ảnh và gán nhãn từ các file CSV
import gc
from tqdm import tqdm
# Hàm tải ảnh và gán nhãn từ CSV nhưng không giữ tất cả ảnh trong bộ nhớ
def load_images_and_labels(image_folder, labels_df, id_column="id"):
    image_paths = []
    labels = []
    
    for _, row in tqdm(labels_df.iterrows(), total=labels_df.shape[0], desc="Đọc và xử lý ảnh"):
        img_filename = f"{row[id_column]}.png"
        img_path = os.path.join(image_folder, img_filename)
        
        if os.path.exists(img_path):  # Kiểm tra xem ảnh có tồn tại không
            img = np.array(Image.open(img_path))  # Chỉ load từng ảnh một
            
            # TODO: Xử lý ảnh ở đây (nếu cần)

            del img  # Giải phóng bộ nhớ ngay sau khi xử lý
            gc.collect()

            # Chỉ lưu đường dẫn và nhãn thay vì giữ ảnh trong RAM
            image_paths.append(img_path)
            labels.append(row[id_column])
    
    return image_paths, np.array(labels)  # Tr

In [104]:
# Tải ảnh và nhãn từ các thư mục
X_word, y_word = load_images_and_labels(word_images_folder, word_labels_df)
X_line, y_line = load_images_and_labels(line_images_folder, line_labels_df)
X_paragraph, y_paragraph = load_images_and_labels(paragraph_images_folder, paragraph_labels_df)

Đọc và xử lý ảnh:   0%|          | 279/110746 [00:50<5:34:41,  5.50it/s]


KeyboardInterrupt: 

In [42]:
# Chia tập dữ liệu thành tập huấn luyện và kiểm tra
X_line_train, X_line_test, y_line_train, y_line_test = train_test_split(X_line, y_line, test_size=0.2, random_state=42)
# Kiểm tra số lượng mẫu trong mỗi tập
print(f"Số lượng mẫu trong tập huấn luyện: {len(X_line_train)}")
print(f"Số lượng mẫu trong tập kiểm tra: {len(X_line_test)}")

Số lượng mẫu trong tập huấn luyện: 1751
Số lượng mẫu trong tập kiểm tra: 438


In [121]:
# Chia tập dữ liệu thành tập huấn luyện và kiểm tra
X_word_train, X_word_test, y_word_train, y_word_test = train_test_split(X_word, y_word, test_size=0.2, random_state=42)
# Kiểm tra số lượng mẫu trong mỗi tập
print(f"Số lượng mẫu trong tập huấn luyện: {len(X_word_train)}")
print(f"Số lượng mẫu trong tập kiểm tra: {len(X_word_test)}")

Số lượng mẫu trong tập huấn luyện: 26579
Số lượng mẫu trong tập kiểm tra: 6645


In [45]:
# Lưu tập train
train_df = pd.DataFrame({"image_path": X_line_train, "label": y_line_train})
train_df.to_csv(r"E:\HANDS-VNOnDB\train_lines.csv", index=False)

# Lưu tập test
test_df = pd.DataFrame({"image_path": X_line_test, "label": y_line_test})
test_df.to_csv(r"E:\HANDS-VNOnDB\test_lines.csv", index=False)

In [123]:
# Lưu tập train word
train_df = pd.DataFrame({"image_path": X_word_train, "label": y_word_train})
train_df.to_csv(r"E:\HANDS-VNOnDB\train_words.csv", index=False)

# Lưu tập test word
test_df = pd.DataFrame({"image_path": X_word_test, "label": y_word_test})
test_df.to_csv(r"E:\HANDS-VNOnDB\test_words.csv", index=False)

In [124]:
# B1: Tiền xử lý ảnh đầu vào (resize về 128x32, chuẩn hóa pixel, chuyển sang tensor)
from torchvision import transforms

# Áp dụng resize và chuẩn hóa pixel về [0, 1]
transform = transforms.Compose([
    transforms.Resize((128, 32)),     # Resize ảnh về (32, 128)
    transforms.ToTensor(),            # Chuyển ảnh về tensor (C, H, W) và chia pixel cho 255
])


In [39]:
#line
import torch
from torch.utils.data import Dataset
from PIL import Image
import os

class CustomDataset(Dataset):
    def __init__(self, image_paths, labels, transform=None):
        self.image_paths = image_paths
        self.labels = labels
        self.transform = transform
    
    def __len__(self):
        return len(self.image_paths)
    
    def __getitem__(self, idx):
        img_path = self.image_paths[idx]
        label = self.labels[idx]
        
        # Mở ảnh
        image = Image.open(img_path).convert('RGB')
        
        # Nếu có transform, áp dụng vào ảnh
        if self.transform:
            image = self.transform(image)
        
        return image, label


In [210]:
#lines
from torch.utils.data import DataLoader
from sklearn.preprocessing import LabelEncoder
import numpy as np

# Kết hợp nhãn train và test
all_labels_lines = np.concatenate([y_line_train, y_line_test])

# Fit LabelEncoder trên tất cả nhãn
le_line = LabelEncoder()
le_line.fit(all_labels_lines)

# Encode nhãn train và test
y_line_train_enc = le_line.transform(y_line_train)  # Chỉ dùng transform, không fit lại
y_line_test_enc  = le_line.transform(y_line_test)

# Tạo Dataset
train_dataset_line = CustomDataset(image_paths=X_line_train, labels=y_line_train_enc, transform=transform)
test_dataset_line = CustomDataset(image_paths=X_line_test, labels=y_line_test_enc, transform=transform)

# Tạo Dataloader
train_loader_line = DataLoader(train_dataset_line, batch_size=32, shuffle=True)
test_loader_line = DataLoader(test_dataset_line, batch_size=32, shuffle=False)

In [211]:
#words
from torch.utils.data import DataLoader
from sklearn.preprocessing import LabelEncoder
import numpy as np

# Kết hợp nhãn train và test
all_labels_words = np.concatenate([y_word_train, y_word_test])

# Fit LabelEncoder trên tất cả nhãn
le_word = LabelEncoder()
le_word.fit(all_labels_words)

# Encode nhãn train và test
y_word_train_enc = le_word.transform(y_word_train)  # Chỉ dùng transform, không fit lại
y_word_test_enc  = le_word.transform(y_word_test)

# Tạo Dataset
train_dataset_word = CustomDataset(image_paths=X_word_train, labels=y_word_train_enc, transform=transform)
test_dataset_word = CustomDataset(image_paths=X_word_test, labels=y_word_test_enc, transform=transform)

# Tạo Dataloader
train_loader_word = DataLoader(train_dataset_word, batch_size=32, shuffle=True)
test_loader_word = DataLoader(test_dataset_word, batch_size=32, shuffle=False)

In [212]:
print(f"Số nhãn duy nhất trong all_labels: {len(set(all_labels_lines))}")
print(f"Số nhãn duy nhất trong y_line_train: {len(set(y_line_train))}")
print(f"Số nhãn duy nhất trong y_line_test: {len(set(y_line_test))}")
print(f"Giá trị nhỏ nhất trong y_line_train_enc: {min(y_line_train_enc)}")
print(f"Giá trị lớn nhất trong y_line_train_enc: {max(y_line_train_enc)}")
print(f"Giá trị nhỏ nhất trong y_line_test_enc: {min(y_line_test_enc)}")
print(f"Giá trị lớn nhất trong y_line_test_enc: {max(y_line_test_enc)}")

Số nhãn duy nhất trong all_labels: 2189
Số nhãn duy nhất trong y_line_train: 1751
Số nhãn duy nhất trong y_line_test: 438
Giá trị nhỏ nhất trong y_line_train_enc: 0
Giá trị lớn nhất trong y_line_train_enc: 2188
Giá trị nhỏ nhất trong y_line_test_enc: 1
Giá trị lớn nhất trong y_line_test_enc: 2182


In [213]:
print(f"Số nhãn duy nhất trong all_labels: {len(set(all_labels_words))}")
print(f"Số nhãn duy nhất trong y_word_train: {len(set(y_word_train))}")
print(f"Số nhãn duy nhất trong y_word_test: {len(set(y_word_test))}")
print(f"Giá trị nhỏ nhất trong y_word_train_enc: {min(y_word_train_enc)}")
print(f"Giá trị lớn nhất trong y_word_train_enc: {max(y_word_train_enc)}")
print(f"Giá trị nhỏ nhất trong y_word_test_enc: {min(y_word_test_enc)}")
print(f"Giá trị lớn nhất trong y_word_test_enc: {max(y_word_test_enc)}")

Số nhãn duy nhất trong all_labels: 33224
Số nhãn duy nhất trong y_word_train: 26579
Số nhãn duy nhất trong y_word_test: 6645
Giá trị nhỏ nhất trong y_word_train_enc: 0
Giá trị lớn nhất trong y_word_train_enc: 33223
Giá trị nhỏ nhất trong y_word_test_enc: 2
Giá trị lớn nhất trong y_word_test_enc: 33218


In [168]:
for batch in train_loader_word:
    print(type(batch), len(batch))  # In kiểu dữ liệu và độ dài của batch
    break

<class 'list'> 2


In [177]:
import torch
import torch.nn as nn
import torch.optim as optim
from tqdm import tqdm

In [217]:
#line
import torchvision.models as models

# Tạo mô hình MobileNetV2
model = models.mobilenet_v2(pretrained=True)

# Sửa số lớp thành len(le.classes_) thay vì len(set(y_line_train))
model.classifier[1] = nn.Linear(model.classifier[1].in_features, len(le_line.classes_))

# Di chuyển mô hình sang GPU nếu có
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)



MobileNetV2(
  (features): Sequential(
    (0): Conv2dNormActivation(
      (0): Conv2d(3, 32, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (2): ReLU6(inplace=True)
    )
    (1): InvertedResidual(
      (conv): Sequential(
        (0): Conv2dNormActivation(
          (0): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=32, bias=False)
          (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (2): ReLU6(inplace=True)
        )
        (1): Conv2d(32, 16, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (2): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
    (2): InvertedResidual(
      (conv): Sequential(
        (0): Conv2dNormActivation(
          (0): Conv2d(16, 96, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (1): BatchNorm2d(96, eps=

In [232]:
#word

import torchvision.models as models

# Tạo mô hình MobileNetV2
model = models.mobilenet_v2(pretrained=True)

# Sửa số lớp thành len(le.classes_) thay vì len(set(y_line_train))
model.classifier[1] = nn.Linear(model.classifier[1].in_features, len(le_word.classes_))

# Di chuyển mô hình sang GPU nếu có
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)



MobileNetV2(
  (features): Sequential(
    (0): Conv2dNormActivation(
      (0): Conv2d(3, 32, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (2): ReLU6(inplace=True)
    )
    (1): InvertedResidual(
      (conv): Sequential(
        (0): Conv2dNormActivation(
          (0): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=32, bias=False)
          (1): BatchNorm2d(32, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
          (2): ReLU6(inplace=True)
        )
        (1): Conv2d(32, 16, kernel_size=(1, 1), stride=(1, 1), bias=False)
        (2): BatchNorm2d(16, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      )
    )
    (2): InvertedResidual(
      (conv): Sequential(
        (0): Conv2dNormActivation(
          (0): Conv2d(16, 96, kernel_size=(1, 1), stride=(1, 1), bias=False)
          (1): BatchNorm2d(96, eps=

In [218]:
#line
CHECKPOINT_PATH = r"G:\Compvision Final\pythonProject\checkpoint.pth"
START_EPOCH = 0
if os.path.exists(CHECKPOINT_PATH):
    checkpoint = torch.load(CHECKPOINT_PATH)
    model.load_state_dict(checkpoint['model_state_dict'])
    optimizer_line.load_state_dict(checkpoint['optimizer_state_dict'])
    START_EPOCH = checkpoint['epoch'] + 1
    print(f"Tiếp tục từ epoch {START_EPOCH}")
else:
    print("Bắt đầu huấn luyện từ đầu")

Tiếp tục từ epoch 30


In [233]:
#word
CHECKPOINT_PATH = r"G:\Compvision Final\pythonProject\checkpoint_word.pth"
START_EPOCH = 0
if os.path.exists(CHECKPOINT_PATH):
    checkpoint = torch.load(CHECKPOINT_PATH)
    model.load_state_dict(checkpoint['model_state_dict'])
    optimizer_word.load_state_dict(checkpoint['optimizer_state_dict'])
    START_EPOCH = checkpoint['epoch'] + 1
    print(f"Tiếp tục từ epoch {START_EPOCH}")
else:
    print("Bắt đầu huấn luyện từ đầu")

Tiếp tục từ epoch 1


In [193]:
print(f"Số lớp trong mô hình: {model.classifier[1].out_features}")

Số lớp trong mô hình: 33224


In [221]:
#line
# Loss function và optimizer
criterion_line = nn.CrossEntropyLoss()
optimizer_line = optim.Adam(model.parameters(), lr=0.001)

# Huấn luyện mô hình
num_epochs_line = 40

In [229]:
#word
# Loss function và optimizer
criterion_word = nn.CrossEntropyLoss()
optimizer_word = optim.Adam(model.parameters(), lr=0.002)

# Huấn luyện mô hình
num_epochs_word = 3

In [222]:
#line
from sklearn.metrics import confusion_matrix
from matplotlib import pyplot as plt
import seaborn as sns

for epoch in range(START_EPOCH, num_epochs_line):
    model.train()
    running_loss = 0.0
    correct_preds = 0
    total_preds = 0
    
    for images, labels in tqdm(train_loader_line, desc=f"Epoch {epoch+1}/{num_epochs_line}", ncols=100):
        images = images.to(device)
        if not torch.is_tensor(labels):
            labels = torch.tensor(labels)
        labels = labels.to(device)
        
        optimizer_line.zero_grad()
        outputs = model(images)
        loss = criterion_line(outputs, labels)
        loss.backward()
        optimizer_line.step()
        
        running_loss += loss.item()
        _, predicted = torch.max(outputs, 1)
        total_preds += labels.size(0)
        correct_preds += (predicted == labels).sum().item()
    
    avg_train_loss = running_loss / len(train_loader_line)
    train_accuracy = correct_preds / total_preds
    print(f"Epoch {epoch+1}/{num_epochs_line}, Loss: {avg_train_loss}, Accuracy: {train_accuracy}")
    
    # Đánh giá trên tập test và thu thập dự đoán
    model.eval()
    correct_preds = 0
    total_preds = 0
    all_preds = []
    all_labels = []
    
    with torch.no_grad():
        for images, labels in test_loader_line:
            images = images.to(device)
            if not torch.is_tensor(labels):
                labels = torch.tensor(labels)
            labels = labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs, 1)
            total_preds += labels.size(0)
            correct_preds += (predicted == labels).sum().item()
            
            all_preds.extend(predicted.cpu().numpy())
            all_labels.extend(labels.cpu().numpy())
    
    test_accuracy = correct_preds / total_preds
    print(f"Test Accuracy: {test_accuracy}")

    # Lưu checkpoint sau mỗi epoch
    torch.save({
        'epoch': epoch,
        'model_state_dict': model.state_dict(),
        'optimizer_state_dict': optimizer_line.state_dict(),
        'loss': avg_train_loss,
    }, CHECKPOINT_PATH)
    print(f"Đã lưu checkpoint tại epoch {epoch+1}")

# Kiểm tra xem có dữ liệu để tính confusion matrix không
if len(all_preds) == 0 or len(all_labels) == 0:
    print("Không có dự đoán hoặc nhãn nào được thu thập từ test_loader!")
else:
    # Tính confusion matrix
    cm = confusion_matrix(all_labels, all_preds)

    # Vẽ confusion matrix
    plt.figure(figsize=(10, 8))
    sns.heatmap(cm, annot=False, fmt='d', cmap='Blues')
    plt.title('Confusion Matrix')
    plt.ylabel('True Label')
    plt.xlabel('Predicted Label')
    plt.show()

Epoch 31/40: 100%|██████████████████████████████████████████████████| 55/55 [00:15<00:00,  3.47it/s]


Epoch 31/40, Loss: 5.092802325162021, Accuracy: 0.012564249000571102
Test Accuracy: 0.0
Đã lưu checkpoint tại epoch 31


Epoch 32/40:  38%|███████████████████                               | 21/55 [00:06<00:10,  3.21it/s]


KeyboardInterrupt: 

In [234]:
#word
from sklearn.metrics import confusion_matrix
from matplotlib import pyplot as plt
import seaborn as sns

for epoch in range(START_EPOCH, num_epochs_word):
    model.train()
    running_loss = 0.0
    correct_preds = 0
    total_preds = 0
    
    for images, labels in tqdm(train_loader_word, desc=f"Epoch {epoch+1}/{num_epochs_word}", ncols=100):
        images = images.to(device)
        if not torch.is_tensor(labels):
            labels = torch.tensor(labels)
        labels = labels.to(device)
        
        optimizer_word.zero_grad()
        outputs = model(images)
        loss = criterion_word(outputs, labels)
        loss.backward()
        optimizer_word.step()
        
        running_loss += loss.item()
        _, predicted = torch.max(outputs, 1)
        total_preds += labels.size(0)
        correct_preds += (predicted == labels).sum().item()
    
    avg_train_loss = running_loss / len(train_loader_word)
    train_accuracy = correct_preds / total_preds
    print(f"Epoch {epoch+1}/{num_epochs_word}, Loss: {avg_train_loss}, Accuracy: {train_accuracy}")
    
    # Đánh giá trên tập test và thu thập dự đoán
    model.eval()
    correct_preds = 0
    total_preds = 0
    all_preds = []
    all_labels = []
    
    with torch.no_grad():
        for images, labels in test_loader_word:
            images = images.to(device)
            if not torch.is_tensor(labels):
                labels = torch.tensor(labels)
            labels = labels.to(device)
            outputs = model(images)
            _, predicted = torch.max(outputs, 1)
            total_preds += labels.size(0)
            correct_preds += (predicted == labels).sum().item()
            
            all_preds.extend(predicted.cpu().numpy())
            all_labels.extend(labels.cpu().numpy())
    
    test_accuracy = correct_preds / total_preds
    print(f"Test Accuracy: {test_accuracy}")

    # Lưu checkpoint sau mỗi epoch
    torch.save({
        'epoch': epoch,
        'model_state_dict': model.state_dict(),
        'optimizer_state_dict': optimizer_word.state_dict(),
        'loss': avg_train_loss,
    }, CHECKPOINT_PATH)
    print(f"Đã lưu checkpoint tại epoch {epoch+1}")

# Kiểm tra xem có dữ liệu để tính confusion matrix không
if len(all_preds) == 0 or len(all_labels) == 0:
    print("Không có dự đoán hoặc nhãn nào được thu thập từ test_loader!")
else:
    # Tính confusion matrix
    cm = confusion_matrix(all_labels, all_preds)

    # Vẽ confusion matrix
    plt.figure(figsize=(10, 8))
    sns.heatmap(cm, annot=False, fmt='d', cmap='Blues')
    plt.title('Confusion Matrix')
    plt.ylabel('True Label')
    plt.xlabel('Predicted Label')
    plt.show()

Epoch 2/3: 100%|██████████████████████████████████████████████████| 831/831 [06:35<00:00,  2.10it/s]


Epoch 2/3, Loss: 10.386296855270073, Accuracy: 3.76236878738854e-05
Test Accuracy: 0.0
Đã lưu checkpoint tại epoch 2


Epoch 3/3:  22%|██████████▊                                       | 179/831 [01:05<03:59,  2.72it/s]


KeyboardInterrupt: 