## 1. Tải Dữ Liệu từ CSV

In [1]:
!pip install datasets



In [2]:

from transformers import AutoTokenizer, TrainingArguments, Trainer, AutoModel
import numpy as np
import torch
from datasets import load_dataset
import torch.nn as nn
import os
from typing import List
from tqdm import tqdm


# os.environ["CUDA_VISIBLE_DEVICES"] = "1" ## Setup CUDA GPU 1



In [3]:
import torch

# Kiểm tra GPU khả dụng
print("CUDA available:", torch.cuda.is_available())
print("Number of GPUs:", torch.cuda.device_count())
if torch.cuda.is_available():
    for i in range(torch.cuda.device_count()):
        print(f"GPU {i}: {torch.cuda.get_device_name(i)}")
else:
    print("No GPU found.")


CUDA available: True
Number of GPUs: 1
GPU 0: Tesla T4


In [4]:
import os
import torch

def select_gpu():
    """
    Kiểm tra GPU khả dụng và tự động chọn GPU phù hợp.
    """
    if torch.cuda.is_available():
        num_gpus = torch.cuda.device_count()
        print(f"Number of GPUs available: {num_gpus}")

        # Duyệt qua các GPU khả dụng để tìm GPU ít sử dụng nhất
        available_gpus = [torch.cuda.get_device_name(i) for i in range(num_gpus)]
        print("Available GPUs:", available_gpus)

        for i in range(num_gpus):
            try:
                # Đặt GPU
                os.environ["CUDA_VISIBLE_DEVICES"] = str(i)
                device = torch.device(f"cuda:{i}")
                torch.cuda.set_device(device)
                print(f"Using GPU: {torch.cuda.get_device_name(device.index)}")
                return device
            except Exception as e:
                print(f"GPU {i} is not suitable: {e}")

        print("No suitable GPU found. Falling back to CPU.")
        return torch.device("cpu")
    else:
        print("No GPUs available. Using CPU.")
        return torch.device("cpu")

# Tự động chọn GPU hoặc CPU
device = select_gpu()

# Kiểm tra lại thiết bị đang sử dụng
print(f"Final selected device: {device}")


Number of GPUs available: 1
Available GPUs: ['Tesla T4']
Using GPU: Tesla T4
Final selected device: cuda:0


In [5]:

class BERTIntentClassification(nn.Module):


    def __init__(self, model_name="bert-base-uncased", num_classes=10, dropout_rate=0.1, cache_dir = "huggingface"):
        super(BERTIntentClassification, self).__init__()
        self.bert = AutoModel.from_pretrained(model_name, cache_dir = cache_dir)
        # Get BERT hidden size
        hidden_size = self.bert.config.hidden_size
        self.ffnn = nn.Sequential(
            nn.Linear(hidden_size, hidden_size),
            nn.LayerNorm(hidden_size),
            nn.ReLU(),
            nn.Dropout(dropout_rate),
            nn.Linear(hidden_size, num_classes)
        )


    def freeze_bert(self):
        for param in self.bert.parameters():
            param.requires_grad = False


    def get_pooling(self, hidden_state, attention_mask):
        """
        Get mean pooled representation from BERT hidden states
        Args:
            hidden_state: BERT output containing hidden states
        Returns:
            pooled_output: Mean pooled representation of the sequence
        """
        # Get last hidden state
        last_hidden_state = hidden_state.last_hidden_state  # Shape: [batch_size, seq_len, hidden_size]

        if attention_mask is not None:
            # Expand attention mask to match hidden state dimensions
            attention_mask = attention_mask.unsqueeze(-1)  # [batch_size, seq_len, 1]

            # Mask out padding tokens
            masked_hidden = last_hidden_state * attention_mask

            # Calculate mean (sum / number of actual tokens)
            sum_hidden = torch.sum(masked_hidden, dim=1)  # [batch_size, hidden_size]
            count_tokens = torch.sum(attention_mask, dim=1)  # [batch_size, 1]
            pooled_output = sum_hidden / count_tokens
        else:
            # If no attention mask, simply take mean of all tokens
            pooled_output = torch.mean(last_hidden_state, dim=1)

        return pooled_output


    def forward(self, input_ids, attention_mask, **kwargs):
        """
        Forward pass of the model
        Args:
            input_ids: Input token IDs
            attention_mask: Attention mask for padding
        Returns:
            logits: Raw logits for each class
        """
        # Get BERT hidden states
        hidden_state = self.bert(
            input_ids=input_ids,
            attention_mask=attention_mask,
        )

        # Get pooled representation
        hidden_state_pooling = self.get_pooling(hidden_state=hidden_state, attention_mask=attention_mask)

        # Pass through FFNN classifier
        logits = self.ffnn(hidden_state_pooling)

        return logits


In [6]:
class TrainerCustom(Trainer):

    def compute_loss(self, model, inputs, return_outputs=False, **kwargs):
        """
        How the loss is computed by Trainer. By default, all models return the loss in the first element.

        Subclass and override for custom behavior.
        """
        if "labels" in inputs:
            labels = inputs.pop("labels")
        else:
            labels = None

        # Sử dụng nn.CrossEntropyLoss() thay vì nn.CrossEntropy
        cross_entropy_loss = nn.CrossEntropyLoss()

        # Chạy mô hình và nhận đầu ra (logits)
        outputs = model(**inputs)

        # Đảm bảo lấy logits từ outputs (mô hình trả về tuple, lấy phần tử đầu tiên là logits)
        logits = outputs

        # Tính toán loss
        loss = cross_entropy_loss(logits, labels)

        # Trả về loss và outputs nếu cần
        return (loss, outputs) if return_outputs else loss


# 1. Load Dataset and with Dataloader


**Cách kết hợp question và answer:**

1. **Ghép nối trực tiếp:** Bạn có thể kết hợp câu hỏi và câu trả lời thành một chuỗi duy nhất, sử dụng một ký tự đặc biệt hoặc dấu phân cách để tách biệt chúng. Ví dụ:

   ```python
   combined_text = question + " [SEP] " + answer
   ```

   Trong đó, `[SEP]` là một token đặc biệt thường được sử dụng trong các mô hình như BERT để phân tách các đoạn văn bản khác nhau.

2. **Sử dụng token đặc biệt:** Một số mô hình hỗ trợ các token đặc biệt để đánh dấu bắt đầu và kết thúc của câu hỏi và câu trả lời. Ví dụ:

   ```python
   combined_text = "[CLS] " + question + " [SEP] " + answer + " [SEP]"
   ```

   - `[CLS]`: Token đánh dấu bắt đầu chuỗi (thường dùng trong BERT).
   - `[SEP]`: Token phân tách giữa các phần của chuỗi.



Ví dụ thực tế về chuỗi chuẩn:

Một câu/đoạn duy nhất:
```
[CLS] This is the first sentence. [SEP]
```
Hai câu/đoạn (ví dụ: câu hỏi và trả lời):
```
[CLS] What is your name? [SEP] My name is John. [SEP]
```
Nhiều câu/đoạn (3 đoạn):
```
[CLS] Question 1 [SEP] Answer 1 [SEP] Extra information [SEP]
```

```
                          input_ids  intent
0  [CLS] Cậu có muốn tiếp tục không? [SEP]  silence
1                          [CLS] [SEP]  silence

```

In [21]:
import pandas as pd
from datasets import Dataset

def combine_with_special_tokens(row, text_columns, cls_token="[CLS]", sep_token="[SEP]"):
    """
    Thêm các token đặc biệt vào chuỗi kết hợp từ các cột văn bản.

    Args:
        row (pd.Series): Dòng dữ liệu từ DataFrame.
        text_columns (list): Danh sách các cột văn bản cần kết hợp.
        cls_token (str): Token bắt đầu câu.
        sep_token (str): Token phân cách.

    Returns:
        str: Chuỗi văn bản đã thêm token đặc biệt.
    """
    tokens = [cls_token]  # Thêm [CLS] đầu tiên

    # Thêm nội dung từ các cột văn bản
    for col in text_columns:
        if pd.notna(row[col]) and row[col].strip():  # Kiểm tra không rỗng
            tokens.append(row[col].strip())
            tokens.append(sep_token)  # Thêm [SEP] sau mỗi đoạn

    # Nếu không có nội dung nào được thêm, chỉ giữ lại [CLS] và [SEP]
    if len(tokens) == 1:
        tokens.append(sep_token)

    return " ".join(tokens)

def load_xlsx_dataset(xlsx_path, text_columns, label_column, cls_token="[CLS]", sep_token="[SEP]"):
    """
    Tải dataset từ file Excel (.xlsx) và xử lý dữ liệu.

    Args:
        xlsx_path (str): Đường dẫn đến file .xlsx.
        text_columns (list): Danh sách các cột cần ghép để tạo văn bản đầu vào.
        label_column (str): Tên cột chứa nhãn.
        cls_token (str): Token bắt đầu câu.
        sep_token (str): Token phân cách.

    Returns:
        Dataset: Tập dữ liệu đã xử lý.
    """
    # Đọc file Excel bằng pandas
    df = pd.read_excel(xlsx_path)

    # Kiểm tra các cột cần thiết
    for col in text_columns + [label_column]:
        if col not in df.columns:
            raise ValueError(f"Missing required column: {col}")

    # Ghép các cột text lại thành một chuỗi duy nhất với token đặc biệt
    df["input_ids"] = df.apply(lambda row: combine_with_special_tokens(row, text_columns, cls_token, sep_token), axis=1)

    # Đổi tên cột nhãn
    df = df.rename(columns={label_column: "label"})

    # Chuyển đổi DataFrame thành Dataset
    dataset = Dataset.from_pandas(df[["input_ids", "label"]])

    return dataset

# Sử dụng hàm
xlsx_path = "/content/processed_data_example_v4_15000Data.xlsx"  # Đường dẫn file Excel
text_columns = ["robot", "user_answer"]  # Các cột cần ghép
label_column = "user_intent"  # Cột chứa nhãn

# Tải dataset từ Excel
dataset = load_xlsx_dataset(xlsx_path, text_columns, label_column)

# Kiểm tra dữ liệu
print(dataset)

# Lấy 10 mẫu đầu tiên
sample_dataset = dataset.select(range(20))
print(sample_dataset)

# In thử một hàng
print("First row in dataset:")
print(sample_dataset[0])
print(sample_dataset[11])


Dataset({
    features: ['input_ids', 'label'],
    num_rows: 15694
})
Dataset({
    features: ['input_ids', 'label'],
    num_rows: 20
})
First row in dataset:
{'input_ids': '[CLS] Được rồi, bây giờ chúng ta sẽ chơi một trò chơi! Hãy kể tên nhiều từ thuộc cùng 1 chủ đề nhé. Chủ đề lần này là hành động bắt đầu bằng từ "eat food". Tớ ví dụ nhé, "eat pizza", đến lượt cậu nhé [SEP] Tớ ăn cơm. [SEP]', 'label': 'intent_positive'}
{'input_ids': '[CLS] Cậu có muốn chơi tiếp không? [SEP]', 'label': 'silence'}


In [22]:
def check_invalid_samples(dataset):
    invalid_samples = []
    for idx, sample in enumerate(dataset):
        if not isinstance(sample["input_ids"], str) or sample["input_ids"].strip() == "":
            invalid_samples.append((idx, sample))
    return invalid_samples

# Kiểm tra dữ liệu không hợp lệ
invalid_samples = check_invalid_samples(dataset)
print("\n===== Invalid Samples =====")
print(invalid_samples)



===== Invalid Samples =====
[]


In [23]:
# Tự động phát hiện nhãn và tạo ánh xạ nhãn
def create_label_mapping(dataset_list):
    """
    Tự động phát hiện tất cả các nhãn từ danh sách dataset và ánh xạ chúng thành số nguyên.
    """
    all_labels = set()
    for dataset in dataset_list:
        all_labels.update(dataset["label"])  # Tập hợp tất cả các nhãn từ dataset

    label_to_int = {label: idx for idx, label in enumerate(sorted(all_labels))}
    print(f"Ánh xạ nhãn: {label_to_int}")
    return label_to_int

# Hàm chuyển đổi nhãn
def preprocess_labels(example, label_to_int):
    example["label"] = label_to_int.get(example["label"], -1)  # Gán -1 cho nhãn không hợp lệ
    return example

# Tạo ánh xạ nhãn
label_mapping = create_label_mapping([dataset])

# Áp dụng chuyển đổi nhãn
dataset = dataset.map(lambda example: preprocess_labels(example, label_mapping))

# Kiểm tra kết quả
print(dataset)

# Truy cập mẫu cụ thể
sample_dataset = dataset.select(range(10))  # Lấy 10 mẫu đầu tiên
print(sample_dataset)

# In thử 1 hàng trong sample_dataset
print("First row in sample_dataset:")
print(sample_dataset[1])

Ánh xạ nhãn: {'intent_fallback': 0, 'intent_learn_more': 1, 'intent_negative': 2, 'intent_neutral': 3, 'intent_positive': 4, 'silence': 5}


Map:   0%|          | 0/15694 [00:00<?, ? examples/s]

Dataset({
    features: ['input_ids', 'label'],
    num_rows: 15694
})
Dataset({
    features: ['input_ids', 'label'],
    num_rows: 10
})
First row in sample_dataset:
{'input_ids': '[CLS] Tốt lắm! Cậu có thể kể thêm từ nào khác không? [SEP] Tớ ăn bánh mì. [SEP]', 'label': 4}


In [10]:
# def split_dataset(dataset, test_size=0.2, seed=42):
#     """
#     Chia dataset thành tập train và test.

#     Args:
#         dataset (Dataset): Tập dữ liệu đầy đủ.
#         test_size (float): Tỷ lệ dữ liệu test (0.0 - 1.0).
#         seed (int): Seed để chia dữ liệu ngẫu nhiên.

#     Returns:
#         tuple: (train_dataset, test_dataset) - Tập train và test.
#     """
#     if not (0.0 < test_size < 1.0):
#         raise ValueError("test_size phải nằm trong khoảng (0.0, 1.0)")
#     if len(dataset) < 2:
#         raise ValueError("Dataset phải có ít nhất 2 mẫu để chia.")

#     train_test_split = dataset.train_test_split(test_size=test_size, seed=seed)
#     print(f"Chia dataset: {len(train_test_split['train'])} mẫu train, {len(train_test_split['test'])} mẫu test")
#     return train_test_split["train"], train_test_split["test"]

# # Chia dataset
# train_dataset, test_dataset = split_dataset(dataset, test_size=0.3)

# # Kiểm tra dữ liệu
# print("Train dataset:", train_dataset)
# print("Test dataset:", test_dataset)

# # Truy cập mẫu cụ thể
# sample_train_dataset = train_dataset.select(range(8))  # Lấy 10 mẫu đầu tiên từ train
# sample_test_dataset = test_dataset.select(range(5))    # Lấy 10 mẫu đầu tiên từ test

# print("Sample train dataset:", sample_train_dataset)
# print("Sample test dataset:", sample_test_dataset)

In [27]:
def split_dataset(dataset, test_size=0.2, valid_size=0.2, seed=42):
    """
    Chia dataset thành tập train, valid, và test.

    Args:
        dataset (Dataset): Tập dữ liệu đầy đủ.
        test_size (float): Tỷ lệ dữ liệu test (0.0 - 1.0).
        valid_size (float): Tỷ lệ dữ liệu valid so với tập train ban đầu (0.0 - 1.0).
        seed (int): Seed để chia dữ liệu ngẫu nhiên.

    Returns:
        tuple: (train_dataset, valid_dataset, test_dataset) - Tập train, valid, và test.
    """
    if not (0.0 < test_size < 1.0):
        raise ValueError("test_size phải nằm trong khoảng (0.0, 1.0)")
    if not (0.0 < valid_size < 1.0):
        raise ValueError("valid_size phải nằm trong khoảng (0.0, 1.0)")
    if len(dataset) < 3:
        raise ValueError("Dataset phải có ít nhất 3 mẫu để chia.")

    # Chia tập train và test
    train_test_split = dataset.train_test_split(test_size=test_size, seed=seed, shuffle=False)
    train_dataset = train_test_split["train"]
    test_dataset = train_test_split["test"]

    # Chia tập train thành train và valid
    valid_split = train_dataset.train_test_split(test_size=valid_size, seed=seed)
    train_dataset = valid_split["train"]
    valid_dataset = valid_split["test"]

    print(f"Chia dataset: {len(train_dataset)} mẫu train, {len(valid_dataset)} mẫu valid, {len(test_dataset)} mẫu test")
    return train_dataset, valid_dataset, test_dataset


# Chia dataset
train_dataset, valid_dataset, test_dataset = split_dataset(dataset, test_size=0.2, valid_size=0.2)

# Kiểm tra dữ liệu
print("Train dataset:", train_dataset)
print("Valid dataset:", valid_dataset)
print("Test dataset:", test_dataset)

# Truy cập mẫu cụ thể
sample_train_dataset = train_dataset.select(range(8))  # Lấy 8 mẫu đầu tiên từ train
sample_valid_dataset = valid_dataset.select(range(5))  # Lấy 5 mẫu đầu tiên từ valid
sample_test_dataset = test_dataset.select(range(5))    # Lấy 5 mẫu đầu tiên từ test

print("Sample train dataset:", sample_train_dataset)
print("Sample valid dataset:", sample_valid_dataset)
print("Sample test dataset:", sample_test_dataset)


Chia dataset: 10044 mẫu train, 2511 mẫu valid, 3139 mẫu test
Train dataset: Dataset({
    features: ['input_ids', 'label'],
    num_rows: 10044
})
Valid dataset: Dataset({
    features: ['input_ids', 'label'],
    num_rows: 2511
})
Test dataset: Dataset({
    features: ['input_ids', 'label'],
    num_rows: 3139
})
Sample train dataset: Dataset({
    features: ['input_ids', 'label'],
    num_rows: 8
})
Sample valid dataset: Dataset({
    features: ['input_ids', 'label'],
    num_rows: 5
})
Sample test dataset: Dataset({
    features: ['input_ids', 'label'],
    num_rows: 5
})


In [28]:
for i in range(5):
    print(sample_test_dataset[i])

{'input_ids': "[CLS] Cậu có muốn học thêm về các cụm từ khác không? Maybe something like 'Run fast'? [SEP] Không, tớ không muốn học thêm đâu. [SEP]", 'label': 2}
{'input_ids': "[CLS] Cậu có hiểu cách sử dụng 'Jump now' không? Do you feel confident using it? [SEP] Tớ không biết, có thể tớ cần thêm thời gian. [SEP]", 'label': 3}
{'input_ids': "[CLS] Cậu có thể nói lại câu 'Jump now' không? Can you repeat it? [SEP] Tớ không chắc lắm, nhưng tớ sẽ thử. [SEP]", 'label': 3}
{'input_ids': "[CLS] Cậu có muốn tìm hiểu thêm về các động từ hành động không? Like 'jump'? [SEP] Có, tớ muốn biết thêm về các động từ khác. [SEP]", 'label': 1}
{'input_ids': "[CLS] Cậu có muốn học cách kết hợp 'Jump now' với các câu khác không? For example, 'Jump now and have fun!' [SEP] Ừ, tớ muốn học thêm về cách kết hợp. [SEP]", 'label': 1}


# 2. Tokenizer

In [29]:
# Calculate the number of unique labels
print(label_mapping)
number_label = len(label_mapping)
print("Number of unique labels:", number_label)

{'intent_fallback': 0, 'intent_learn_more': 1, 'intent_negative': 2, 'intent_neutral': 3, 'intent_positive': 4, 'silence': 5}
Number of unique labels: 6


In [30]:
# Bước 2: Chuẩn bị tokenizer và token hóa dữ liệu
model_name = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(model_name, cache_dir = "huggingface")
model = BERTIntentClassification(
    model_name=model_name,
    num_classes=6
)
model.freeze_bert() # Froze Layer BERT
max_seq_length = 512


def collate_fn(features):
    inputs = []
    labels = []
    for element in features:
        inputs.append(element.get("input_ids"))
        labels.append(element.get("label"))

    labels = torch.tensor(labels, dtype=torch.long)

    token_inputs = tokenizer(
        inputs,
        add_special_tokens=True,
        truncation=True,
        padding=True,
        max_length=max_seq_length,
        return_overflowing_tokens=False,
        return_length=False,
        return_tensors="pt",
    )
    token_inputs.update({
        "labels": labels,
    })
    return token_inputs


# 3. Train Model

## 3.1 Log Wandb

In [31]:
!pip install --upgrade wandb



In [32]:
!pip install python-dotenv



In [33]:
from dotenv import load_dotenv
import os

# Load biến môi trường từ file .env
load_dotenv()

# Lấy key từ biến môi trường
wandb_api_key = os.getenv("WANDB_API_KEY")
print(wandb_api_key[:5])

c8767


In [34]:
import wandb
import os

# Lấy API key từ biến môi trường và đăng nhập
wandb.login(key=os.getenv("WANDB_API_KEY"))




True

Cách thiết lập thông qua TrainingArguments
Khi sử dụng Trainer, bạn có thể đặt tên dự án trực tiếp trong TrainingArguments bằng cách sử dụng tham số report_to và run_name. Tuy nhiên, để đặt project, bạn cần khởi tạo một phiên wandb trước hoặc truyền cấu hình này thông qua wandb.init().

Điều chỉnh TrainingArguments:
```python
training_args = TrainingArguments(
    output_dir="./results_",          # Thư mục lưu kết quả
    eval_strategy="epoch",           # Đánh giá sau mỗi epoch
    learning_rate=2e-4,
    per_device_train_batch_size=128,
    per_device_eval_batch_size=128,
    num_train_epochs=5,
    weight_decay=0.01,
    logging_dir="./logs",            # Thư mục lưu log
    logging_strategy="steps",        # Log theo steps
    logging_steps=10,                # Log sau mỗi 10 bước
    save_strategy="epoch",           # Lưu checkpoint sau mỗi epoch
    save_total_limit=3,              # Lưu tối đa 3 checkpoint
    report_to="wandb",               # Báo cáo log tới wandb
    run_name="bert_run_1"            # Tên phiên chạy trên wandb
)
```

## 3.2 Train

### Ver 1.2.3

Thui, ko lưu local nữa, lưu tất trên wandb đi.
- Với best model: lưu lên wandb khi loss giảm và đã sau 10 epochs  
(Lưu Best Model ngay khi eval_loss giảm ở local, sau 10 epochs thì đồng bộ cái best lên wandb, sau đó xoá các file best ở local).
Chỉ đồng bộ lên WandB mỗi 10 epochs.)
- Với last model: lưu lên wandb sau mỗi 10 epochs. (lưu local trước -> đồng bộ lên wandb sẽ xoá file local)
+, Trong quá trình lưu thì việc training vẫn diễn ra Parallel

đều lưu đầy đủ toàn bộ tham số để có thể train thêm từ cả ở best model và last model

In [None]:
from concurrent.futures import ThreadPoolExecutor
import wandb
import os
import shutil
import time

class TrainerCustom(Trainer):
    def __init__(self, *args, save_every_n_epochs=10, **kwargs):
        super().__init__(*args, **kwargs)
        if torch.cuda.is_available():
            print(f"Trainer is running on GPU: {torch.cuda.get_device_name(torch.cuda.current_device())}")
        else:
            print("Trainer is running on CPU.")

        self.best_eval_loss = float("inf")  # Giá trị loss tốt nhất ban đầu
        self.save_every_n_epochs = save_every_n_epochs  # Tần suất lưu lên WandB
        self.best_model_info = {"epoch": None, "loss": None}
        self.last_saved_epoch = 0  # Epoch cuối cùng đã lưu Best Model và Last Model
        self.executor = ThreadPoolExecutor(max_workers=3)  # Cho phép tối đa 2 luồng song song

    def compute_loss(self, model, inputs, return_outputs=False, **kwargs):
        """
        How the loss is computed by Trainer. By default, all models return the loss in the first element.

        Subclass and override for custom behavior.
        """

        # # Kiểm tra thiết bị của mô hình và dữ liệu
        # print("Model device:", next(model.parameters()).device)
        # print("Input device:", inputs["input_ids"].device)
        if "labels" in inputs:
            labels = inputs.pop("labels")
        else:
            labels = None

        # Sử dụng nn.CrossEntropyLoss() thay vì nn.CrossEntropy
        cross_entropy_loss = nn.CrossEntropyLoss()

        # Chạy mô hình và nhận đầu ra (logits)
        outputs = model(**inputs)

        # Đảm bảo lấy logits từ outputs (mô hình trả về tuple, lấy phần tử đầu tiên là logits)
        logits = outputs

        if labels is None:
            print("Labels are None during compute_loss.")
        if logits is None:
            print("Logits are None during compute_loss.")

        # Tính toán loss
        loss = cross_entropy_loss(logits, labels)

        # Trả về loss và outputs nếu cần
        return (loss, outputs) if return_outputs else loss

    def async_save_model(self, model_dir, artifact_name, metadata=None):
        """
        Lưu mô hình vào local và đồng bộ lên WandB trong luồng song song.
        """
        def save():
            start_time = time.time()
            try:
                # Xóa tất cả các thư mục tmp_best_model_ trước đó
                for folder in os.listdir("."):
                    if folder.startswith("tmp_best_model_epoch_") and folder != model_dir:
                        shutil.rmtree(folder, ignore_errors=True)
                        print(f"Removed old temporary directory: {folder}")

                # Lưu mô hình vào thư mục tạm
                self.save_model(model_dir)

                # Đồng bộ lên WandB
                artifact = wandb.Artifact(artifact_name, type="model")
                artifact.add_dir(model_dir)
                if metadata:
                    artifact.metadata = metadata
                wandb.log_artifact(artifact)
            except Exception as e:
                print(f"Error during saving or syncing model {artifact_name}: {e}")
            finally:
                # Xóa thư mục tạm hiện tại sau khi đồng bộ
                try:
                    shutil.rmtree(model_dir, ignore_errors=True)
                    print(f"Successfully removed temporary directory: {model_dir}")
                except Exception as e:
                    print(f"Error removing temporary directory {model_dir}: {e}")

            elapsed_time = time.time() - start_time
            print(f"Model saved and uploaded to WandB: {artifact_name} in {elapsed_time:.2f} seconds")

        self.executor.submit(save)




    def evaluate(self, eval_dataset=None, ignore_keys=None, metric_key_prefix: str = "eval"):
        metrics = super().evaluate(eval_dataset, ignore_keys, metric_key_prefix)
        eval_loss = metrics.get("eval_loss")

        # Cập nhật Best Model nếu eval_loss giảm
        # Lưu Best Model ngay khi eval_loss giảm (local).
        # Đồng bộ wandb ngay

        if eval_loss is not None and eval_loss < self.best_eval_loss:
            print(f"New best eval_loss: {eval_loss}")
            self.best_eval_loss = eval_loss
            self.best_model_info = {"epoch": self.state.epoch, "loss": eval_loss}

            # Log thông tin Best Model lên WandB
            wandb.log({
                "best_eval_loss": self.best_eval_loss,
                "best_model_epoch": self.best_model_info.get("epoch", -1)
            })

            # Lưu Best Model vào thư mục tạm (local)
            best_model_dir = f"./tmp_best_model_epoch_{int(self.state.epoch)}"
            self.save_model(best_model_dir)

            # Đồng bộ lên WandB ngay
            artifact_name = f"best_model_epoch_{int(self.state.epoch)}"
            self.async_save_model(best_model_dir, artifact_name, self.best_model_info)

        return metrics

    # def save_last_model(self):
    #     """
    #     Lưu Last Model lên WandB sau mỗi N epochs.
    #     """
    #     if int(self.state.epoch) % self.save_every_n_epochs == 0 and int(self.state.epoch) != self.last_saved_epoch:
    #         print(f"Saving Last Model at epoch {self.state.epoch} to WandB...")
    #         last_model_dir = f"./tmp_last_model_epoch_{int(self.state.epoch)}"
    #         artifact_name = f"last_model_epoch_{int(self.state.epoch)}"
    #         self.async_save_model(last_model_dir, artifact_name)

    #         # Log thông tin Last Model lên WandB
    #         wandb.log({
    #             "last_model_epoch": self.state.epoch
    #         })

    #         # Cập nhật epoch cuối cùng đã lưu
    #         self.last_saved_epoch = int(self.state.epoch)

    def save_last_model(self):
        """
        Lưu Last Model (bao gồm trạng thái optimizer, scheduler) lên WandB sau mỗi N epochs.
        """
        if int(self.state.epoch) % self.save_every_n_epochs == 0 and int(self.state.epoch) != self.last_saved_epoch:
            print(f"Saving Last Model at epoch {self.state.epoch} to WandB...")

            # Thư mục tạm lưu checkpoint
            last_model_dir = f"./tmp_last_model_epoch_{int(self.state.epoch)}"
            os.makedirs(last_model_dir, exist_ok=True)

            # Lưu đầy đủ trạng thái mô hình (checkpoint)
            self.save_model(last_model_dir)

            # Đường dẫn tệp trainer_state.json
            trainer_state_path = os.path.join(last_model_dir, "trainer_state.json")
            self.state.save_to_json(trainer_state_path)  # Lưu trạng thái trainer

            # Đồng bộ checkpoint lên WandB
            artifact_name = f"last_model_epoch_{int(self.state.epoch)}"
            metadata = {
                "epoch": int(self.state.epoch),
                "last_eval_loss": self.state.best_metric if hasattr(self.state, "best_metric") else "N/A",
            }
            self.async_save_model(last_model_dir, artifact_name, metadata)

            # Cập nhật epoch cuối cùng đã lưu
            self.last_saved_epoch = int(self.state.epoch)


    def train(self, *args, **kwargs):
        result = super().train(*args, **kwargs)

        # Sau mỗi epoch, lưu Last Model lên WandB
        self.save_last_model()
        # Chờ tất cả các luồng lưu hoàn thành trước khi kết thúc
        self.executor.shutdown(wait=True)

        return result


# Bước 6: Cài đặt tham số huấn luyện
training_args = TrainingArguments(
    output_dir="./result__s",          # Thư mục lưu kết quả
    eval_strategy="epoch",    # Đánh giá sau mỗi epoch
    learning_rate=2e-4,
    per_device_train_batch_size=128,
    per_device_eval_batch_size=128,
    num_train_epochs=10,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_strategy="steps",
    logging_steps=1,  # Ghi logs mỗi 500 bước huấn luyện
    save_strategy="no",          # Lưu trọng số sau mỗi epoch
    save_total_limit=3,
    label_names = ["labels"],
    report_to="wandb",
    run_name="bert_run_3"
)


import wandb

# Khởi tạo wandb
wandb.init(
    project="bertIntentClassification",  # Tên dự án
    name="bert_10000Data_1epoch",                     # Tên phiên chạy
    config={"gpu": torch.cuda.get_device_name(torch.cuda.current_device()) if torch.cuda.is_available() else "CPU"}
)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = model.to(device)
if torch.cuda.is_available():
    print(f"Trainer is running on GPU: {torch.cuda.get_device_name(torch.cuda.current_device())}")
else:
    print("Trainer is running on CPU.")

trainer = TrainerCustom(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=valid_dataset,
    data_collator=collate_fn,
    save_every_n_epochs=3  # Lưu Best Model và Last Model mỗi 10 epochs
)

trainer.train()


wandb.finish()


Trainer is running on GPU: Tesla T4
Trainer is running on GPU: Tesla T4


Epoch,Training Loss,Validation Loss
1,0.849,0.89387


New best eval_loss: 0.8938695192337036
Removed old temporary directory: tmp_best_model_epoch_1


[34m[1mwandb[0m: Adding directory to artifact (./tmp_best_model_epoch_1)... Done. 2.8s


Successfully removed temporary directory: ./tmp_best_model_epoch_1
Model saved and uploaded to WandB: best_model_epoch_1 in 8.11 seconds


### Test

### Test

In [None]:
def evaluate_test_dataset(trainer, test_dataset, metric_key_prefix="test"):
    """
    Đánh giá hiệu suất mô hình trên tập test.

    Args:
        trainer (Trainer): Trainer đã được huấn luyện với mô hình và tham số.
        test_dataset (Dataset): Tập dữ liệu test.
        metric_key_prefix (str): Tiền tố để ghi log các metric cho tập test.

    Returns:
        dict: Kết quả đánh giá (loss và các metric khác nếu có).
    """
    print(f"Evaluating on test dataset with {len(test_dataset)} samples...")

    # Gọi phương thức evaluate của Trainer
    metrics = trainer.evaluate(eval_dataset=test_dataset, metric_key_prefix=metric_key_prefix)

    # In kết quả đánh giá
    for key, value in metrics.items():
        print(f"{key}: {value}")

    return metrics


# Gọi hàm đánh giá tập test
test_metrics = evaluate_test_dataset(trainer, test_dataset)

# Log kết quả lên WandB (tùy chọn)
import wandb
wandb.log(test_metrics)
