# **Vietnamese Medical Q&A Chatbot with BARTpho**

In [2]:
from google.colab import drive
drive.mount('/content/drive')
#/content/drive/MyDrive/

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
# !pip install evaluate dataset


In [4]:
# !pip install --upgrade scipy

In [5]:
# pip numpy -version

## 1. Import Libraries

In [6]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
from tqdm import tqdm
import logging
import pandas as pd

import collections

# Thư viện từ PyTorch
import torch.nn as nn
from torch.utils.data import DataLoader
from transformers import PreTrainedTokenizerFast, AutoModelForQuestionAnswering, AdamW, get_scheduler, default_data_collator

# Thư viện từ tqdm
from tqdm.auto import tqdm

# Thư viện đánh giá
# import evaluate

# Các thư viện phụ trợ khác (nếu cần)
from typing import List, Dict


In [7]:
# Setup logging
logging.basicConfig(level=logging.INFO)

In [8]:
# Device configuration
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [None]:
# device = torch.device("cpu"), mb25,

## 2. Load Pre-trained Model and Tokenizer

In [None]:
# Load BARTpho tokenizer and model
model_name = 'vinai/bartpho-word-base'

try:
    tokenizer = PreTrainedTokenizerFast.from_pretrained(model_name)
    print(tokenizer.is_fast)
    model = AutoModelForQuestionAnswering.from_pretrained(model_name).to(device)
    print("Model and tokenizer loaded successfully.")
except Exception as e:
    print(f"An error occurred while loading the model: {e}")
    raise e

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer.json:   0%|          | 0.00/3.13M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/898 [00:00<?, ?B/s]

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'PhobertTokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.


True


pytorch_model.bin:   0%|          | 0.00/600M [00:00<?, ?B/s]

Some weights of MBartForQuestionAnswering were not initialized from the model checkpoint at vinai/bartpho-word-base and are newly initialized: ['qa_outputs.bias', 'qa_outputs.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Model and tokenizer loaded successfully.


In [None]:
# Nếu pad_token không có, thêm pad_token
if tokenizer.pad_token is None:
    # Thêm pad_token mới vào tokenizer
    tokenizer.add_special_tokens({'pad_token': '[PAD]'})

    # Lưu lại tokenizer với pad_token mới
    tokenizer.save_pretrained('./path_to_save_tokenizer')
    print("Pad token added.")

Pad token added.


## 3. Load DataFrame with Q&A Pairs

In [12]:
# Đọc dữ liệu từ file CSV hoặc JSON
df = pd.read_csv('/content/drive/MyDrive/ChatBox/data/processed_medical_full.csv')  # Thay đổi đường dẫn đến tập dữ liệu của bạn

df = df.head(50000)

# Kiểm tra dữ liệu
df.head()




Unnamed: 0,Title,Detailed Content,Answer,Keywords,Question,Answer_Start,Answer_End,Reference Link
0,rào_cản tự_nhiên chống lại nhiễm_trùng về da,da thường chặn các vi_sinh_vật xâm_nhập trừ kh...,da thường chặn các vi_sinh_vật xâm_nhập trừ kh...,"da, vi_sinh_vật, động_vật, ống, iv, chặn, xâm_...",Liệu da có vai trò gì trong rào_cản tự_nhiên c...,0,139,https://www.msdmanuals.com/vi-vn/professional/...
1,rào_cản tự_nhiên chống lại nhiễm_trùng về da,da thường chặn các vi_sinh_vật xâm_nhập trừ kh...,da thường chặn các vi_sinh_vật xâm_nhập trừ kh...,"da, vi_sinh_vật, động_vật, ống, iv, chặn, xâm_...",Tại sao vi_sinh_vật lại xâm_nhập trong bối cản...,0,139,https://www.msdmanuals.com/vi-vn/professional/...
2,rào_cản tự_nhiên chống lại nhiễm_trùng về da,da thường chặn các vi_sinh_vật xâm_nhập trừ kh...,da thường chặn các vi_sinh_vật xâm_nhập trừ kh...,"da, vi_sinh_vật, động_vật, ống, iv, chặn, xâm_...",trừ động_vật có ảnh hưởng như thế nào đến rào_...,0,139,https://www.msdmanuals.com/vi-vn/professional/...
3,rào_cản tự_nhiên chống lại nhiễm_trùng về da,da thường chặn các vi_sinh_vật xâm_nhập trừ kh...,các ngoại_lệ bao_gồm virus papilloma_người có_...,"ngoại_lệ, virus, papilloma_người, da, mụn, cóc...",Sự kết hợp giữa ngoại_lệ và ngoại_lệ có thể ba...,140,479,https://www.msdmanuals.com/vi-vn/professional/...
4,rào_cản tự_nhiên chống lại nhiễm_trùng về da,da thường chặn các vi_sinh_vật xâm_nhập trừ kh...,các ngoại_lệ bao_gồm virus papilloma_người có_...,"ngoại_lệ, virus, papilloma_người, da, mụn, cóc...",Tại sao virus lại cần xâm_nhập trong rào_cản t...,140,479,https://www.msdmanuals.com/vi-vn/professional/...


In [None]:
# df = df.head(5000)

df.shape

(50000, 8)

## 4. Data Preprocessing

In [None]:
# Data Preparation
titles = df['Title'].tolist()
detailed_contents = df['Detailed Content'].tolist()

# Đảm bảo tất cả các phần tử trong danh sách là chuỗi
titles = [str(title) for title in titles]
detailed_contents = [str(content) for content in detailed_contents]

In [None]:
import re

# Hàm tìm từ ghép có dấu '_'
def find_compound_words(texts):
    compound_words = set()
    for text in texts:
        # Tìm các từ chứa dấu '_'
        matches = re.findall(r'\b\w+_\w+\b', text)
        compound_words.update(matches)
    return list(compound_words)

# Tìm từ ghép trong titles và detailed_contents
compound_words_titles = find_compound_words(titles)
compound_words_contents = find_compound_words(detailed_contents)

# Kết hợp từ ghép từ cả titles và detailed_contents và đảm bảo tính duy nhất
compound_words = list(set(compound_words_titles + compound_words_contents))

# Kiểm tra số lượng từ ghép đã tìm thấy và các từ là duy nhất
print(f"Number of unique compound words: {len(compound_words)}")
print(compound_words[:10])  # In ra 10 từ ghép đầu tiên để kiểm tra

Number of unique compound words: 5918
['sản_sinh', 'giảm_fibrinogen', 'thay_thế', 'dược_lý', 'giao_thông_thường', 'vận_động_cơ_thể', 'đệ_tứ', 'phong_cách', 'kéo_vẹo', 'chiari_ii']


In [None]:
num_added_tokens = tokenizer.add_tokens(compound_words)

model.resize_token_embeddings(len(tokenizer))

print(f"Added {num_added_tokens} tokens. New vocab size: {len(tokenizer)}")

Added 5918 tokens. New vocab size: 72027


In [None]:
test_sentence = "rào_cản tự_nhiên chống lại nhiễm_trùng da"
tokens = tokenizer.tokenize(test_sentence)
print(tokens)

['rào_cản', 'tự_nhiên', 'chống</w>', 'lại</w>', 'nhiễm_trùng', 'da</w>']


## 5. Train-Val Split

In [None]:
# df = df.head(10000)

In [None]:
# df.shape

In [None]:
from sklearn.model_selection import train_test_split

# Chia dữ liệu thành train và validation
train_df, val_df = train_test_split(df, test_size=0.2, random_state=42)

In [None]:
def preprocess_training_dataset(examples, tokenizer, max_length=256, stride=0):
    questions = [q.strip() for q in examples['Question']]
    contexts = [c.strip() for c in examples['Detailed Content']]
    answers_start = examples['Answer_Start']
    answers_text = examples['Answer']

    # Ensure tokenizer is fast and supports return_offsets_mapping
    inputs = tokenizer(
        questions,
        contexts,
        max_length=max_length,
        truncation="only_second",
        stride=stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,  # Ensure this is supported
        padding="max_length",
        return_tensors="pt"
    )

    offset_mapping = inputs.pop("offset_mapping", None)
    sample_map = inputs.pop("overflow_to_sample_mapping", None)

    # Convert to list for easier handling
    if offset_mapping is not None:
        offset_mapping = [list(map(tuple, offsets)) for offsets in offset_mapping]
    if sample_map is not None:
        sample_map = list(sample_map)

    start_positions = []
    end_positions = []

    # Check if offset_mapping and sample_map are available
    if offset_mapping is not None and sample_map is not None:
        for i, offset in enumerate(offset_mapping):
            sample_idx = sample_map[i]
            if len(answers_text[sample_idx]) > 0:
                start_char = answers_start[sample_idx]
                end_char = start_char + len(answers_text[sample_idx])

                sequence_ids = inputs.sequence_ids(i)
                context_start = sequence_ids.index(1)
                context_end = len(sequence_ids) - sequence_ids[::-1].index(1) - 1

                if offset[context_start][0] > start_char or offset[context_end][1] < end_char:
                    start_positions.append(0)
                    end_positions.append(0)
                else:
                    start_idx = next((i for i in range(context_start, context_end + 1) if offset[i][0] >= start_char), 0)
                    end_idx = next((i for i in range(context_end, context_start - 1, -1) if offset[i][1] <= end_char), 0)
                    start_positions.append(start_idx)
                    end_positions.append(end_idx)
            else:
                start_positions.append(0)
                end_positions.append(0)
    else:
        # Handle cases where offset_mapping or sample_map is not available
        start_positions = [0] * len(questions)
        end_positions = [0] * len(questions)

    # Convert start and end positions to tensors
    inputs["start_positions"] = torch.tensor(start_positions, dtype=torch.long)
    inputs["end_positions"] = torch.tensor(end_positions, dtype=torch.long)

    return inputs

In [None]:
# # Tokenize và xử lý train set
# train_encodings = preprocess_training_dataset(train_df, tokenizer)

In [None]:
def preprocess_validation_dataset(examples, tokenizer, max_length, stride):
    questions = [q.strip() for q in examples["Question"] if q and isinstance(q, str)]
    contexts = [c.strip() for c in examples["Detailed Content"] if c and isinstance(c, str)]

    inputs = tokenizer(
        questions,
        contexts,
        max_length=max_length,
        truncation="only_second",
        stride=stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    sample_map = inputs.pop("overflow_to_sample_mapping")

    # Initialize start_positions and end_positions lists
    start_positions = []
    end_positions = []

    for i in range(len(inputs["input_ids"])):
        sequence_ids = inputs.sequence_ids(i)
        if sequence_ids is None:
            continue  # Bỏ qua nếu không có sequence_ids

        offset = inputs["offset_mapping"][i]
        if offset is None:
            continue  # Bỏ qua nếu không có offset_mapping

        # Lấy câu trả lời từ dữ liệu ví dụ
        answer = examples['Answer'][sample_map[i]]
        start_char = examples['Answer_Start'][sample_map[i]]
        end_char = start_char + len(answer)

        # Chuyển đổi các ký tự start_char và end_char thành chỉ số token
        token_start_index = 0
        while sequence_ids[token_start_index] != 1:
            token_start_index += 1

        token_end_index = len(inputs["input_ids"][i]) - 1
        while sequence_ids[token_end_index] != 1:
            token_end_index -= 1

        # Đảm bảo rằng token_start_index và token_end_index nằm trong khoảng của câu trả lời
        if not (offset[token_start_index][0] <= start_char <= offset[token_end_index][1]):
            start_positions.append(0)  # Đặt mặc định nếu không tìm thấy
            end_positions.append(0)
        else:
            while token_start_index < len(offset) and offset[token_start_index][0] <= start_char:
                token_start_index += 1
            start_positions.append(token_start_index - 1)

            while token_end_index >= 0 and offset[token_end_index][1] >= end_char:
                token_end_index -= 1
            end_positions.append(token_end_index + 1)

        # Xử lý offset_mapping cho validation
        inputs["offset_mapping"][i] = [
            o if sequence_ids[k] == 1 else None for k, o in enumerate(offset)
        ]

    # Thêm example_id để ánh xạ dễ hơn
    inputs["example_id"] = [sample_map[i] for i in range(len(inputs["input_ids"]))]

    # Thêm start_positions và end_positions vào dữ liệu
    inputs["start_positions"] = start_positions
    inputs["end_positions"] = end_positions

    if not inputs.get("input_ids"):
        raise ValueError("No input_ids found after tokenization.")

    return inputs


In [None]:
# # Tokenize và xử lý validation set
# val_encodings = preprocess_validation_dataset(val_df, tokenizer)

## 6. Define Compute Metrics

In [None]:
# Khởi tạo metric
metric = evaluate.load("squad")

def compute_metrics(start_logits, end_logits, validation_dataset, val_df, n_best=20, max_answer_length=30):
    # Chuyển đổi validation_dataset từ PyTorch tensor về định dạng dict nếu cần
    features = validation_dataset.to_pandas().to_dict('records')  # Giả sử bạn đã chuyển đổi validation_dataset thành DataFrame và dict

    if not isinstance(features, list) or not all(isinstance(f, dict) for f in features):
        raise ValueError("`features` phải là một danh sách các từ điển.")

    # Chuyển đổi val_df thành danh sách từ điển nếu cần
    if isinstance(val_df, pd.DataFrame):
        examples = val_df.to_dict('records')
    else:
        examples = val_df

    if not isinstance(examples, list) or not all(isinstance(ex, dict) for ex in examples):
        raise ValueError("`examples` phải là một danh sách các từ điển.")

    # Tạo ánh xạ từ example_index tới các feature
    example_to_features = collections.defaultdict(list)
    for idx, feature in enumerate(features):
        example_index = feature.get("example_id", idx)  # Dùng "example_id" nếu có, nếu không thì dùng idx
        example_to_features[example_index].append(idx)

    predicted_answers = []

    # Duyệt qua từng example
    for example_index, example in tqdm(enumerate(examples)):
        context = example.get("Detailed Content", "")
        answers = []

        # Lấy tất cả feature liên quan đến example hiện tại
        for feature_index in example_to_features[example_index]:
            start_logit = start_logits[feature_index]
            end_logit = end_logits[feature_index]
            offsets = features[feature_index].get("offset_mapping", [])

            # Lấy top-n start và end indexes từ logits
            start_indexes = np.argsort(start_logit)[-1 : -n_best - 1 : -1].tolist()
            end_indexes = np.argsort(end_logit)[-1 : -n_best - 1 : -1].tolist()

            # Duyệt qua các start_index và end_index để tạo câu trả lời
            for start_index in start_indexes:
                for end_index in end_indexes:
                    if start_index >= len(offsets) or end_index >= len(offsets):
                        continue
                    if offsets[start_index] is None or offsets[end_index] is None:
                        continue
                    if end_index < start_index or end_index - start_index + 1 > max_answer_length:
                        continue

                    answer = {
                        "text": context[offsets[start_index][0] : offsets[end_index][1]],
                        "answer_start": offsets[start_index][0],  # Lưu start index để khớp với định dạng trả về
                    }
                    answers.append(answer)

        # Chọn câu trả lời có điểm số tốt nhất
        if len(answers) > 0:
            best_answer = max(answers, key=lambda x: x["text"])  # Chọn câu trả lời tốt nhất dựa trên text, điều này có thể cần điều chỉnh
            predicted_answers.append(
                {"id": example_index, "prediction_text": best_answer["text"]}
            )
        else:
            predicted_answers.append({"id": example_index, "prediction_text": ""})

    # Chuẩn bị câu trả lời thực tế dựa trên example_index
    theoretical_answers = [
        {
            "id": idx,
            "answers": [
                {"text": ans["text"], "answer_start": ans["answer_start"]}
                for ans in ex.get("answers", [])
            ]
        }
        for idx, ex in enumerate(examples)
    ]

    # Tính toán metric
    return metric.compute(predictions={"id": [ans["id"] for ans in predicted_answers], "prediction_text": [ans["prediction_text"] for ans in predicted_answers]},
                         references={"id": [ans["id"] for ans in theoretical_answers], "answers": [ans["answers"] for ans in theoretical_answers]})

Downloading builder script:   0%|          | 0.00/4.53k [00:00<?, ?B/s]

Downloading extra modules:   0%|          | 0.00/3.32k [00:00<?, ?B/s]

## 7. Custom Collate Function

In [None]:
# !pip install datasets

In [None]:
from datasets import Dataset
from torch.cuda.amp import GradScaler, autocast


In [None]:
def custom_collate_fn(features):
    batch = {}
    for k in features[0].keys():
        # Lọc ra các giá trị None hoặc không hợp lệ trước khi tạo tensor
        filtered_features = [f[k] for f in features if f[k] is not None]

        # Nếu không có dữ liệu hợp lệ, tiếp tục vòng lặp mà không tạo tensor
        if len(filtered_features) == 0:
            print(f"Warning: All features for key '{k}' are None or invalid.")
            continue

        # Kiểm tra xem các phần tử trong danh sách có phải là tensor không
        if isinstance(filtered_features[0], torch.Tensor):
            try:
                batch[k] = torch.stack(filtered_features)
            except Exception as e:
                print(f"Error stacking tensors for key '{k}': {e}")
        else:
            try:
                # Thay thế các giá trị không hợp lệ bằng giá trị mặc định
                default_value = 0  # Hoặc giá trị phù hợp với loại dữ liệu của bạn
                filtered_features = [f if isinstance(f, (int, float)) else default_value for f in filtered_features]

                # Tạo tensor từ các giá trị đã lọc
                batch[k] = torch.tensor(filtered_features, dtype=torch.long)
            except ValueError as e:
                print(f"Error converting {k} to tensor: {e}")
                print(f"Filtered features: {filtered_features}")
            except TypeError as e:
                print(f"Type error for key '{k}': {e}")
                print(f"Filtered features: {filtered_features}")
    return batch


## 8. Training Default

In [None]:
# def train_default(train_df, val_df, args):
#     # Chuyển DataFrame thành Dataset
#     train_dataset = Dataset.from_pandas(train_df)
#     val_dataset = Dataset.from_pandas(val_df)

#     print(train_df.shape)
#     print(val_df.shape)

#     print(f"Train dataset size: {len(train_dataset)}")
#     print(f"Validation dataset size: {len(val_dataset)}")
#     # Tiền xử lý dữ liệu
#     train_dataset = train_dataset.map(
#         lambda examples: preprocess_training_dataset(examples, tokenizer, args.max_length, args.stride),
#         batched=True,
#         remove_columns=train_dataset.column_names
#     )

#     val_dataset = val_dataset.map(
#         lambda examples: preprocess_validation_dataset(examples, tokenizer, args.max_length, args.stride),
#         batched=True,
#         remove_columns=val_dataset.column_names
#     )


#     # Đặt định dạng dữ liệu cho PyTorch
#     train_dataset.set_format("torch")
#     val_dataset.set_format("torch")

#     # Tạo DataLoader
#     train_dataloader = DataLoader(train_dataset, batch_size=args.batch_size, shuffle=True)
#     val_dataloader = DataLoader(val_dataset, batch_size=args.batch_size)

#     # Đưa mô hình về thiết bị
#     model.to(device)

#     # Khởi tạo optimizer
#     optimizer = AdamW(model.parameters(), lr=5e-5)

#     # Xác định số lượng bước (batch) trong một epoch
#     num_train_steps = len(train_dataloader)

#     # Huấn luyện mô hình
#     for epoch in range(3):  # Sử dụng số epoch mặc định là 3
#         print(f"Epoch {epoch+1}/3")

#         # Hiển thị tiến trình huấn luyện trong từng epoch
#         model.train()
#         train_loss = 0
#         progress_bar = tqdm(train_dataloader, desc=f"Training Epoch {epoch+1}", leave=False)

#         for batch in progress_bar:
#             batch = {k: v.to(device) for k, v in batch.items() if k not in ['example_id', 'token_type_ids']}
#             outputs = model(**batch)
#             loss = outputs.loss
#             loss.backward()
#             optimizer.step()
#             optimizer.zero_grad()

#             train_loss += loss.item()
#             progress_bar.set_postfix({'Loss': train_loss / (progress_bar.n + 1)})  # Hiển thị loss trung bình

#         print(f"Training Loss after epoch {epoch+1}: {train_loss / num_train_steps}")

#         # Đánh giá mô hình sau mỗi epoch
#         model.eval()
#         val_loss = 0
#         val_steps = len(val_dataloader)
#         progress_bar_val = tqdm(val_dataloader, desc=f"Validating Epoch {epoch+1}", leave=False)

#         for batch in progress_bar_val:
#           if any(v is None for v in batch.values()):  # Kiểm tra nếu có None trong batch
#               print(f"Invalid batch: {batch}")
#               continue  # Bỏ qua batch không hợp lệ

#           batch = {k: v.to(device) for k, v in batch.items() if k not in ['example_id', 'token_type_ids']}
#           with torch.no_grad():
#               outputs = model(**batch)
#               val_loss += outputs.loss.item()

#         print(f"Validation Loss after epoch {epoch+1}: {val_loss / val_steps}")

#     print("Training finished with default settings.")

## 9. Tranning

In [None]:
def convert_to_datasets(train_df, val_df):
    """Chuyển DataFrame thành Dataset"""
    train_dataset = Dataset.from_pandas(train_df)
    val_dataset = Dataset.from_pandas(val_df)
    return train_dataset, val_dataset

def preprocess_datasets(train_dataset, val_dataset, tokenizer, args):
    """Tiền xử lý dữ liệu"""

    val_dataset = val_dataset.map(
        lambda examples: preprocess_validation_dataset(examples, tokenizer, args.max_length, args.stride),
        batched=True,
        remove_columns=val_dataset.column_names,
    )

    train_dataset = train_dataset.map(
        lambda examples: preprocess_training_dataset(examples, tokenizer, args.max_length, args.stride),
        batched=True,
        remove_columns=train_dataset.column_names,
    )

    return train_dataset, val_dataset

def save_datasets(train_dataset, val_dataset, train_path, val_path):
    """Lưu Dataset thành file"""
    train_dataset.save_to_disk(train_path)
    val_dataset.save_to_disk(val_path)

def load_datasets(train_path, val_path):
    """Tải Dataset từ file"""
    train_dataset = Dataset.load_from_disk(train_path)
    val_dataset = Dataset.load_from_disk(val_path)
    return train_dataset, val_dataset

In [None]:
import torch.nn.functional as F
def train(train_df, val_df, args):
    # Đường dẫn lưu file
    train_path = '/content/drive/MyDrive/ChatBox/data/train_dataset_processed'
    val_path = '/content/drive/MyDrive/ChatBox/data/validation_dataset_processed'

    # # Chuyển DataFrame thành Dataset
    # train_dataset, val_dataset = convert_to_datasets(train_df, val_df)

    # # Tiền xử lý dữ liệu
    # train_dataset, val_dataset = preprocess_datasets(train_dataset, val_dataset, tokenizer, args)

    # # Lưu Dataset thành file
    # save_datasets(train_dataset, val_dataset, train_path, val_path)

    # Tải Dataset từ file
    train_dataset, val_dataset = load_datasets(train_path, val_path)

    # Đặt định dạng dữ liệu cho PyTorch
    train_dataset.set_format("torch")
    val_dataset.set_format("torch")

    # Tạo DataLoader cho tập huấn luyện và tập validation
    train_dataloader = DataLoader(
        train_dataset,
        shuffle=True,
        collate_fn=custom_collate_fn,  # Sử dụng hàm collate_fn tùy chỉnh
        batch_size=args.batch_size,
        num_workers=4,
        pin_memory=True  # Giúp tăng tốc độ truyền dữ liệu từ CPU sang GPU
    )
    eval_dataloader = DataLoader(
        val_dataset,
        collate_fn=custom_collate_fn,  # Sử dụng hàm collate_fn tùy chỉnh
        batch_size=args.batch_size,
        num_workers=4,
        pin_memory=True  # Giúp tăng tốc độ truyền dữ liệu từ CPU sang GPU
    )

    # Di chuyển mô hình đến thiết bị
    model.to(device)

    # Khởi tạo optimizer và scheduler
    optimizer = AdamW(model.parameters(), lr=args.lr)
    num_update_steps_per_epoch = len(train_dataloader)
    num_training_steps = args.epochs * num_update_steps_per_epoch

    lr_scheduler = get_scheduler(
        args.scheduler,
        optimizer=optimizer,
        num_warmup_steps=0,
        num_training_steps=num_training_steps,
    )

    # Khởi tạo GradScaler cho Mixed Precision Training
    scaler = GradScaler()

    # Gradient Accumulation Steps
    accumulation_steps = args.accumulation_steps

    # Huấn luyện mô hình
    progress_bar = tqdm(range(num_training_steps))
    best_loss = float('inf')  # Đặt giá trị tốt nhất ban đầu là vô cực

    for epoch in range(args.epochs):
        model.train()
        optimizer.zero_grad()  # Đặt lại gradient

        for step, batch in enumerate(train_dataloader):
            offset_mapping = batch.pop('offset_mapping', None)

            # Di chuyển dữ liệu đến thiết bị đúng
            batch = {k: v.to(device) for k, v in batch.items() if k not in ['token_type_ids', 'example_id']}

            vocab_size = model.get_input_embeddings().num_embeddings
            out_of_vocab_mask = batch['input_ids'] >= vocab_size

            if tokenizer.unk_token_id is None:
                tokenizer.add_special_tokens({'unk_token': '[UNK]'})
                unk_token_id = tokenizer.unk_token_id
                if unk_token_id is None:
                    unk_token_id = tokenizer.pad_token_id
            else:
                unk_token_id = tokenizer.unk_token_id

            if out_of_vocab_mask.any():
                batch['input_ids'] = torch.where(out_of_vocab_mask, torch.full_like(batch['input_ids'], unk_token_id), batch['input_ids'])

            # Mixed precision training
            with autocast():
                outputs = model(**batch)
                loss = outputs.loss

            # Scale loss and backward pass
            loss = loss / accumulation_steps  # Chia loss theo accumulation_steps
            scaler.scale(loss.mean()).backward()

            # Chỉ cập nhật optimizer sau mỗi accumulation_steps
            if (step + 1) % accumulation_steps == 0 or (step + 1) == len(train_dataloader):
                scaler.step(optimizer)
                scaler.update()
                lr_scheduler.step()
                optimizer.zero_grad()

            progress_bar.update(1)

        torch.cuda.empty_cache()

        # Đánh giá mô hình sau mỗi epoch
        model.eval()
        total_loss = 0.0
        criterion = torch.nn.CrossEntropyLoss()  # Hàm loss cho chế độ đánh giá

        for batch in tqdm(eval_dataloader):
            offset_mapping = batch.pop('offset_mapping', None)
            # Chuyển batch sang thiết bị GPU (nếu có)
            batch = {k: v.to(device) for k, v in batch.items() if k not in ['token_type_ids', 'example_id']}

            with torch.no_grad():
                outputs = model(**batch)  # Tạo logits từ mô hình

            # Lấy logits đầu ra (ví dụ: start_logits và end_logits)
            start_logits = outputs.start_logits
            end_logits = outputs.end_logits

            # Tính toán loss thủ công nếu `outputs.loss` không tồn tại
            start_loss = criterion(start_logits, batch['start_positions'])
            end_loss = criterion(end_logits, batch['end_positions'])
            loss = (start_loss + end_loss) / 2  # Trung bình loss cho start và end

            total_loss += loss.item()

        avg_loss = total_loss / len(eval_dataloader)
        print(f"Epoch {epoch}: Average Loss = {avg_loss}")

        # Lưu mô hình nếu loss giảm
        if avg_loss < best_loss:
            print(f"Saving model to {args.output_dir} with loss = {avg_loss}...")
            model.save_pretrained(args.output_dir)
            print("Finished.")
            best_loss = avg_loss



        # # Thay vì sử dụng raw_datasets["validation"], bạn có thể sử dụng val_df
        # metrics = compute_metrics(start_logits, end_logits, validation_dataset, val_df)
        # print(f"Epoch {epoch}:", metrics)

        # if epoch == 0:
        #     prev_metrics = metrics
        # elif metrics['f1'] > prev_metrics['f1']:
        #     print(f"Saving model to {args.output_dir}...")
        #     model.save_pretrained(args.output_dir)
        #     print("Finished.")
        #     prev_metrics = metrics


## 10. Define class Args

In [None]:
class Args:
    def __init__(self):
        self.pretrained_model = 'vinai/bartpho-syllable'  # Có thể thử mô hình nhỏ hơn nếu cần hoặc vinai/bartpho-syllable, vinai/bartpho-word-base
        self.max_length = 512  # Giảm độ dài tối đa của chuỗi
        self.stride = 256  # Tăng stride để giảm chồng lấp giữa các phần chuỗi
        self.batch_size = 16  # Tăng batch size nếu GPU có đủ bộ nhớ
        self.accumulation_steps = 2  # Giảm số bước tích lũy gradient
        self.lr = 2e-5 # Tăng tốc độ học
        self.epochs = 3  # Giữ nguyên hoặc giảm nếu đã đạt hiệu suất tốt
        self.scheduler = 'linear'  # Thử scheduler nhẹ hơn
        self.metric = 'squad'
        self.output_dir = '/content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2'
        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'

# Instantiate args
args = Args()

## 11. Run

In [None]:
#What is the relation between# Call the training function
# train(train_df, val_df, args)
train(train_df, val_df, args)


Map:   0%|          | 0/10000 [00:00<?, ? examples/s]

Map:   0%|          | 0/40000 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/67828 [00:00<?, ? examples/s]

Saving the dataset (0/1 shards):   0%|          | 0/17036 [00:00<?, ? examples/s]

  scaler = GradScaler()


  0%|          | 0/12720 [00:00<?, ?it/s]

  self.pid = os.fork()
  with autocast():
  self.pid = os.fork()


  0%|          | 0/1065 [00:00<?, ?it/s]

Epoch 0: Average Loss = 0.7334641323863209
Saving model to /content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2 with loss = 0.7334641323863209...


Non-default generation parameters: {'forced_eos_token_id': 2}


Finished.


  0%|          | 0/1065 [00:00<?, ?it/s]

Exception ignored in: <function _MultiProcessingDataLoaderIter.__del__ at 0x793b990e04c0>
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py", line 1477, in __del__
    self._shutdown_workers()
  File "/usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py", line 1460, in _shutdown_workers
    if w.is_alive():
  File "/usr/lib/python3.10/multiprocessing/process.py", line 160, in is_alive
    assert self._parent_pid == os.getpid(), 'can only test a child process'
AssertionError: can only test a child process
Exception ignored in: <function _MultiProcessingDataLoaderIter.__del__ at 0x793b990e04c0>
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py", line 1477, in __del__
    self._shutdown_workers()
  File "/usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py", line 1460, in _shutdown_workers
    if w.is_alive():
  File "/usr/lib/

Epoch 1: Average Loss = 0.630069560977874
Saving model to /content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2 with loss = 0.630069560977874...
Finished.


  0%|          | 0/1065 [00:00<?, ?it/s]

Exception ignored in: <function _MultiProcessingDataLoaderIter.__del__ at 0x793b990e04c0>
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py", line 1477, in __del__
    self._shutdown_workers()
  File "/usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py", line 1460, in _shutdown_workers
    if w.is_alive():
  File "/usr/lib/python3.10/multiprocessing/process.py", line 160, in is_alive
    assert self._parent_pid == os.getpid(), 'can only test a child process'
AssertionError: can only test a child process
Exception ignored in: <function _MultiProcessingDataLoaderIter.__del__ at 0x793b990e04c0>
Traceback (most recent call last):
  File "/usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py", line 1477, in __del__
    self._shutdown_workers()
  File "/usr/local/lib/python3.10/dist-packages/torch/utils/data/dataloader.py", line 1460, in _shutdown_workers
    if w.is_alive():
  File "/usr/lib/

Epoch 2: Average Loss = 0.5585165887899682
Saving model to /content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2 with loss = 0.5585165887899682...
Finished.


## 12. Save Trained Model

In [None]:
# Lưu mô hình sau khi fine-tuning
model.save_pretrained('/content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2')
tokenizer.save_pretrained('/content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2')

Non-default generation parameters: {'forced_eos_token_id': 2}


('/content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2/tokenizer_config.json',
 '/content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2/special_tokens_map.json',
 '/content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2/tokenizer.json')

## 13. Testing the Model

In [10]:
test_questions = [
    "Tiểu đường là bệnh gì?"
]

test_contexts = [
    "Tiểu đường hay còn gọi là đái tháo đường là bệnh có tình trạng lượng đường trong máu luôn cao hơn mức bình thường do cơ thể bị thiếu hụt hoặc đề kháng với insulin, gây tình trạng rối loạn chuyển hóa đường trong máu. Đây là nguyên nhân cản trở cơ thể chuyển hóa các chất bột đường thành năng lượng, gây ra hiện tượng đường tích tụ tăng dần trong máu.Lâu ngày, sự tích tụ này khiến lượng đường trong máu thường xuyên ở mức cao. Điều này làm tăng nguy cơ mắc các bệnh về tim mạch và các bệnh lý khác, tổn thương các bộ phận như mắt, thận…, thậm chí tử vong. Biến chứng tim mạch là nguyên nhân tử vong hàng đầu ở người mắc bệnh tiểu đường."
]


In [11]:
# Tokenize câu hỏi và bối cảnh
inputs = tokenizer(test_questions, test_contexts, return_tensors='pt', padding=True, truncation=True, max_length=512)
inputs = {key: value.to(device) for key, value in inputs.items() if key not in ['token_type_ids']} # Filter out unexpected keys

# Sinh ra dự đoán từ mô hình
model.to(device)
model.eval()
with torch.no_grad():
    outputs = model(**inputs)

# Lấy logits dự đoán vị trí bắt đầu và kết thúc
start_logits = outputs.start_logits
end_logits = outputs.end_logits

# Chuyển đổi logits thành xác suất
start_probs = torch.softmax(start_logits, dim=1)
end_probs = torch.softmax(end_logits, dim=1)

# Lấy vị trí có xác suất cao nhất
start_idx = torch.argmax(start_probs, dim=1).item()
end_idx = torch.argmax(end_probs, dim=1).item()

# Trích xuất câu trả lời từ context dựa trên vị trí dự đoán
answer_tokens = inputs['input_ids'][0][start_idx:end_idx+1]
answer = tokenizer.decode(answer_tokens, skip_special_tokens=True)

# Giải mã các dự đoán
print(f"Question: {test_questions[0]}")
print(f"Answer: {answer}")

Question: Tiểu đường là bệnh gì?
Answer: Tiểu đường hay còn gọi là đái tháo đường là bệnh có tình trạng lượng đường trong máu luôn cao hơn mức bình thường do cơ thể bị thiếu hụt hoặc đề kháng với insulin, gây tình trạng rối loạn chuyển hóa đường trong máu.


# Rouge and Blue

In [None]:
# !pip install datasets

Collecting datasets
  Downloading datasets-3.0.0-py3-none-any.whl.metadata (19 kB)
Collecting pyarrow>=15.0.0 (from datasets)
  Downloading pyarrow-17.0.0-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (3.3 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Downloading datasets-3.0.0-py3-none-any.whl (474 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m474.3/474.3 kB[0m [31m25.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m11.5 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pyarrow-17.0.0-cp310-cp310-manylinux_2_28_x86_64.whl (39.9 MB)
[2K

In [None]:
# !pip install rouge_score

Collecting rouge_score
  Downloading rouge_score-0.1.2.tar.gz (17 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: rouge_score
  Building wheel for rouge_score (setup.py) ... [?25l[?25hdone
  Created wheel for rouge_score: filename=rouge_score-0.1.2-py3-none-any.whl size=24935 sha256=72a58a89ff5415dfce256b2260b0b7e5e570b8c0dc5e6efaa582d8403d579e71
  Stored in directory: /root/.cache/pip/wheels/5f/dd/89/461065a73be61a532ff8599a28e9beef17985c9e9c31e541b4
Successfully built rouge_score
Installing collected packages: rouge_score
Successfully installed rouge_score-0.1.2


In [None]:
from rouge_score import rouge_scorer
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
# import torch

# Hàm tính điểm ROUGE và BLEU cho câu trả lời dự đoán
def evaluate_predictions(test_questions, test_contexts, true_answers, model, tokenizer, device):
    rouge = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)  # Đổi tên biến thành `rouge` để tránh xung đột
    smooth_fn = SmoothingFunction().method4  # Smooth cho BLEU khi có n-grams nhỏ

    rouge_scores = {'rouge1': 0, 'rouge2': 0, 'rougeL': 0}
    bleu_scores = []

    # Duyệt qua tất cả các câu hỏi, ngữ cảnh và câu trả lời
    for idx, (question, context, true_answer) in enumerate(zip(test_questions, test_contexts, true_answers)):
        # Tokenize câu hỏi và ngữ cảnh
        inputs = tokenizer(question, context, return_tensors='pt', padding=True, truncation=True, max_length=512)
        inputs = {key: value.to(device) for key, value in inputs.items() if key not in ['token_type_ids']}

        # Sinh ra dự đoán từ mô hình
        model.to(device)
        model.eval()
        with torch.no_grad():
            outputs = model(**inputs)

        # Lấy logits dự đoán vị trí bắt đầu và kết thúc
        start_logits = outputs.start_logits
        end_logits = outputs.end_logits

        # Chuyển đổi logits thành xác suất
        start_probs = torch.softmax(start_logits, dim=1)
        end_probs = torch.softmax(end_logits, dim=1)

        # Lấy vị trí có xác suất cao nhất
        start_idx = torch.argmax(start_probs, dim=1).item()
        end_idx = torch.argmax(end_probs, dim=1).item()

        # Trích xuất câu trả lời từ context dựa trên vị trí dự đoán
        answer_tokens = inputs['input_ids'][0][start_idx:end_idx+1]
        predicted_answer = tokenizer.decode(answer_tokens, skip_special_tokens=True)

        # Tính ROUGE
        rouge_score = rouge.score(true_answer, predicted_answer)
        rouge_scores['rouge1'] += rouge_score['rouge1'].fmeasure
        rouge_scores['rouge2'] += rouge_score['rouge2'].fmeasure
        rouge_scores['rougeL'] += rouge_score['rougeL'].fmeasure

        # Tính BLEU
        reference = [true_answer.split()]
        candidate = predicted_answer.split()
        bleu = sentence_bleu(reference, candidate, smoothing_function=smooth_fn)
        bleu_scores.append(bleu)

    # Tính điểm trung bình của ROUGE và BLEU
    num_examples = len(test_questions)
    avg_rouge_scores = {key: value / num_examples for key, value in rouge_scores.items()}
    avg_bleu_score = sum(bleu_scores) / num_examples

    return avg_rouge_scores, avg_bleu_score

# Ví dụ với tập dữ liệu test (ví dụ: val_df['Question'], val_df['Detailed Content'], val_df['Answer'])
test_questions = val_df['Question'].tolist()
test_contexts = val_df['Detailed Content'].tolist()
true_answers = val_df['Answer'].tolist()

# Áp dụng hàm để tính ROUGE và BLEU trên nhiều câu hỏi và ngữ cảnh
avg_rouge, avg_bleu = evaluate_predictions(test_questions, test_contexts, true_answers, model, tokenizer, device)

# In ra kết quả tổng quan
print(f"Average ROUGE scores: {avg_rouge}")
print(f"Average BLEU score: {avg_bleu}")


Average ROUGE scores: {'rouge1': 0.7009757411915237, 'rouge2': 0.5863084619986912, 'rougeL': 0.6811828535851139}
Average BLEU score: 0.1930914568517355


In [9]:
# Use AutoTokenizer to ensure compatibility with BARTPho
model = AutoModelForQuestionAnswering.from_pretrained('/content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2')
tokenizer = PreTrainedTokenizerFast.from_pretrained('/content/drive/MyDrive/ChatBox/model/fine_tuned_bartpho2')