# **Vietnamese Medical Q&A Chatbot with BARTpho**

In [None]:
# from google.colab import drive
# drive.mount('/content/drive')
# #/content/drive/MyDrive/

In [None]:
pip install evaluate dataset


In [None]:
# pip numpy -version

## 1. Import Libraries

In [None]:
import torch
import torch.nn as nn
from torch.utils.data import Dataset, DataLoader
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np
from tqdm import tqdm
import logging
import pandas as pd

import collections

# Thư viện từ PyTorch
import torch.nn as nn
from torch.utils.data import DataLoader
from torch.optim import AdamW
from transformers import PreTrainedTokenizerFast, AutoModelForQuestionAnswering, get_scheduler, default_data_collator

# Thư viện từ tqdm
from tqdm.auto import tqdm

# Thư viện đánh giá
import evaluate

# Các thư viện phụ trợ khác (nếu cần)
from typing import List, Dict


In [None]:
# Setup logging
logging.basicConfig(level=logging.INFO)

In [None]:
# Device configuration
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [None]:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"

## 2. Load Pre-trained Model and Tokenizer

In [None]:
# Load BARTpho tokenizer and model
model_name = 'vinai/bartpho-word-base'

try:
    tokenizer = PreTrainedTokenizerFast.from_pretrained(model_name)
    print(tokenizer.is_fast)
    model = AutoModelForQuestionAnswering.from_pretrained(model_name).to(device)
    print("Model and tokenizer loaded successfully.")
except Exception as e:
    print(f"An error occurred while loading the model: {e}")
    raise e

In [None]:
# Nếu pad_token không có, thêm pad_token
if tokenizer.pad_token is None:
    # Thêm pad_token mới vào tokenizer
    tokenizer.add_special_tokens({'pad_token': '[PAD]'})


## 3. Load DataFrame with Q&A Pairs

In [None]:
# Đọc dữ liệu từ file CSV hoặc JSON
df = pd.read_csv('/kaggle/input/ute-de-medical/processed_medical_full.csv')  # Thay đổi đường dẫn đến tập dữ liệu của bạn

# df = df.head(50000)

# Kiểm tra dữ liệu
df.head()




In [None]:
import os

In [None]:
# # Đường dẫn đến thư mục mà bạn muốn tạo
# data_dir = '/kaggle/working/data'

# # Tạo thư mục nếu chưa tồn tại
# os.makedirs(data_dir, exist_ok=True)

# # Lưu DataFrame vào thư mục đã tạo
# df.to_csv(os.path.join(data_dir, 'data.csv'), index=False)

In [None]:
# df = df.head(5000)

df.shape

## 4. Data Preprocessing

In [None]:
# Data Preparation
titles = df['Title'].tolist()
detailed_contents = df['Detailed Content'].tolist()

# Đảm bảo tất cả các phần tử trong danh sách là chuỗi
titles = [str(title) for title in titles]
detailed_contents = [str(content) for content in detailed_contents]

In [None]:
import re

# Hàm tìm từ ghép có dấu '_'
def find_compound_words(texts):
    compound_words = set()
    for text in texts:
        # Tìm các từ chứa dấu '_'
        matches = re.findall(r'\b\w+_\w+\b', text)
        compound_words.update(matches)
    return list(compound_words)

# Tìm từ ghép trong titles và detailed_contents
compound_words_titles = find_compound_words(titles)
compound_words_contents = find_compound_words(detailed_contents)

# Kết hợp từ ghép từ cả titles và detailed_contents và đảm bảo tính duy nhất
compound_words = list(set(compound_words_titles + compound_words_contents))

# Kiểm tra số lượng từ ghép đã tìm thấy và các từ là duy nhất
print(f"Number of unique compound words: {len(compound_words)}")
print(compound_words[:10])  # In ra 10 từ ghép đầu tiên để kiểm tra

In [None]:
num_added_tokens = tokenizer.add_tokens(compound_words)

model.resize_token_embeddings(len(tokenizer))

print(f"Added {num_added_tokens} tokens. New vocab size: {len(tokenizer)}")

In [None]:
test_sentence = "da thường chặn các vi_sinh_vật xâm_nhập trừ khi nó bị tổn_thương ví_dụ do động_vật chân_đốt chấn_thương ống thông iv hoặc phẫu_thuật rạch . các ngoại_lệ bao_gồm virus papilloma_người có_thể xâm_nhập vào da bình_thường gây ra mụn cóc một_số ký_sinh_trùng ví_dụ strongyloides_stercoralis những loại gây bệnh_nhiễm giun_móc virus papilloma người có_thể xâm_nhập vào da bình_thường gây ra mụn cóc một_số ký_sinh_trùng ví_dụ strongyloides stercoralis những loại gây bệnh nhiễmgiun móc"
tokens = tokenizer.tokenize(test_sentence)
print(tokens)

## 5. Train-Val Split

In [None]:
# df = df.head(10000)

In [None]:
# df.shape

In [None]:
from sklearn.model_selection import train_test_split

# Chia dữ liệu thành train và validation
train_df, val_df = train_test_split(df, test_size=0.2, random_state=42)

In [None]:
def preprocess_training_dataset(examples, tokenizer, max_length=256, stride=0):
    questions = [q.strip() for q in examples['Question']]
    contexts = [c.strip() for c in examples['Detailed Content']]
    answers_start = examples['Answer_Start']
    answers_text = examples['Answer']

    # Ensure tokenizer is fast and supports return_offsets_mapping
    inputs = tokenizer(
        questions,
        contexts,
        max_length=max_length,
        truncation="only_second",
        stride=stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,  # Ensure this is supported
        padding="max_length",
        return_tensors="pt"
    )

    offset_mapping = inputs.pop("offset_mapping", None)
    sample_map = inputs.pop("overflow_to_sample_mapping", None)

    # Convert to list for easier handling
    if offset_mapping is not None:
        offset_mapping = [list(map(tuple, offsets)) for offsets in offset_mapping]
    if sample_map is not None:
        sample_map = list(sample_map)

    start_positions = []
    end_positions = []

    # Check if offset_mapping and sample_map are available
    if offset_mapping is not None and sample_map is not None:
        for i, offset in enumerate(offset_mapping):
            sample_idx = sample_map[i]
            if len(answers_text[sample_idx]) > 0:
                start_char = answers_start[sample_idx]
                end_char = start_char + len(answers_text[sample_idx])

                sequence_ids = inputs.sequence_ids(i)
                context_start = sequence_ids.index(1)
                context_end = len(sequence_ids) - sequence_ids[::-1].index(1) - 1

                if offset[context_start][0] > start_char or offset[context_end][1] < end_char:
                    start_positions.append(0)
                    end_positions.append(0)
                else:
                    start_idx = next((i for i in range(context_start, context_end + 1) if offset[i][0] >= start_char), 0)
                    end_idx = next((i for i in range(context_end, context_start - 1, -1) if offset[i][1] <= end_char), 0)
                    start_positions.append(start_idx)
                    end_positions.append(end_idx)
            else:
                start_positions.append(0)
                end_positions.append(0)
    else:
        # Handle cases where offset_mapping or sample_map is not available
        start_positions = [0] * len(questions)
        end_positions = [0] * len(questions)

    # Convert start and end positions to tensors
    inputs["start_positions"] = torch.tensor(start_positions, dtype=torch.long)
    inputs["end_positions"] = torch.tensor(end_positions, dtype=torch.long)

    return inputs

In [None]:
# # Tokenize và xử lý train set
# train_encodings = preprocess_training_dataset(train_df, tokenizer)

In [None]:
def preprocess_validation_dataset(examples, tokenizer, max_length, stride):
    questions = [q.strip() for q in examples["Question"] if q and isinstance(q, str)]
    contexts = [c.strip() for c in examples["Detailed Content"] if c and isinstance(c, str)]

    inputs = tokenizer(
        questions,
        contexts,
        max_length=max_length,
        truncation="only_second",
        stride=stride,
        return_overflowing_tokens=True,
        return_offsets_mapping=True,
        padding="max_length",
    )

    sample_map = inputs.pop("overflow_to_sample_mapping")

    # Initialize start_positions and end_positions lists
    start_positions = []
    end_positions = []

    for i in range(len(inputs["input_ids"])):
        sequence_ids = inputs.sequence_ids(i)
        if sequence_ids is None:
            continue  # Bỏ qua nếu không có sequence_ids

        offset = inputs["offset_mapping"][i]
        if offset is None:
            continue  # Bỏ qua nếu không có offset_mapping

        # Lấy câu trả lời từ dữ liệu ví dụ
        answer = examples['Answer'][sample_map[i]]
        start_char = examples['Answer_Start'][sample_map[i]]
        end_char = start_char + len(answer)

        # Chuyển đổi các ký tự start_char và end_char thành chỉ số token
        token_start_index = 0
        while sequence_ids[token_start_index] != 1:
            token_start_index += 1

        token_end_index = len(inputs["input_ids"][i]) - 1
        while sequence_ids[token_end_index] != 1:
            token_end_index -= 1

        # Đảm bảo rằng token_start_index và token_end_index nằm trong khoảng của câu trả lời
        if not (offset[token_start_index][0] <= start_char <= offset[token_end_index][1]):
            start_positions.append(0)  # Đặt mặc định nếu không tìm thấy
            end_positions.append(0)
        else:
            while token_start_index < len(offset) and offset[token_start_index][0] <= start_char:
                token_start_index += 1
            start_positions.append(token_start_index - 1)

            while token_end_index >= 0 and offset[token_end_index][1] >= end_char:
                token_end_index -= 1
            end_positions.append(token_end_index + 1)

        # Xử lý offset_mapping cho validation
        inputs["offset_mapping"][i] = [
            o if sequence_ids[k] == 1 else None for k, o in enumerate(offset)
        ]

    # Thêm example_id để ánh xạ dễ hơn
    inputs["example_id"] = [sample_map[i] for i in range(len(inputs["input_ids"]))]

    # Thêm start_positions và end_positions vào dữ liệu
    inputs["start_positions"] = start_positions
    inputs["end_positions"] = end_positions

    if not inputs.get("input_ids"):
        raise ValueError("No input_ids found after tokenization.")

    return inputs


## 6. Define Compute Metrics

In [None]:
# Khởi tạo metric
metric = evaluate.load("squad")

def compute_metrics(start_logits, end_logits, validation_dataset, val_df, n_best=20, max_answer_length=30):
    # Chuyển đổi validation_dataset từ PyTorch tensor về định dạng dict nếu cần
    features = validation_dataset.to_pandas().to_dict('records')  # Giả sử bạn đã chuyển đổi validation_dataset thành DataFrame và dict

    if not isinstance(features, list) or not all(isinstance(f, dict) for f in features):
        raise ValueError("`features` phải là một danh sách các từ điển.")

    # Chuyển đổi val_df thành danh sách từ điển nếu cần
    if isinstance(val_df, pd.DataFrame):
        examples = val_df.to_dict('records')
    else:
        examples = val_df

    if not isinstance(examples, list) or not all(isinstance(ex, dict) for ex in examples):
        raise ValueError("`examples` phải là một danh sách các từ điển.")

    # Tạo ánh xạ từ example_index tới các feature
    example_to_features = collections.defaultdict(list)
    for idx, feature in enumerate(features):
        example_index = feature.get("example_id", idx)  # Dùng "example_id" nếu có, nếu không thì dùng idx
        example_to_features[example_index].append(idx)

    predicted_answers = []

    # Duyệt qua từng example
    for example_index, example in tqdm(enumerate(examples)):
        context = example.get("Detailed Content", "")
        answers = []

        # Lấy tất cả feature liên quan đến example hiện tại
        for feature_index in example_to_features[example_index]:
            start_logit = start_logits[feature_index]
            end_logit = end_logits[feature_index]
            offsets = features[feature_index].get("offset_mapping", [])

            # Lấy top-n start và end indexes từ logits
            start_indexes = np.argsort(start_logit)[-1 : -n_best - 1 : -1].tolist()
            end_indexes = np.argsort(end_logit)[-1 : -n_best - 1 : -1].tolist()

            # Duyệt qua các start_index và end_index để tạo câu trả lời
            for start_index in start_indexes:
                for end_index in end_indexes:
                    if start_index >= len(offsets) or end_index >= len(offsets):
                        continue
                    if offsets[start_index] is None or offsets[end_index] is None:
                        continue
                    if end_index < start_index or end_index - start_index + 1 > max_answer_length:
                        continue

                    answer = {
                        "text": context[offsets[start_index][0] : offsets[end_index][1]],
                        "answer_start": offsets[start_index][0],  # Lưu start index để khớp với định dạng trả về
                    }
                    answers.append(answer)

        # Chọn câu trả lời có điểm số tốt nhất
        if len(answers) > 0:
            best_answer = max(answers, key=lambda x: x["text"])  # Chọn câu trả lời tốt nhất dựa trên text, điều này có thể cần điều chỉnh
            predicted_answers.append(
                {"id": example_index, "prediction_text": best_answer["text"]}
            )
        else:
            predicted_answers.append({"id": example_index, "prediction_text": ""})

    # Chuẩn bị câu trả lời thực tế dựa trên example_index
    theoretical_answers = [
        {
            "id": idx,
            "answers": [
                {"text": ans["text"], "answer_start": ans["answer_start"]}
                for ans in ex.get("answers", [])
            ]
        }
        for idx, ex in enumerate(examples)
    ]

    # Tính toán metric
    return metric.compute(predictions={"id": [ans["id"] for ans in predicted_answers], "prediction_text": [ans["prediction_text"] for ans in predicted_answers]},
                         references={"id": [ans["id"] for ans in theoretical_answers], "answers": [ans["answers"] for ans in theoretical_answers]})

## 7. Custom Collate Function

In [None]:
# !pip install datasets

In [None]:
from datasets import Dataset
from torch.cuda.amp import GradScaler, autocast


In [None]:
def custom_collate_fn(features):
    batch = {}
    for k in features[0].keys():
        # Lọc ra các giá trị None hoặc không hợp lệ trước khi tạo tensor
        filtered_features = [f[k] for f in features if f[k] is not None]

        # Nếu không có dữ liệu hợp lệ, tiếp tục vòng lặp mà không tạo tensor
        if len(filtered_features) == 0:
            print(f"Warning: All features for key '{k}' are None or invalid.")
            continue

        # Kiểm tra xem các phần tử trong danh sách có phải là tensor không
        if isinstance(filtered_features[0], torch.Tensor):
            try:
                batch[k] = torch.stack(filtered_features)
            except Exception as e:
                print(f"Error stacking tensors for key '{k}': {e}")
        else:
            try:
                # Thay thế các giá trị không hợp lệ bằng giá trị mặc định
                default_value = 0  # Hoặc giá trị phù hợp với loại dữ liệu của bạn
                filtered_features = [f if isinstance(f, (int, float)) else default_value for f in filtered_features]

                # Tạo tensor từ các giá trị đã lọc
                batch[k] = torch.tensor(filtered_features, dtype=torch.long)
            except ValueError as e:
                print(f"Error converting {k} to tensor: {e}")
                print(f"Filtered features: {filtered_features}")
            except TypeError as e:
                print(f"Type error for key '{k}': {e}")
                print(f"Filtered features: {filtered_features}")
    return batch


## 8. Training Default

## 9. Tranning

In [None]:
def convert_to_datasets(train_df, val_df):
    """Chuyển DataFrame thành Dataset"""
    train_dataset = Dataset.from_pandas(train_df)
    val_dataset = Dataset.from_pandas(val_df)
    return train_dataset, val_dataset

def preprocess_datasets(train_dataset, val_dataset, tokenizer, args):
    """Tiền xử lý dữ liệu"""

    val_dataset = val_dataset.map(
        lambda examples: preprocess_validation_dataset(examples, tokenizer, args.max_length, args.stride),
        batched=True,
        remove_columns=val_dataset.column_names,
    )

    train_dataset = train_dataset.map(
        lambda examples: preprocess_training_dataset(examples, tokenizer, args.max_length, args.stride),
        batched=True,
        remove_columns=train_dataset.column_names,
    )

    return train_dataset, val_dataset

def save_datasets(train_dataset, val_dataset, train_path, val_path):
    """Lưu Dataset thành file"""
    train_dataset.save_to_disk(train_path)
    val_dataset.save_to_disk(val_path)

def load_datasets(train_path, val_path):
    """Tải Dataset từ file"""
    train_dataset = Dataset.load_from_disk(train_path)
    val_dataset = Dataset.load_from_disk(val_path)
    return train_dataset, val_dataset

In [None]:
import sys
from tqdm import tqdm
import matplotlib.pyplot as plt
from torch.utils.tensorboard import SummaryWriter

In [None]:
import torch.nn.functional as F
def train(train_df, val_df, args):
    # Đường dẫn lưu file
    train_path = '/kaggle/working/train_dataset_processed'
    val_path = '/kaggle/working/validation_dataset_processed'
    
    # Tạo thư mục để lưu mô hình
    os.makedirs(args.output_dir, exist_ok=True)
    os.makedirs(train_path, exist_ok=True)    
    os.makedirs(val_path, exist_ok=True)
    writer = SummaryWriter(log_dir=args.output_dir)
    
    #     # Chuyển DataFrame thành Dataset
#     train_dataset, val_dataset = convert_to_datasets(train_df, val_df)

#     # Tiền xử lý dữ liệu
#     train_dataset, val_dataset = preprocess_datasets(train_dataset, val_dataset, tokenizer, args)

#     # Lưu Dataset thành file
#     save_datasets(train_dataset, val_dataset, train_path, val_path)

    # Tải Dataset từ file
    train_dataset, val_dataset = load_datasets(train_path, val_path)

    # Đặt định dạng dữ liệu cho PyTorch
    train_dataset.set_format("torch")
    val_dataset.set_format("torch")

    # Tạo DataLoader cho tập huấn luyện và tập validation
    train_dataloader = DataLoader(
        train_dataset,
        shuffle=True,
        collate_fn=custom_collate_fn,
        batch_size=args.batch_size,
        num_workers=0,
        pin_memory=True
    )
    eval_dataloader = DataLoader(
        val_dataset,
        collate_fn=custom_collate_fn,
        batch_size=args.batch_size,
        num_workers=0,
        pin_memory=True
    )

    # Di chuyển mô hình đến thiết bị
    model.to(device)

    # Khởi tạo optimizer và scheduler
    optimizer = AdamW(model.parameters(), lr=args.lr)
    num_update_steps_per_epoch = len(train_dataloader)
    num_training_steps = args.epochs * num_update_steps_per_epoch

    lr_scheduler = get_scheduler(
        args.scheduler,
        optimizer=optimizer,
        num_warmup_steps=0,
        num_training_steps=num_training_steps,
    )

    # Kiểm tra checkpoint và tải nếu có
    checkpoint_path = os.path.join(args.output_dir, 'checkpoint3.pth')
    start_epoch = 0
    best_loss = float('inf')  # Đặt giá trị tốt nhất ban đầu là vô cực

    if os.path.exists(checkpoint_path):
        print(f"Loading checkpoint from {checkpoint_path}...")
        checkpoint = torch.load(checkpoint_path)
        model.load_state_dict(checkpoint['model_state_dict'])
        optimizer.load_state_dict(checkpoint['optimizer_state_dict'])
        lr_scheduler.load_state_dict(checkpoint['scheduler_state_dict'])
        start_epoch = checkpoint['epoch'] + 1
        best_loss = checkpoint['best_loss']
        print(f"Checkpoint loaded. Resuming from epoch {start_epoch}")

    scaler = torch.amp.GradScaler('cuda')
    # Gradient Accumulation Steps
    accumulation_steps = args.accumulation_steps

    # Huấn luyện mô hình
    progress_bar = tqdm(total=num_training_steps, desc="Training Progress", unit="batch")

   # Huấn luyện mô hình
    for epoch in range(start_epoch, args.epochs):
        model.train()
        optimizer.zero_grad()

        # Hiển thị thông báo cho mỗi epoch
        print(f"Epoch {epoch + 1}/{args.epochs}")
        for step, batch in enumerate(train_dataloader):
            offset_mapping = batch.pop('offset_mapping', None)

            # Di chuyển dữ liệu đến thiết bị đúng
            batch = {k: v.to(device) for k, v in batch.items() if k not in ['token_type_ids', 'example_id']}

            vocab_size = model.get_input_embeddings().num_embeddings
            out_of_vocab_mask = batch['input_ids'] >= vocab_size

            if tokenizer.unk_token_id is None:
                tokenizer.add_special_tokens({'unk_token': '[UNK]'})
                unk_token_id = tokenizer.unk_token_id
                if unk_token_id is None:
                    unk_token_id = tokenizer.pad_token_id
            else:
                unk_token_id = tokenizer.unk_token_id

            if out_of_vocab_mask.any():
                batch['input_ids'] = torch.where(out_of_vocab_mask, torch.full_like(batch['input_ids'], unk_token_id), batch['input_ids'])

            # Mixed precision training
            with torch.amp.autocast('cuda'):
                outputs = model(**batch)
                loss = outputs.loss

            # Scale loss and backward pass
            loss = loss / accumulation_steps
            scaler.scale(loss.mean()).backward()

            # Chỉ cập nhật optimizer sau mỗi accumulation_steps
            if (step + 1) % accumulation_steps == 0 or (step + 1) == len(train_dataloader):
                scaler.step(optimizer)
                scaler.update()
                lr_scheduler.step()
                optimizer.zero_grad()

            progress_bar.update(1)

        torch.cuda.empty_cache()

        # Đánh giá mô hình sau mỗi epoch
        model.eval()
        total_loss = 0.0
        correct = 0
        total = 0
        criterion = torch.nn.CrossEntropyLoss()

        for batch in eval_dataloader:
            offset_mapping = batch.pop('offset_mapping', None)
            batch = {k: v.to(device) for k, v in batch.items() if k not in ['token_type_ids', 'example_id']}

            with torch.no_grad():
                outputs = model(**batch)

            start_logits = outputs.start_logits
            end_logits = outputs.end_logits
            start_preds = torch.argmax(outputs.start_logits, dim=-1)
            end_preds = torch.argmax(outputs.end_logits, dim=-1)

            start_loss = criterion(start_logits, batch['start_positions'])
            end_loss = criterion(end_logits, batch['end_positions'])
            loss = (start_loss + end_loss) / 2

            total_loss += loss.item()
            # Tính độ chính xác
            correct += ((start_preds == batch['start_positions']).sum().item() + 
                        (end_preds == batch['end_positions']).sum().item())
            total += 2 * len(batch['start_positions'])

        avg_loss = total_loss / len(eval_dataloader)
        accuracy = correct / total
        writer.add_scalar("Loss/Train", train_loss, epoch)
        writer.add_scalar("Loss/Validation", avg_loss, epoch)
        writer.add_scalar("Accuracy/Validation", accuracy, epoch)
        print(f"Epoch {epoch}: Average Loss = {avg_loss}")

        # Lưu mô hình nếu loss giảm
        if avg_loss < best_loss:
            print(f"Saving model to {args.output_dir} with loss = {avg_loss}...")
            model.save_pretrained(args.output_dir)
            optimizer_state = optimizer.state_dict()
            lr_scheduler_state = lr_scheduler.state_dict()
            torch.save({
                'epoch': epoch,
                'model_state_dict': model.state_dict(),
                'optimizer_state_dict': optimizer_state,
                'scheduler_state_dict': lr_scheduler_state,
                'best_loss': best_loss,
            }, checkpoint_path)
            print("Finished saving.")
            best_loss = avg_loss

    writer.close()
            



## 10. Define class Args

In [None]:
class Args:
    def __init__(self):
        self.pretrained_model = 'vinai/bartpho-word-base'  # Có thể thử mô hình nhỏ hơn nếu cần hoặc vinai/bartpho-syllable, vinai/bartpho-word-base
        self.max_length = 512  # Giảm độ dài tối đa của chuỗi
        self.stride = 256  # Tăng stride để giảm chồng lấp giữa các phần chuỗi
        self.batch_size = 32  # Tăng batch size nếu GPU có đủ bộ nhớ
        self.accumulation_steps = 2  # Giảm số bước tích lũy gradient
        self.lr = 2e-5 # Tăng tốc độ học
        self.epochs =5  # Giữ nguyên hoặc giảm nếu đã đạt hiệu suất tốt
        self.scheduler = 'linear'  # Thử scheduler nhẹ hơn
        self.metric = 'squad'
        self.output_dir = '/kaggle/working/model/fine_tuned_bartpho1'
        self.device = 'cuda' if torch.cuda.is_available() else 'cpu'

# Instantiate args
args = Args()

## 11. Run

In [None]:
#What is the relation between# Call the training function
# train(train_df, val_df, args)
train(train_df, val_df, args)


## 12. Save Trained Model

In [None]:
# Lưu mô hình sau khi fine-tuning
model.save_pretrained('/kaggle/working/model/fine_tuned_bartpho1')
tokenizer.save_pretrained('/kaggle/working/model/fine_tuned_bartpho1')

## 13. Testing the Model

In [None]:
test_questions = [
    "Phẫu thuật ung thư lưỡi là gì?"
]

test_contexts = [
    "Phẫu thuật ung thư lưỡi được hiểu là phương pháp phẫu thuật cắt bỏ lưỡi của người bệnh. Một số người chỉ cần cắt bỏ một phần lưỡi nhưng nhiều trường hợp phải cắt bỏ toàn bộ lưỡi. Phương pháp này thường được sử dụng nhiều nhất để điều trị ung thư lưỡi. Tuy nhiên, nhiều trường hợp phẫu thuật lưỡi để điều trị chứng ngưng thở do tắc nghẽn và lưỡi to."
]


In [None]:
!pip install underthesea -q

In [None]:
# from underthesea import word_tokenize

# def remove_duplicates(segmented_contexts):
#     """Loại bỏ các từ trùng lặp trong segmented_contexts."""
#     unique_segmented_contexts = []
#     for context in segmented_contexts:
#         unique_words = list(set(context))  # Convert to set to remove duplicates, then back to list
#         unique_segmented_contexts.append(unique_words)
#     return unique_segmented_contexts

# # Original code to create segmented_contexts (assuming it's in your code)
# segmented_contexts = []
# for context in test_contexts:
#     segmented_text = word_tokenize(context)  # Segment the text
#     # Remove spaces and keep only words
#     words_only = [word for word in segmented_text if word.strip()]
#     segmented_contexts.append(words_only)

# # Call the function to remove duplicates
# segmented_contexts = remove_duplicates(segmented_contexts)
# print(segmented_contexts)

In [None]:
# # Add words from segmented_contexts to the tokenizer
# new_tokens = []
# for context_words in segmented_contexts:
#     new_tokens.extend(context_words)

# # Get unique new tokens and add them to the tokenizer
# unique_new_tokens = list(set(new_tokens))
# tokenizer.add_tokens(unique_new_tokens)

# # Resize the token embeddings
# model.resize_token_embeddings(len(tokenizer))

In [None]:
# Tokenize câu hỏi và bối cảnh
inputs = tokenizer(
    test_questions,
    test_contexts,
    return_tensors='pt',
    padding=True,
    truncation=True,
    max_length=512
)
inputs = {key: value.to(device) for key, value in inputs.items() if key not in ['token_type_ids']}  # Lọc bỏ các key không mong muốn

# Sinh ra dự đoán từ mô hình
model.to(device)
model.eval()
with torch.no_grad():
    outputs = model(**inputs)

# Lấy logits dự đoán vị trí bắt đầu và kết thúc
start_logits = outputs.start_logits
end_logits = outputs.end_logits

# Chuyển đổi logits thành xác suất
start_probs = torch.softmax(start_logits, dim=1)
end_probs = torch.softmax(end_logits, dim=1)

# Lấy vị trí có xác suất cao nhất
start_idx = torch.argmax(start_probs, dim=1).item()
end_idx = torch.argmax(end_probs, dim=1).item()

# Trích xuất câu trả lời từ context dựa trên vị trí dự đoán
answer_tokens = inputs['input_ids'][0][start_idx:end_idx + 1]

# Giải mã các token
answer = tokenizer.convert_ids_to_tokens(answer_tokens.tolist())  # Chuyển đổi ID thành token

# Thêm dấu </w> vào cuối mỗi token nếu chưa có
answer_with_w = [token + '</w>' if not token.endswith('</w>') else token for token in answer]

# Kết hợp các token thành chuỗi câu trả lời
answer_str = ''.join(answer_with_w)

# Thay thế </w> bằng khoảng trắng cho việc in ra
formatted_answer = answer_str.replace('</w>', ' ')

# Giải mã các dự đoán
print(f"Question: {test_questions[0]}")
print(f"Answer: {formatted_answer.strip()}")


## Evaluate

In [None]:
# Chuẩn bị dữ liệu
test_df = val_df.tail(100)
test_questions = test_df['Question'].tolist()
test_contexts = test_df['Detailed Content'].tolist()
test_answers = test_df['Answer'].tolist()  # Đây là đáp án đúng để so sánh

actual, predicted = {}, {}

In [None]:
# Đưa mô hình về chế độ đánh giá
model.to(device)
model.eval()

# Xử lý từng câu hỏi trong tập kiểm tra
for idx in range(len(test_questions)):
    # Tokenize câu hỏi và bối cảnh cho từng câu hỏi
    inputs = tokenizer(
        test_questions[idx],
        test_contexts[idx],
        return_tensors='pt',
        padding=True,
        truncation=True,
        max_length=512
    )
    inputs = {key: value.to(device) for key, value in inputs.items() if key not in ['token_type_ids']}

    # Dự đoán câu trả lời
    with torch.no_grad():
        outputs = model(**inputs)

    # Lấy logits dự đoán vị trí bắt đầu và kết thúc
    start_logits = outputs.start_logits
    end_logits = outputs.end_logits

    # Chuyển đổi logits thành xác suất
    start_probs = torch.softmax(start_logits, dim=1)
    end_probs = torch.softmax(end_logits, dim=1)

    # Lấy vị trí có xác suất cao nhất cho câu hỏi hiện tại
    start_idx = torch.argmax(start_probs[0], dim=0).item()
    end_idx = torch.argmax(end_probs[0], dim=0).item()

    # Trích xuất câu trả lời từ context dựa trên vị trí dự đoán
    answer_tokens = inputs['input_ids'][0][start_idx:end_idx + 1]

    # Giải mã các token
    answer = tokenizer.convert_ids_to_tokens(answer_tokens.tolist())

    # Thêm dấu </w> vào cuối mỗi token nếu chưa có
    answer_with_w = [token + '</w>' if not token.endswith('</w>') else token for token in answer]

    # Kết hợp các token thành chuỗi câu trả lời
    answer_str = ''.join(answer_with_w)

    # Thay thế </w> bằng khoảng trắng cho việc in ra
    formatted_answer = answer_str.replace('</w>', ' ').strip()

    # Lưu câu trả lời thực tế và dự đoán vào từ điển
    actual[idx] = test_answers[idx]  # Lấy câu trả lời đúng từ tập kiểm tra
    predicted[idx] = formatted_answer
    # # In kết quả câu hỏi và câu trả lời (tuỳ chọn)
    # print(f"Question: {test_questions[idx]}")
    # print(f"Actual Answer: {test_answers[idx]}")
    # print(f"Predicted Answer: {formatted_answer}")

In [None]:
!pip install rouge_score -q

In [None]:
from nltk.translate.bleu_score import corpus_bleu
from rouge_score import rouge_scorer

# Rouge and Blue

In [None]:
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
# import torch

# Hàm tính điểm ROUGE và BLEU cho câu trả lời dự đoán
def evaluate_predictions(test_questions, test_contexts, true_answers, model, tokenizer, device):
    rouge = rouge_scorer.RougeScorer(['rouge1', 'rouge2', 'rougeL'], use_stemmer=True)  # Đổi tên biến thành `rouge` để tránh xung đột
    smooth_fn = SmoothingFunction().method4  # Smooth cho BLEU khi có n-grams nhỏ

    rouge_scores = {'rouge1': 0, 'rouge2': 0, 'rougeL': 0}
    bleu_scores = []

    # Duyệt qua tất cả các câu hỏi, ngữ cảnh và câu trả lời
    for idx, (question, context, true_answer) in enumerate(zip(test_questions, test_contexts, true_answers)):
        # Tokenize câu hỏi và ngữ cảnh
        inputs = tokenizer(question, context, return_tensors='pt', padding=True, truncation=True, max_length=512)
        inputs = {key: value.to(device) for key, value in inputs.items() if key not in ['token_type_ids']}

        # Sinh ra dự đoán từ mô hình
        model.to(device)
        model.eval()
        with torch.no_grad():
            outputs = model(**inputs)

        # Lấy logits dự đoán vị trí bắt đầu và kết thúc
        start_logits = outputs.start_logits
        end_logits = outputs.end_logits

        # Chuyển đổi logits thành xác suất
        start_probs = torch.softmax(start_logits, dim=1)
        end_probs = torch.softmax(end_logits, dim=1)

        # Lấy vị trí có xác suất cao nhất
        start_idx = torch.argmax(start_probs, dim=1).item()
        end_idx = torch.argmax(end_probs, dim=1).item()

        # Trích xuất câu trả lời từ context dựa trên vị trí dự đoán
        answer_tokens = inputs['input_ids'][0][start_idx:end_idx+1]

        # Giải mã các token
        predicted_answer_tokens = tokenizer.convert_ids_to_tokens(answer_tokens.tolist())

        # Thêm dấu </w> vào cuối mỗi token nếu chưa có
        answer_with_w = [token + '</w>' if not token.endswith('</w>') else token for token in predicted_answer_tokens]

        # Kết hợp các token thành chuỗi câu trả lời
        predicted_answer = ''.join(answer_with_w)

        # Thay thế </w> bằng khoảng trắng cho việc tính toán
        predicted_answer_cleaned = predicted_answer.replace('</w>', ' ').strip()
#         print(predicted_answer_cleaned)

        # Tính ROUGE
        rouge_score = rouge.score(true_answer, predicted_answer_cleaned)
        rouge_scores['rouge1'] += rouge_score['rouge1'].fmeasure
        rouge_scores['rouge2'] += rouge_score['rouge2'].fmeasure
        rouge_scores['rougeL'] += rouge_score['rougeL'].fmeasure

        # Tính BLEU
        reference = [true_answer.split()]
        candidate = predicted_answer_cleaned.split()
        bleu = sentence_bleu(reference, candidate, smoothing_function=smooth_fn)
        bleu_scores.append(bleu)

    # Tính điểm trung bình của ROUGE và BLEU
    num_examples = len(test_questions)
    avg_rouge_scores = {key: value / num_examples for key, value in rouge_scores.items()}
    avg_bleu_score = sum(bleu_scores) / num_examples

    return avg_rouge_scores, avg_bleu_score

# Ví dụ với tập dữ liệu test (ví dụ: val_df['Question'], val_df['Detailed Content'], val_df['Answer'])
test_questions = val_df['Question'].tolist()
test_contexts = val_df['Detailed Content'].tolist()
true_answers = val_df['Answer'].tolist()

# Áp dụng hàm để tính ROUGE và BLEU trên nhiều câu hỏi và ngữ cảnh
avg_rouge, avg_bleu = evaluate_predictions(test_questions, test_contexts, true_answers, model, tokenizer, device)

# In ra kết quả tổng quan
print(f"Average ROUGE scores: {avg_rouge}")
print(f"Average BLEU score: {avg_bleu}")


In [None]:
# Use AutoTokenizer to ensure compatibility with BARTPho
model = AutoModelForQuestionAnswering.from_pretrained('/kaggle/working/model/fine_tuned_bartpho1')
tokenizer = PreTrainedTokenizerFast.from_pretrained('/kaggle/working/model/fine_tuned_bartpho1')