In [1]:
# ==============================================================================
# 1. CÀI ĐẶT MÔI TRƯỜNG VÀ IMPORT THƯ VIỆN
# ==============================================================================

# Cài đặt các thư viện cần thiết cho Large Language Model (LLM) và đánh giá
# - transformers: Thư viện chính để làm việc với các model HuggingFace.
# - peft: Parameter-Efficient Fine-Tuning (để load LoRA adapter nhẹ hơn).
# - bitsandbytes: Hỗ trợ lượng tử hóa (quantization) model xuống 4-bit/8-bit để chạy trên GPU thường.
# - accelerate: Tối ưu hóa việc chạy model trên phần cứng (GPU/CPU).
# - evaluate, rouge_score, bert_score: Các thư viện dùng để chấm điểm tóm tắt.
!pip install -q -U transformers peft bitsandbytes accelerate
!pip install -q -U evaluate rouge_score bert_score
!pip install -q matplotlib seaborn

import torch
import json
import pandas as pd
import numpy as np
import evaluate
import matplotlib.pyplot as plt
import seaborn as sns
from tqdm import tqdm
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
from peft import PeftModel
from huggingface_hub import login

# Cấu hình hiển thị pandas để xem được toàn bộ nội dung văn bản dài
pd.set_option('display.max_colwidth', None)
print("--> Đã cài đặt xong thư viện!")

[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.0/44.0 kB[0m [31m1.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.0/12.0 MB[0m [31m98.1 MB/s[0m eta [36m0:00:00[0m:00:01[0m:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m556.4/556.4 kB[0m [31m38.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m59.4/59.4 MB[0m [31m34.0 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m380.9/380.9 kB[0m [31m31.9 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.3/3.3 MB[0m [31m42.6 MB/s[0m eta [36m0:00:00[0m:00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m363.4/363.4 MB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m:00:01[0m00:01[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.8/13.8 MB[0m [31m104.0 MB/s[0m

2025-11-26 06:44:25.053993: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1764139465.240668      47 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1764139465.293183      47 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered


AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'

AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'

AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'

AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'

AttributeError: 'MessageFactory' object has no attribute 'GetPrototype'

--> Đã cài đặt xong thư viện!


In [2]:
# ==============================================================================
# 2. XÁC THỰC NGƯỜI DÙNG HUGGING FACE
# ==============================================================================

# --- CẤU HÌNH TOKEN ---
# LƯU Ý BẢO MẬT: Không nên hardcode token trực tiếp nếu chia sẻ file công khai.
# Hãy sử dụng Kaggle Secrets hoặc biến môi trường trong dự án thực tế.
MY_TOKEN = "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" 

# Đăng nhập để có quyền truy cập vào các model (đặc biệt là Llama 3 cần xin quyền)
login(token=MY_TOKEN)

In [3]:
# ==============================================================================
# 3. TẢI MODEL VÀ CẤU HÌNH LƯỢNG TỬ HÓA (QUANTIZATION)
# ==============================================================================

# Định nghĩa ID của model gốc và model đã tinh chỉnh (Adapter)
base_model_id = "meta-llama/Meta-Llama-3.1-8B"
adapter_id = "calmm-m/news-summarization"

# 1. Cấu hình 4-bit (BitsAndBytesConfig)
# Mục đích: Giảm dung lượng VRAM cần thiết để chạy được model 8B trên GPU T4 của Kaggle.
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,                   # Kích hoạt load 4-bit
    bnb_4bit_use_double_quant=True,      # Lượng tử hóa kép để tiết kiệm thêm bộ nhớ
    bnb_4bit_quant_type="nf4",           # Dùng kiểu dữ liệu Normal Float 4 (tối ưu cho trọng số model)
    bnb_4bit_compute_dtype=torch.float16 # Tính toán bằng float16 để tăng tốc độ
)

# 2. Tải Tokenizer
# Tokenizer giúp chuyển văn bản thành các con số (tokens) mà model hiểu được.
print("Đang tải Tokenizer...")
tokenizer = AutoTokenizer.from_pretrained(base_model_id)
tokenizer.pad_token = tokenizer.eos_token # Thiết lập pad_token bằng eos_token để tránh lỗi padding

# 3. Tải Base Model
print("Đang tải Base Model...")
base_model = AutoModelForCausalLM.from_pretrained(
    base_model_id,
    quantization_config=bnb_config, # Áp dụng cấu hình 4-bit đã định nghĩa
    device_map="auto"               # Tự động phân bổ layer model vào GPU/CPU
)

# 4. Tải Adapter (Fine-tuned)
# PeftModel giúp ghép nối các trọng số LoRA (Adapter) vào model gốc mà không cần train lại toàn bộ.
print("Đang nạp Adapter (Fine-tuned)...")
ft_model = PeftModel.from_pretrained(base_model, adapter_id)

print("--> HOÀN TẤT: Đã tải xong cả 2 mô hình!")

Đang tải Tokenizer...


tokenizer_config.json:   0%|          | 0.00/50.5k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/73.0 [00:00<?, ?B/s]

Đang tải Base Model...


config.json:   0%|          | 0.00/826 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Fetching 4 files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/185 [00:00<?, ?B/s]

Đang nạp Adapter (Fine-tuned)...


adapter_config.json: 0.00B [00:00, ?B/s]

adapter_model.safetensors:   0%|          | 0.00/27.3M [00:00<?, ?B/s]

--> HOÀN TẤT: Đã tải xong cả 2 mô hình!


In [4]:
# ==============================================================================
# 4. HÀM SINH VĂN BẢN (INFERENCE)
# ==============================================================================

def generate_smart(model, text):
    """
    Thực hiện sinh văn bản tóm tắt dựa trên model và đầu vào được cung cấp.
    Hàm này tự động phát hiện ngôn ngữ để chọn Prompt template phù hợp.

    Args:
        model (AutoModelForCausalLM): Mô hình ngôn ngữ (Base hoặc đã gắn Adapter).
        text (str): Văn bản gốc cần tóm tắt.

    Returns:
        str: Văn bản tóm tắt do mô hình sinh ra (đã loại bỏ phần prompt).
    """
    
    # 1. Phát hiện ngôn ngữ để chọn Prompt phù hợp
    # Kiểm tra sự xuất hiện của các ký tự đặc trưng tiếng Việt
    vietnamese_chars = "àáạảãâầấậẩẫăằắặẳẵèéẹẻẽêềếệểễìíịỉĩòóọỏõôồốộổỗơờớợởỡùúụủũưừứựửữỳýỵỷỹđ"
    is_vietnamese = any(char in text.lower() for char in vietnamese_chars)
    
    # Cấu trúc Prompt (Zero-shot prompting)
    if is_vietnamese:
        prompt = f"Hãy tóm tắt nội dung văn bản sau một cách ngắn gọn:\n\n{text}\n\nTóm tắt:"
        split_token = "Tóm tắt:"
    else:
        prompt = f"Summarize the following text concisely:\n\n{text}\n\nSummary:"
        split_token = "Summary:"
        
    # 2. Mã hóa đầu vào và đưa lên GPU
    inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
    
    # 3. Sinh văn bản (Generation)
    with torch.no_grad(): # Tắt tính toán gradient để tiết kiệm bộ nhớ khi inference
        outputs = model.generate(
            **inputs, 
            max_new_tokens=150,      # Giới hạn độ dài tóm tắt tối đa
            do_sample=True,          # Sử dụng sampling thay vì greedy search để văn bản tự nhiên hơn
            temperature=0.4,         # Nhiệt độ thấp (0.4) giúp model tập trung vào thông tin chính xác, bớt sáng tạo/bịa đặt
            top_p=0.9,               # Nucleus sampling: chỉ xét tập từ có xác suất tích lũy top 90%
            repetition_penalty=1.2,  # Phạt nặng các từ lặp lại -> Giúp câu văn trôi chảy, tránh lặp vòng lặp
            pad_token_id=tokenizer.eos_token_id
        )
    
    # 4. Giải mã kết quả (Decode)
    # Chuyển đổi tensor output trở lại thành chuỗi văn bản
    result = tokenizer.decode(outputs[0], skip_special_tokens=True)
    
    # 5. Hậu xử lý (Post-processing)
    # Cắt bỏ phần Prompt ban đầu, chỉ lấy phần nội dung model sinh ra sau 'split_token'
    if split_token in result:
        return result.split(split_token)[-1].strip()
    return result

In [5]:
# ==============================================================================
# 5. ĐỌC DỮ LIỆU VÀ CHẠY THỬ NGHIỆM
# ==============================================================================

# --- CẤU HÌNH INPUT ---
INPUT_FILE = '/kaggle/input/datanew/train_data.jsonl' # Đường dẫn file dữ liệu
NUM_SAMPLES = 100  # Số lượng mẫu thử nghiệm (giới hạn để tiết kiệm thời gian chạy)

def get_valid_text(value):
    """
    Hàm phụ trợ để trích xuất văn bản an toàn từ dữ liệu JSON.
    Xử lý trường hợp dữ liệu có thể là list hoặc string.
    """
    if isinstance(value, list) and len(value) > 0:
        return value[0]
    if isinstance(value, str):
        return value
    return None

def load_data_flexible(file_path):
    """
    Đọc dữ liệu từ file JSON hoặc JSONL một cách linh hoạt.
    
    Hàm này xử lý vấn đề định dạng file không nhất quán:
    1. Thử đọc như một file JSON chuẩn (toàn bộ file là 1 list).
    2. Nếu lỗi, thử đọc từng dòng (JSON Lines).

    Args:
        file_path (str): Đường dẫn tới file dữ liệu.

    Returns:
        list: Danh sách các object dữ liệu đã đọc được.
    """
    data = []
    try:
        with open(file_path, 'r', encoding='utf-8') as f:
            # CÁCH 1: Thử đọc kiểu JSON chuẩn (Standard JSON)
            try:
                data = json.load(f)
                print("-> Đã đọc file theo định dạng JSON chuẩn (List).")
            except json.JSONDecodeError:
                # CÁCH 2: Nếu lỗi, chuyển sang đọc kiểu JSON Lines (từng dòng là 1 json object)
                print("-> JSON chuẩn bị lỗi, đang chuyển sang đọc kiểu JSON Lines (từng dòng)...")
                f.seek(0) # Quan trọng: Quay lại đầu file để đọc lại từ đầu
                for line in f:
                    line = line.strip()
                    if line:
                        try:
                            obj = json.loads(line)
                            data.append(obj)
                        except:
                            continue # Bỏ qua dòng bị lỗi format
    except FileNotFoundError:
        print(f"Lỗi: Không tìm thấy file tại {file_path}")
        return []
    
    return data

# 1. Bắt đầu đọc file
data = load_data_flexible(INPUT_FILE)

# Cắt dữ liệu lấy n mẫu đầu tiên
if NUM_SAMPLES and len(data) > 0:
    data = data[:NUM_SAMPLES]

results = []
print(f"--> Bắt đầu chạy trên {len(data)} mẫu dữ liệu...")

if len(data) == 0:
    print("CẢNH BÁO: Không đọc được dữ liệu nào! Hãy kiểm tra lại file input.")
else:
    # 2. Vòng lặp chạy tóm tắt (Sử dụng tqdm để hiển thị thanh tiến trình)
    for item in tqdm(data):
        # Trích xuất dữ liệu: 
        # - 'completion': văn bản gốc cần tóm tắt
        # - 'prompt': bản tóm tắt mẫu (ground truth)
        original_text = get_valid_text(item.get('completion'))
        reference_sum = get_valid_text(item.get('prompt'))
        
        # Bỏ qua nếu dữ liệu bị thiếu hoặc rỗng
        if not original_text or not reference_sum:
            continue
            
        # Chạy inference trên cả 2 mô hình để so sánh
        pred_base = generate_smart(base_model, original_text)
        pred_ft = generate_smart(ft_model, original_text)
        
        results.append({
            "Input Text": original_text,
            "Reference": reference_sum,
            "Base Model": pred_base,
            "Fine-tuned Model": pred_ft
        })

    # 3. Tạo DataFrame và lưu kết quả tạm ra file CSV
    df = pd.DataFrame(results)
    df.to_csv("ket_qua_tho.csv", index=False, encoding='utf-8-sig')
    print("Đã chạy xong và lưu file 'ket_qua_tho.csv'")

-> JSON chuẩn bị lỗi, đang chuyển sang đọc kiểu JSON Lines (từng dòng)...
--> Bắt đầu chạy trên 100 mẫu dữ liệu...


100%|██████████| 100/100 [55:17<00:00, 33.18s/it]

Đã chạy xong và lưu file 'ket_qua_tho.csv'





In [6]:
# ==============================================================================
# 6. ĐÁNH GIÁ VÀ TÍNH ĐIỂM (METRICS CALCULATION)
# ==============================================================================

# 1. Lọc sạch dữ liệu
# Loại bỏ các dòng mà model sinh ra chuỗi rỗng hoặc dữ liệu tham chiếu bị rỗng
df_clean = df[
    (df["Fine-tuned Model"].str.strip() != "") & 
    (df["Reference"].str.strip() != "")
].copy()

print(f"Số mẫu hợp lệ để chấm điểm: {len(df_clean)}")

if len(df_clean) > 0:
    # 2. Load metrics
    # - ROUGE: Đánh giá dựa trên sự trùng lặp n-gram (từ ngữ).
    # - BERTScore: Đánh giá dựa trên ngữ nghĩa (embedding) dùng model BERT.
    rouge = evaluate.load('rouge')
    bertscore = evaluate.load('bertscore')

    # Chuyển cột DataFrame thành List để đưa vào hàm compute
    preds_base = df_clean["Base Model"].tolist()
    preds_ft = df_clean["Fine-tuned Model"].tolist()
    refs = df_clean["Reference"].tolist()

    # 3. Tính ROUGE Score
    print("Đang tính ROUGE...")
    rouge_base = rouge.compute(predictions=preds_base, references=refs)
    rouge_ft = rouge.compute(predictions=preds_ft, references=refs)

    # 4. Tính BERTScore
    # Lưu ý: lang="vi" để sử dụng mô hình BERT hỗ trợ tiếng Việt
    print("Đang tính BERTScore (Quá trình này có thể mất vài phút)...")
    bert_base = bertscore.compute(predictions=preds_base, references=refs, lang="vi")
    bert_ft = bertscore.compute(predictions=preds_ft, references=refs, lang="vi")

    # 5. In bảng so sánh kết quả
    print("\n" + "="*60)
    print(f"{'METRIC':<15} | {'BASE MODEL':<12} | {'FINE-TUNED':<12} | {'CẢI THIỆN'}")
    print("="*60)
    
    def print_metric(name, val_base, val_ft):
        """Hàm format và in một dòng kết quả so sánh."""
        diff = (val_ft - val_base) * 100 # Tính phần trăm cải thiện
        print(f"{name:<15} | {val_base:.4f}       | {val_ft:.4f}       | {diff:+.1f}%")

    # In các chỉ số ROUGE
    print_metric("ROUGE-1", rouge_base['rouge1'], rouge_ft['rouge1'])
    print_metric("ROUGE-2", rouge_base['rouge2'], rouge_ft['rouge2'])
    print_metric("ROUGE-L", rouge_base['rougeL'], rouge_ft['rougeL'])
    print("-" * 60)
    
    # In chỉ số BERTScore (Lấy trung bình cộng của F1 score trên toàn tập test)
    print_metric("BERTScore (F1)", np.mean(bert_base['f1']), np.mean(bert_ft['f1']))
    print("="*60)
else:
    print("Không có dữ liệu hợp lệ để tính điểm.")

Số mẫu hợp lệ để chấm điểm: 93


Downloading builder script: 0.00B [00:00, ?B/s]

Downloading builder script: 0.00B [00:00, ?B/s]

Đang tính ROUGE...
Đang tính BERTScore...


tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/714M [00:00<?, ?B/s]




METRIC          | BASE MODEL   | FINE-TUNED   | CẢI THIỆN
ROUGE-1         | 0.5095       | 0.5330       | +2.4%
ROUGE-2         | 0.3055       | 0.3140       | +0.9%
ROUGE-L         | 0.3554       | 0.3657       | +1.0%
------------------------------------------------------------
BERTScore (F1)  | 0.7124       | 0.7376       | +2.5%
