# **ENCODER-DECODER VÀ BÀI TOÁN TÓM TẮT VĂN BẢN**


---


Model: ViT5-base + Synthetic Data + LLM Evaluation

Dataset: fcsn37/vietnamese-text-summarization-30k + Gemini synthetic



## **Giới thiệu:**
Encoder-Decoder và bài toán Tóm tắt văn bản:
- Fine-tune mô hình pretrained trên dữ liệu tự thu thập/lấy từ nguồn mở (dataset vietnamese-text-summarization từ Hugging Face).
- Áp dụng data augmentation bằng synthetic data sinh từ LLM mạnh (Gemini 2.5-flash) để tăng cường dataset.
- Đánh giá mô hình bằng metrics truyền thống (ROUGE) và LLM-based evaluation (sử dụng Gemini để chấm điểm coherence, relevance, v.v.).
- So sánh hiệu suất trước/sau augmentation và rút ra nhận xét về tính tổng quát của mô hình.

## **Thiết lập:**

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


#### **Cài đặt thư viện:**

In [None]:
! pip install -q transformers datasets sentencepiece rouge-score accelerate wandb google-generativeai openai underthesea tensorflow openai
! pip install evaluate underthesea

  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.3/8.3 MB[0m [31m91.6 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m978.4/978.4 kB[0m [31m53.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m56.6 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for rouge-score (setup.py) ... [?25l[?25hdone
Collecting evaluate
  Downloading evaluate-0.4.6-py3-none-any.whl.metadata (9.5 kB)
Downloading evaluate-0.4.6-py3-none-any.whl (84 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.1/84.1 kB[0m [31m1.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: evaluate
Successfully installed evaluate-0.4.6


In [None]:
import torch
import os
import evaluate
import numpy as np
import pandas as pd
from openai import OpenAI
import google.generativeai as genai
import wandb
import re
import json
import kagglehub
import underthesea
import matplotlib.pyplot as plt
import time
import random
from datetime import datetime
from huggingface_hub import login, HfApi
from rouge_score import rouge_scorer
from tqdm import tqdm
from datasets import load_dataset, DatasetDict, concatenate_datasets, Dataset
from transformers import (
    AutoTokenizer, AutoModelForSeq2SeqLM,
    Seq2SeqTrainingArguments, Seq2SeqTrainer,
    DataCollatorForSeq2Seq, pipeline,
    TrainerCallback
)
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from underthesea import word_tokenize, text_normalize
from sklearn.model_selection import train_test_split
from google.colab import files

In [None]:
pd.set_option('display.max_colwidth', None)

In [None]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

device(type='cuda')

#### **Kết nối Hugging Face:**

*Truy cập link notebook (được cung cấp) để lấy api/tokens*

In [None]:
# ! hf auth login

#### **Kết nối GenAI API:**

In [None]:
GEMINI_API_KEY = "API_KEYS_PROVIDED"
genai.configure(api_key=GEMINI_API_KEY)

#### **Kết nối WANDB:**

In [None]:
WANDB_PROJECT = "vit5-text-summarization"
WANDB_API_KEY = "WANDB_API_KEYS_PROVIDED"
wandb.login(key=WANDB_API_KEY)

  | |_| | '_ \/ _` / _` |  _/ -_)
[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mfcsn_37[0m ([33mfcsn_37-ton-duc-thang-university[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


True

## **Chuẩn bị dữ liệu:**

1. Load dataset gốc từ Hugging Face ("fcsn37/vietnamese-text-summarization-30k") và stopwords từ file txt.
2. Tiền xử lý: Tokenize input (text) và target (summary) với max_length 1024/128, sử dụng ViT5 tokenizer.
3. Augmentation: Sử dụng Gemini để tạo synthetic data (2 variants per sample, thay đổi diễn đạt nhưng giữ ý nghĩa), xử lý rate limit bằng retry và sleep. Augment 200-1000 samples từ train split.
4. Kết hợp data: Concatenate dataset gốc với augmented, lưu thành dataset mới và push lên Hugging Face ("fcsn37/vietnamese-text-summarization-augmented_dataset").
5. Chia subset: Train (5000 samples), validation/test (200 samples each), shuffle với seed 42.

In [None]:
data = pd.read_csv("hf://datasets/fcsn37/vietnamese-text-summarization/data_summary.csv")
data = data[['Text', 'Summary']]

In [None]:
stopword = pd.read_csv("hf://datasets/fcsn37/vietnamese-stopwords/vietnamese-stopwords.txt", header=None, names=["stopword"])
print(stopword.head())

  stopword
0     a lô
1     a ha
2       ai
3    ai ai
4   ai nấy


### **Tiền xử lý dữ liệu:**

In [None]:
print(data.shape)

(102681, 2)


In [None]:
data = data.sample(n=30000, random_state=42).reset_index(drop=True)
print(data.shape)

(30000, 2)


In [None]:
data.head(1)

Unnamed: 0,Text,Summary
0,"Hiện tại, Bitcoin được giao dịch quanh mốc 40.500 USD. Đêm qua, CEO Tesla Elon Musk chia sẻ trên Twitter rằng hãng sẽ chấp nhận thanh toán bằng Bitcoin trở lại khi những thợ đào sử dụng năng lượng sạch hợp lý. Trước tweet của Musk, giá đồng tiền số này chỉ dao động quanh 35.000 - 36.000 USD. CEO Tesla cũng phủ nhận cáo buộc thao túng thị trường tiền ảo. Tỷ phú Mỹ thông tin ""Tesla chỉ bán khoảng 10% số lượng Bitcoin nắm giữ"" để xác nhận đồng tiền này có tính thanh khoản dễ dàng không cần tác động đến thị trường. Cùng với động thái từ Elon Musk, đà tăng của Bitcoin cũng một phần nhờ phù thủy đầu tư Tudor Jones, nhà sáng lập quỹ quản lý tài sản Tudor Investment. ""Tôi thích Bitcoin như một công cụ để đa dạng hóa danh mục đầu tư. Mọi người hỏi nên làm gì với Bitcoin của mình. Tôi muốn danh mục 5% bằng vàng, 5% bằng Bitcoin, 5% bằng tiền mặt, 5% với hàng hóa"", Tudor Jones chia sẻ với CNBC. Ngay sau chia sẻ này, giá Bitcoin bật tăng 700 USD. Ông nói thêm xem Bitcoin như một câu chuyện về sự giàu có và bảo vệ sự giàu có theo thời gian. Tuần trước, đồng tiền số giá trị nhất thế giới cũng đón các thông tin tích cực như El Salvadol thông qua luật về Bitcoin và trở thành quốc gia công nhận nó như một đồng tiền hợp pháp. Tổng thống nước này tin rằng Bitcoin sẽ giúp thúc đẩy kinh tế, cải thiện tỷ lệ tiếp cận ngân hàng thấp của nước này và tạo điều kiện để chuyển kiều hối về nước mỗi năm nhanh hơn. Diễn biến tích cực của Bitcoin hôm nay cũng kéo thị trường tiền số cùng đi lên khi nhóm 10 đồng tiền số vốn hoá lớn nhất xanh trở lại sau 2 tuần trồi sụt. 24h qua, đồn Ether tăng hơn 8,5%, Dogecoin tăng 7,2%, Litecoin tăng 7,6%, theo Coinmarketcap. Tú Anh (theo CNBC)","Sau gần một ngày Musk nói Tesla có thể lại chấp nhận Bitcoin, đồng tiền này đã tăng gần 13%, lấy lại mốc 40.000 USD."


Error: Runtime no longer has a reference to this dataframe, please re-run this cell and try again.


### **Loại bỏ phần tử rỗng:**

In [None]:
data.drop_duplicates(subset=['Text'],inplace=True)
data.dropna(axis=0,inplace=True)

### **Chuẩn hoá văn bản:**

In [None]:
def text_cleaner(text, num=0):
    # 1. Chuyển toàn bộ văn bản thành chữ thường
    newString = text.lower()
    # 2. Loại bỏ nội dung nằm trong dấu ngoặc tròn ( )
    newString = re.sub(r'\([^)]*\)', '', newString)
    # 3. Xóa dấu ngoặc kép "
    newString = newString.replace('"', '')
    # 4. Loại bỏ dấu câu và ký tự đặc biệt
    # Chỉ giữ lại chữ cái tiếng Việt, chữ số và khoảng trắng
    newString = re.sub(
        r"[^0-9a-zA-Záàảãạăắằẵặẳâấầậẫẩéèẻẽẹêếềểễệ"
        r"íìỉĩịóòỏõọôốồổỗộơớờởỡợúùủũụưứừửữự"
        r"ýỳỷỹỵđ\s]",
        " ",
        newString
    )
    # 5. Chuẩn hóa khoảng trắng thừa
    newString = re.sub(r"\s+", " ", newString).strip()
    # 6. Tách từ bằng underthesea
    tokens = word_tokenize(newString, format="text").split()
    # 7. Loại bỏ stopword
    if num == 0:
        tokens = [w for w in tokens if w not in stopword]
    # 8. Loại bỏ những từ chỉ gồm 1 ký tự
    longwords = [w for w in tokens if len(w) > 1]
    return " ".join(longwords)

In [None]:
cleaned_text = []
for t in data['Text']:
    cleaned_text.append(text_cleaner(t,0))

In [None]:
cleaned_text[:1]

['hiện_tại bitcoin được giao_dịch quanh mốc 40 500 usd đêm qua ceo tesla elon musk chia_sẻ trên twitter rằng hãng sẽ chấp_nhận thanh_toán bằng bitcoin trở_lại khi những thợ đào sử_dụng năng_lượng sạch hợp_lý trước tweet của musk giá đồng_tiền số này chỉ dao_động quanh 35 000 36 000 usd ceo tesla cũng phủ_nhận cáo_buộc thao_túng thị_trường tiền ảo tỷ_phú_mỹ thông_tin tesla chỉ bán khoảng 10 số_lượng bitcoin nắm giữ để xác_nhận đồng_tiền này có tính thanh_khoản dễ_dàng không cần tác_động đến thị_trường cùng với động_thái từ elon musk đà tăng của bitcoin cũng một phần nhờ phù_thủy đầu_tư tudor jones nhà sáng_lập quỹ quản_lý tài_sản tudor investment tôi thích bitcoin như một công_cụ để đa_dạng hóa danh_mục đầu_tư mọi người hỏi nên làm gì với bitcoin của mình tôi muốn danh_mục bằng vàng bằng bitcoin bằng tiền_mặt với hàng hóa tudor jones chia_sẻ với cnbc ngay sau chia_sẻ này giá bitcoin bật tăng 700 usd ông nói thêm xem bitcoin như một câu_chuyện về sự giàu_có và bảo_vệ sự giàu_có theo thời

In [None]:
cleaned_summary = []
for t in data['Summary']:
    cleaned_summary.append(text_cleaner(t,1))

In [None]:
cleaned_summary[:1]

['sau gần một ngày musk nói tesla có_thể lại chấp_nhận bitcoin đồng_tiền này đã tăng gần 13 lấy lại mốc 40 000 usd']

In [None]:
data['cleaned_text']=cleaned_text
data['cleaned_summary']=cleaned_summary

In [None]:
data.head(1)

Unnamed: 0,Text,Summary,cleaned_text,cleaned_summary
0,"Hiện tại, Bitcoin được giao dịch quanh mốc 40.500 USD. Đêm qua, CEO Tesla Elon Musk chia sẻ trên Twitter rằng hãng sẽ chấp nhận thanh toán bằng Bitcoin trở lại khi những thợ đào sử dụng năng lượng sạch hợp lý. Trước tweet của Musk, giá đồng tiền số này chỉ dao động quanh 35.000 - 36.000 USD. CEO Tesla cũng phủ nhận cáo buộc thao túng thị trường tiền ảo. Tỷ phú Mỹ thông tin ""Tesla chỉ bán khoảng 10% số lượng Bitcoin nắm giữ"" để xác nhận đồng tiền này có tính thanh khoản dễ dàng không cần tác động đến thị trường. Cùng với động thái từ Elon Musk, đà tăng của Bitcoin cũng một phần nhờ phù thủy đầu tư Tudor Jones, nhà sáng lập quỹ quản lý tài sản Tudor Investment. ""Tôi thích Bitcoin như một công cụ để đa dạng hóa danh mục đầu tư. Mọi người hỏi nên làm gì với Bitcoin của mình. Tôi muốn danh mục 5% bằng vàng, 5% bằng Bitcoin, 5% bằng tiền mặt, 5% với hàng hóa"", Tudor Jones chia sẻ với CNBC. Ngay sau chia sẻ này, giá Bitcoin bật tăng 700 USD. Ông nói thêm xem Bitcoin như một câu chuyện về sự giàu có và bảo vệ sự giàu có theo thời gian. Tuần trước, đồng tiền số giá trị nhất thế giới cũng đón các thông tin tích cực như El Salvadol thông qua luật về Bitcoin và trở thành quốc gia công nhận nó như một đồng tiền hợp pháp. Tổng thống nước này tin rằng Bitcoin sẽ giúp thúc đẩy kinh tế, cải thiện tỷ lệ tiếp cận ngân hàng thấp của nước này và tạo điều kiện để chuyển kiều hối về nước mỗi năm nhanh hơn. Diễn biến tích cực của Bitcoin hôm nay cũng kéo thị trường tiền số cùng đi lên khi nhóm 10 đồng tiền số vốn hoá lớn nhất xanh trở lại sau 2 tuần trồi sụt. 24h qua, đồn Ether tăng hơn 8,5%, Dogecoin tăng 7,2%, Litecoin tăng 7,6%, theo Coinmarketcap. Tú Anh (theo CNBC)","Sau gần một ngày Musk nói Tesla có thể lại chấp nhận Bitcoin, đồng tiền này đã tăng gần 13%, lấy lại mốc 40.000 USD.",hiện_tại bitcoin được giao_dịch quanh mốc 40 500 usd đêm qua ceo tesla elon musk chia_sẻ trên twitter rằng hãng sẽ chấp_nhận thanh_toán bằng bitcoin trở_lại khi những thợ đào sử_dụng năng_lượng sạch hợp_lý trước tweet của musk giá đồng_tiền số này chỉ dao_động quanh 35 000 36 000 usd ceo tesla cũng phủ_nhận cáo_buộc thao_túng thị_trường tiền ảo tỷ_phú_mỹ thông_tin tesla chỉ bán khoảng 10 số_lượng bitcoin nắm giữ để xác_nhận đồng_tiền này có tính thanh_khoản dễ_dàng không cần tác_động đến thị_trường cùng với động_thái từ elon musk đà tăng của bitcoin cũng một phần nhờ phù_thủy đầu_tư tudor jones nhà sáng_lập quỹ quản_lý tài_sản tudor investment tôi thích bitcoin như một công_cụ để đa_dạng hóa danh_mục đầu_tư mọi người hỏi nên làm gì với bitcoin của mình tôi muốn danh_mục bằng vàng bằng bitcoin bằng tiền_mặt với hàng hóa tudor jones chia_sẻ với cnbc ngay sau chia_sẻ này giá bitcoin bật tăng 700 usd ông nói thêm xem bitcoin như một câu_chuyện về sự giàu_có và bảo_vệ sự giàu_có theo thời_gian tuần trước đồng_tiền số giá_trị nhất thế_giới cũng đón các thông_tin tích_cực như el_salvadol thông_qua luật về bitcoin và trở_thành quốc_gia công_nhận nó như một đồng_tiền hợp_pháp tổng_thống nước này tin rằng bitcoin sẽ giúp thúc_đẩy kinh_tế cải_thiện tỷ_lệ tiếp_cận ngân_hàng thấp của nước này và tạo điều_kiện để chuyển kiều_hối về nước mỗi năm nhanh hơn diễn_biến tích_cực của bitcoin hôm_nay cũng kéo thị_trường tiền số cùng đi lên khi nhóm 10 đồng_tiền số vốn hóa lớn nhất xanh trở_lại sau tuần trồi sụt 24 qua đồn ether tăng hơn dogecoin tăng litecoin tăng theo coinmarketcap tú anh,sau gần một ngày musk nói tesla có_thể lại chấp_nhận bitcoin đồng_tiền này đã tăng gần 13 lấy lại mốc 40 000 usd


### **Lưu lại dữ liệu đã được xử lý**

In [None]:
dataset = data[['cleaned_text', 'cleaned_summary']].copy()

dataset = dataset.rename(columns={
    'cleaned_text': 'text',
    'cleaned_summary': 'summary'
})

hf_dataset = Dataset.from_pandas(dataset, preserve_index=False)
dataset_dict = hf_dataset.train_test_split(test_size=0.2, seed=42)
dataset_dict = DatasetDict({
    'train': dataset_dict['train'],
    'validation': dataset_dict['test'].train_test_split(test_size=0.5, seed=42)['train'],
    'test': dataset_dict['test'].train_test_split(test_size=0.5, seed=42)['test']
})
dataset_dict

DatasetDict({
    train: Dataset({
        features: ['text', 'summary'],
        num_rows: 23435
    })
    validation: Dataset({
        features: ['text', 'summary'],
        num_rows: 2929
    })
    test: Dataset({
        features: ['text', 'summary'],
        num_rows: 2930
    })
})

In [None]:
login(token="API_KEYS_PROVIDED")

In [None]:
# ! hf auth login


    _|    _|  _|    _|    _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|_|_|_|    _|_|      _|_|_|  _|_|_|_|
    _|    _|  _|    _|  _|        _|          _|    _|_|    _|  _|            _|        _|    _|  _|        _|
    _|_|_|_|  _|    _|  _|  _|_|  _|  _|_|    _|    _|  _|  _|  _|  _|_|      _|_|_|    _|_|_|_|  _|        _|_|_|
    _|    _|  _|    _|  _|    _|  _|    _|    _|    _|    _|_|  _|    _|      _|        _|    _|  _|        _|
    _|    _|    _|_|      _|_|_|    _|_|_|  _|_|_|  _|      _|    _|_|_|      _|        _|    _|    _|_|_|  _|_|_|_|

    A token is already saved on your machine. Run `hf auth whoami` to get more information or `hf auth logout` if you want to log out.
    Setting a new token will erase the existing one.
    To log in, `huggingface_hub` requires a token generated from https://huggingface.co/settings/tokens .
Enter your token (input will not be visible): 
Add token as git credential? (Y/n) n
Token is valid (permission: write).
The token `en

In [None]:
# dataset_dict.push_to_hub("fcsn37/vietnamese-text-summarization-30k")

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ? shards/s]

Creating parquet from Arrow format:   0%|          | 0/24 [00:00<?, ?ba/s]

Processing Files (0 / 0)      : |          |  0.00B /  0.00B            

New Data Upload               : |          |  0.00B /  0.00B            

                              :   1%|1         |  525kB / 51.4MB            

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ? shards/s]

Creating parquet from Arrow format:   0%|          | 0/3 [00:00<?, ?ba/s]

Processing Files (0 / 0)      : |          |  0.00B /  0.00B            

New Data Upload               : |          |  0.00B /  0.00B            

                              :  57%|#####6    | 3.67MB / 6.49MB            

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ? shards/s]

Creating parquet from Arrow format:   0%|          | 0/3 [00:00<?, ?ba/s]

Processing Files (0 / 0)      : |          |  0.00B /  0.00B            

New Data Upload               : |          |  0.00B /  0.00B            

                              :  59%|#####9    | 3.67MB / 6.22MB            

CommitInfo(commit_url='https://huggingface.co/datasets/fcsn37/vietnamese-text-summarization-30k/commit/8cac5ef32907722849387378511b96894350cb98', commit_message='Upload dataset', commit_description='', oid='8cac5ef32907722849387378511b96894350cb98', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/fcsn37/vietnamese-text-summarization-30k', endpoint='https://huggingface.co', repo_type='dataset', repo_id='fcsn37/vietnamese-text-summarization-30k'), pr_revision=None, pr_num=None)

### **Tải dữ liệu đã xử lý từ Hugging Face:**

In [None]:
dataset = load_dataset("fcsn37/vietnamese-text-summarization-30k")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


README.md:   0%|          | 0.00/565 [00:00<?, ?B/s]

data/train-00000-of-00001.parquet:   0%|          | 0.00/51.4M [00:00<?, ?B/s]

data/validation-00000-of-00001.parquet:   0%|          | 0.00/6.49M [00:00<?, ?B/s]

data/test-00000-of-00001.parquet:   0%|          | 0.00/6.22M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/23435 [00:00<?, ? examples/s]

Generating validation split:   0%|          | 0/2929 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/2930 [00:00<?, ? examples/s]

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("VietAI/vit5-base")
model     = AutoModelForSeq2SeqLM.from_pretrained("VietAI/vit5-base")

tokenizer_config.json: 0.00B [00:00, ?B/s]

spiece.model:   0%|          | 0.00/820k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json: 0.00B [00:00, ?B/s]

config.json:   0%|          | 0.00/702 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/904M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/904M [00:00<?, ?B/s]

In [None]:
MAX_INPUT_LENGTH  = 1024
MAX_TARGET_LENGTH = 128

def preprocess_function(examples):
    inputs  = examples["text"]
    targets = examples["summary"]

    model_inputs = tokenizer(
        inputs,
        max_length=MAX_INPUT_LENGTH,
        truncation=True,
        padding=False,
    )

    with tokenizer.as_target_tokenizer():
        labels = tokenizer(
            targets,
            max_length=MAX_TARGET_LENGTH,
            truncation=True,
            padding=False,
        )

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

tokenized_datasets = dataset.map(
    preprocess_function,
    batched=True,
    remove_columns=dataset["train"].column_names
)

Map:   0%|          | 0/23435 [00:00<?, ? examples/s]



Map:   0%|          | 0/2929 [00:00<?, ? examples/s]

Map:   0%|          | 0/2930 [00:00<?, ? examples/s]

In [None]:
print(tokenized_datasets)

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 23435
    })
    validation: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 2929
    })
    test: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 2930
    })
})


### **Dữ liệu tổng hợp:**

In [None]:
for m in genai.list_models():
    if 'generateContent' in m.supported_generation_methods:
        print(m.name)

models/gemini-2.5-pro-preview-03-25
models/gemini-2.5-flash
models/gemini-2.5-pro-preview-05-06
models/gemini-2.5-pro-preview-06-05
models/gemini-2.5-pro
models/gemini-2.0-flash-exp
models/gemini-2.0-flash
models/gemini-2.0-flash-001
models/gemini-2.0-flash-exp-image-generation
models/gemini-2.0-flash-lite-001
models/gemini-2.0-flash-lite
models/gemini-2.0-flash-lite-preview-02-05
models/gemini-2.0-flash-lite-preview
models/gemini-2.0-pro-exp
models/gemini-2.0-pro-exp-02-05
models/gemini-exp-1206
models/gemini-2.0-flash-thinking-exp-01-21
models/gemini-2.0-flash-thinking-exp
models/gemini-2.0-flash-thinking-exp-1219
models/gemini-2.5-flash-preview-tts
models/gemini-2.5-pro-preview-tts
models/learnlm-2.0-flash-experimental
models/gemma-3-1b-it
models/gemma-3-4b-it
models/gemma-3-12b-it
models/gemma-3-27b-it
models/gemma-3n-e4b-it
models/gemma-3n-e2b-it
models/gemini-flash-latest
models/gemini-flash-lite-latest
models/gemini-pro-latest
models/gemini-2.5-flash-lite
models/gemini-2.5-flash

In [None]:
gemini_model = genai.GenerativeModel('gemini-2.5-flash')

In [None]:
generation_config = {
    "temperature": 0.7,
    "top_p": 0.95,
    "top_k": 40,
    "max_output_tokens": 2048,
}

safety_settings = [
    {"category": "HARM_CATEGORY_HARASSMENT", "threshold": "BLOCK_MEDIUM_AND_ABOVE"},
    {"category": "HARM_CATEGORY_HATE_SPEECH", "threshold": "BLOCK_MEDIUM_AND_ABOVE"},
    {"category": "HARM_CATEGORY_SEXUALLY_EXPLICIT", "threshold": "BLOCK_MEDIUM_AND_ABOVE"},
    {"category": "HARM_CATEGORY_DANGEROUS_CONTENT", "threshold": "BLOCK_MEDIUM_AND_ABOVE"}
]

In [None]:
def generate_summary_variants(text, summary, num_variants=2, max_retries=3):
    """Tạo các biến thể tóm tắt cho văn bản gốc"""
    prompt = f"""
Bạn là chuyên gia về tóm tắt văn bản tiếng Việt. Tạo {num_variants} biến thể tóm tắt KHÁC NHAU, giữ nguyên ý nghĩa nhưng thay đổi cách diễn đạt.

VĂN BẢN GỐC:
{text}

TÓM TẮT GỐC:
{summary}

YÊU CẦU:
1. Giữ nguyên nội dung chính
2. Thay đổi cách diễn đạt, cấu trúc câu
3. Độ dài tương đương (±20%)
4. Tiếng Việt chuẩn, tự nhiên
5. Trả về JSON: {{"variants": [{{"summary": "..."}}]}}

Tạo {num_variants} biến thể:
"""

    for attempt in range(max_retries):
        try:
            response = gemini_model.generate_content(
                prompt,
                generation_config=generation_config,
                safety_settings=safety_settings
            )

            response_text = response.text.strip()

            if "```json" in response_text:
                json_str = response_text.split("```json")[1].split("```")[0].strip()
            elif "```" in response_text:
                json_str = response_text.split("```")[1].split("```")[0].strip()
            else:
                json_str = response_text

            result = json.loads(json_str)
            variants = []

            for variant in result.get("variants", []):
                variants.append({
                    "text": text,
                    "summary": variant.get("summary", "")
                })

            return variants

        except Exception as e:
            error_msg = str(e)

            # Xử lý rate limit
            if "429" in error_msg or "quota" in error_msg.lower():
                if attempt < max_retries - 1:
                    # Exponential backoff: 60s, 120s, 240s
                    wait_time = 60 * (2 ** attempt)
                    print(f"Rate limit! Chờ {wait_time}s...")
                    time.sleep(wait_time)
                    continue
                else:
                    print(f"Đã hết retry. Bỏ qua mẫu này.")
                    return []
            else:
                print(f"Lỗi: {error_msg}")
                return []

    return []

def augment_dataset(dataset_dict, split='train', num_samples=1000, variants_per_sample=2, delay=2.0):
    """Augment dataset với Gemini - Tự động xử lý rate limit"""
    augmented_data = []

    # Lấy split cụ thể từ DatasetDict
    dataset = dataset_dict[split]

    # Shuffle và lấy mẫu
    dataset_shuffled = dataset.shuffle(seed=42)
    num_samples = min(num_samples, len(dataset))
    samples = dataset_shuffled.select(range(num_samples))

    success_count = 0
    fail_count = 0
    request_count = 0

    for idx, item in enumerate(tqdm(samples, desc="Augmenting")):
        try:
            variants = generate_summary_variants(
                item['text'],
                item['summary'],
                num_variants=variants_per_sample
            )

            if variants:
                augmented_data.extend(variants)
                success_count += 1
                request_count += 1
            else:
                fail_count += 1

            # Sau mỗi 190 requests, chờ 70 giây để tránh vượt quota
            if request_count > 0 and request_count % 190 == 0:
                remaining = num_samples - idx - 1
                if remaining > 0:
                    print(f"\nĐã xử lý {request_count} requests. Chờ 70s để tránh rate limit...")
                    time.sleep(70)

            time.sleep(delay)

        except KeyboardInterrupt:
            print("\nDừng bởi người dùng!")
            break
        except:
            fail_count += 1
            continue

    print(f"\nThành công: {success_count}/{num_samples} |Thất bại: {fail_count}")
    return augmented_data

In [None]:
# augmented_list = augment_dataset(
#     dataset_dict=dataset,
#     split='train',
#     num_samples=200,
#     variants_per_sample=2,
#     delay=2.0
# )

Augmenting:   0%|          | 1/200 [00:10<33:36, 10.13s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:   1%|          | 2/200 [00:23<39:08, 11.86s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:   2%|▎         | 5/200 [00:56<35:26, 10.91s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:   6%|▌         | 11/200 [01:58<32:09, 10.21s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:   6%|▌         | 12/200 [02:11<34:35, 11.04s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:   7%|▋         | 14/200 [02:36<36:22, 11.73s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:   8%|▊         | 15/200 [02:49<36:47, 11.93s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:   8%|▊         | 16/200 [03:01<37:03, 12.08s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:   8%|▊         | 17/200 [03:14<37:08, 12.18s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  10%|▉         | 19/200 [03:36<34:58, 11.59s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  10%|█         | 21/200 [04:00<35:20, 11.85s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  12%|█▏        | 24/200 [04:32<31:29, 10.74s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  13%|█▎        | 26/200 [04:54<31:13, 10.77s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  14%|█▍        | 28/200 [05:15<29:50, 10.41s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  14%|█▍        | 29/200 [05:28<31:34, 11.08s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  15%|█▌        | 30/200 [05:40<32:33, 11.49s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  16%|█▌        | 32/200 [06:02<30:33, 10.91s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  16%|█▋        | 33/200 [06:15<32:02, 11.51s/it]

Lỗi: Unterminated string starting at: line 4 column 18 (char 41)


Augmenting:  18%|█▊        | 35/200 [06:39<32:53, 11.96s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  18%|█▊        | 36/200 [06:52<32:59, 12.07s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  19%|█▉        | 38/200 [07:17<33:01, 12.23s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  20%|█▉        | 39/200 [07:29<32:49, 12.23s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  24%|██▎       | 47/200 [08:51<26:00, 10.20s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  24%|██▍       | 48/200 [09:03<27:17, 10.77s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  26%|██▌       | 52/200 [09:45<25:20, 10.27s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  28%|██▊       | 55/200 [10:20<27:07, 11.23s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  30%|██▉       | 59/200 [11:05<25:44, 10.96s/it]

Lỗi: Unterminated string starting at: line 7 column 18 (char 242)


Augmenting:  30%|███       | 60/200 [11:18<26:48, 11.49s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  30%|███       | 61/200 [11:30<26:49, 11.58s/it]

Lỗi: Unterminated string starting at: line 4 column 18 (char 41)


Augmenting:  31%|███       | 62/200 [11:44<28:04, 12.20s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  32%|███▏      | 63/200 [11:56<27:48, 12.18s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  34%|███▎      | 67/200 [12:37<23:16, 10.50s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  34%|███▍      | 68/200 [12:50<24:32, 11.16s/it]

Lỗi: Expecting ',' delimiter: line 7 column 355 (char 842)


Augmenting:  35%|███▌      | 70/200 [13:12<23:55, 11.04s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  38%|███▊      | 77/200 [14:22<19:52,  9.70s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  40%|███▉      | 79/200 [14:46<21:35, 10.71s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  40%|████      | 81/200 [15:10<22:33, 11.38s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  41%|████      | 82/200 [15:23<23:09, 11.78s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  42%|████▏     | 83/200 [15:36<23:45, 12.19s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  42%|████▏     | 84/200 [15:48<23:30, 12.16s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  42%|████▎     | 85/200 [16:00<23:03, 12.03s/it]

Lỗi: Unterminated string starting at: line 7 column 18 (char 590)


Augmenting:  43%|████▎     | 86/200 [16:13<23:15, 12.24s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  44%|████▍     | 88/200 [16:35<21:35, 11.57s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  44%|████▍     | 89/200 [16:47<21:35, 11.67s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  45%|████▌     | 90/200 [17:00<21:44, 11.86s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  46%|████▌     | 91/200 [17:12<22:04, 12.15s/it]

Lỗi: Unterminated string starting at: line 7 column 18 (char 400)


Augmenting:  46%|████▌     | 92/200 [17:25<22:03, 12.25s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  46%|████▋     | 93/200 [17:38<22:24, 12.57s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  48%|████▊     | 95/200 [18:01<20:41, 11.83s/it]

Lỗi: Unterminated string starting at: line 7 column 18 (char 261)


Augmenting:  48%|████▊     | 97/200 [18:22<18:58, 11.06s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  49%|████▉     | 98/200 [18:35<19:38, 11.55s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  50%|████▉     | 99/200 [18:47<19:44, 11.73s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  51%|█████     | 102/200 [19:21<18:30, 11.34s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  52%|█████▎    | 105/200 [19:52<16:43, 10.56s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  54%|█████▍    | 108/200 [20:25<16:27, 10.73s/it]

Lỗi: Expecting ',' delimiter: line 7 column 457 (char 904)


Augmenting:  55%|█████▌    | 110/200 [20:48<16:15, 10.84s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  56%|█████▌    | 111/200 [21:00<16:57, 11.43s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  56%|█████▌    | 112/200 [21:13<17:25, 11.88s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  57%|█████▋    | 114/200 [21:38<17:17, 12.07s/it]

Lỗi: Expecting ',' delimiter: line 7 column 57 (char 293)


Augmenting:  60%|█████▉    | 119/200 [22:30<14:22, 10.64s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  60%|██████    | 120/200 [22:43<14:59, 11.25s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  61%|██████    | 122/200 [23:07<14:57, 11.51s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  62%|██████▏   | 123/200 [23:19<15:02, 11.71s/it]

Lỗi: Expecting property name enclosed in double quotes: line 6 column 6 (char 235)


Augmenting:  65%|██████▌   | 130/200 [24:30<12:07, 10.40s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  67%|██████▋   | 134/200 [25:15<12:04, 10.97s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  69%|██████▉   | 138/200 [25:57<10:29, 10.16s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  70%|███████   | 140/200 [26:19<10:24, 10.41s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  72%|███████▏  | 143/200 [26:52<09:46, 10.29s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  72%|███████▏  | 144/200 [27:04<10:07, 10.84s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  73%|███████▎  | 146/200 [27:30<10:41, 11.88s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  74%|███████▍  | 149/200 [28:04<09:53, 11.63s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  76%|███████▌  | 152/200 [28:38<08:49, 11.04s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  78%|███████▊  | 156/200 [29:25<08:24, 11.47s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  79%|███████▉  | 158/200 [29:50<08:26, 12.06s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  80%|████████  | 160/200 [30:13<07:53, 11.84s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  81%|████████  | 162/200 [30:38<07:40, 12.12s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  82%|████████▏ | 163/200 [30:51<07:33, 12.26s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  82%|████████▏ | 164/200 [31:03<07:20, 12.25s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  84%|████████▍ | 168/200 [31:48<05:59, 11.24s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  85%|████████▌ | 170/200 [32:10<05:29, 10.97s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  86%|████████▌ | 171/200 [32:22<05:32, 11.48s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  86%|████████▋ | 173/200 [32:47<05:21, 11.89s/it]

Lỗi: Unterminated string starting at: line 4 column 18 (char 41)


Augmenting:  88%|████████▊ | 175/200 [33:11<04:52, 11.71s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  88%|████████▊ | 176/200 [33:23<04:48, 12.01s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  89%|████████▉ | 178/200 [33:46<04:10, 11.39s/it]

Lỗi: Invalid operation: The `response.text` quick accessor requires the response to contain a valid `Part`, but none were returned. The candidate's [finish_reason](https://ai.google.dev/api/generate-content#finishreason) is 2.


Augmenting:  90%|█████████ | 180/200 [34:08<03:42, 11.14s/it]

Lỗi: Expecting value: line 1 column 1 (char 0)




Rate limit! Chờ 60s...




Rate limit! Chờ 120s...




Đã hết retry. Bỏ qua mẫu này.




Rate limit! Chờ 60s...




Rate limit! Chờ 120s...




Đã hết retry. Bỏ qua mẫu này.




Rate limit! Chờ 60s...




Rate limit! Chờ 120s...




Đã hết retry. Bỏ qua mẫu này.




Rate limit! Chờ 60s...




Rate limit! Chờ 120s...




Đã hết retry. Bỏ qua mẫu này.




Rate limit! Chờ 60s...




Rate limit! Chờ 120s...




Đã hết retry. Bỏ qua mẫu này.




Rate limit! Chờ 60s...


Augmenting:  94%|█████████▍| 188/200 [51:01<03:15, 16.28s/it] 


Dừng bởi người dùng!

Thành công: 97/200 |Thất bại: 91





### **Lưu lại dữ liệu đã được tổng hợp:**

In [None]:
# Chuyển thành DataFrame
augmented_df = pd.DataFrame(augmented_list)

print(f"Dataset gốc (train): {len(dataset['train'])} mẫu")
print(f"Dữ liệu augmented: {len(augmented_df)} mẫu")

Dataset gốc (train): 23435 mẫu
Dữ liệu augmented: 194 mẫu


In [None]:
augmented_dataset = Dataset.from_pandas(augmented_df)
# dataset['train'] = concatenate_datasets([dataset['train'], augmented_dataset])

print(f"Dataset train sau augment: {len(dataset['train'])} mẫu")

Dataset train sau augment: 23629 mẫu


In [None]:
print(augmented_dataset)

Dataset({
    features: ['text', 'summary'],
    num_rows: 194
})


In [None]:
# augmented_dataset.push_to_hub("fcsn37/vietnamese-text-summarization-augmented_dataset")

Uploading the dataset shards:   0%|          | 0/1 [00:00<?, ? shards/s]

Creating parquet from Arrow format:   0%|          | 0/1 [00:00<?, ?ba/s]

Processing Files (0 / 0)      : |          |  0.00B /  0.00B            

New Data Upload               : |          |  0.00B /  0.00B            

                              : 100%|##########|  222kB /  222kB            

CommitInfo(commit_url='https://huggingface.co/datasets/fcsn37/vietnamese-text-summarization-augmented_dataset/commit/1fc201926dfe4723587fc79afefd8ae0d94f51e0', commit_message='Upload dataset', commit_description='', oid='1fc201926dfe4723587fc79afefd8ae0d94f51e0', pr_url=None, repo_url=RepoUrl('https://huggingface.co/datasets/fcsn37/vietnamese-text-summarization-augmented_dataset', endpoint='https://huggingface.co', repo_type='dataset', repo_id='fcsn37/vietnamese-text-summarization-augmented_dataset'), pr_revision=None, pr_num=None)

## **Huấn luyện mô hình:**

1. Define hyperparameters: Batch size 4, gradient accumulation 4, LR 3e-5, epochs 3, warmup 100, max_input 256, max_target 64.
2. Sử dụng DataCollatorForSeq2Seq và compute_metrics với ROUGE.
3. Huấn luyện baseline trên data gốc.
4. Huấn luyện augmented trên data kết hợp (gốc + 193 augmented samples).
5. Sử dụng Seq2SeqTrainer với callbacks để push checkpoint lên HF repo.
6. Lưu model final và evaluate trên validation.

In [None]:
MODEL_NAME = "VietAI/vit5-base"
MAX_INPUT_LENGTH = 256
MAX_TARGET_LENGTH = 64

BATCH_SIZE = 4
GRADIENT_ACCUMULATION_STEPS = 4
LEARNING_RATE = 3e-5
NUM_EPOCHS = 3
WARMUP_STEPS = 100

HF_TOKEN = "HF_TOKENS_PROVIDED"
DATASET_NAME = "fcsn37/vietnamese-text-summarization-30k"
AUGMENTED_DATASET = "fcsn37/vietnamese-text-summarization-augmented_dataset"

WANDB_PROJECT = "vit5-text-summarization"
WANDB_API_KEY = "API_KEYS_PROVIDED"

In [None]:
dataset = load_dataset(DATASET_NAME)

train_size = 5000
dataset['train'] = dataset['train'].shuffle(seed=42).select(range(train_size))
dataset['validation'] = dataset['validation'].shuffle(seed=42).select(range(200))
dataset['test'] = dataset['test'].shuffle(seed=42).select(range(200))

In [None]:
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)

def preprocess_function(examples):
    inputs = examples["text"]
    targets = examples["summary"]

    model_inputs = tokenizer(
        inputs,
        max_length=MAX_INPUT_LENGTH,
        truncation=True,
        padding=False,
    )

    with tokenizer.as_target_tokenizer():
        labels = tokenizer(
            targets,
            max_length=MAX_TARGET_LENGTH,
            truncation=True,
            padding=False,
        )

    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

In [None]:
tokenized_datasets = dataset.map(
    preprocess_function,
    batched=True,
    remove_columns=dataset["train"].column_names
)

data_collator = DataCollatorForSeq2Seq(
    tokenizer=tokenizer,
    model=None,
    padding=True
)

Map:   0%|          | 0/5000 [00:00<?, ? examples/s]



In [None]:
rouge = evaluate.load("rouge")

def compute_metrics(eval_pred):
    predictions, labels = eval_pred

    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
    labels = np.where(labels != -100, labels, tokenizer.pad_token_id)
    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)

    decoded_preds = [pred.strip() for pred in decoded_preds]
    decoded_labels = [label.strip() for label in decoded_labels]

    result = rouge.compute(
        predictions=decoded_preds,
        references=decoded_labels,
        use_stemmer=True
    )

    return {k: round(v * 100, 2) for k, v in result.items()}

In [None]:
class SafePushCallback(TrainerCallback):
    def __init__(self, tokenizer, repo_name, hf_token, experiment_name):
        self.tokenizer = tokenizer
        self.repo_name = repo_name
        self.api = HfApi(token=hf_token)
        self.experiment_name = experiment_name

    def on_epoch_end(self, args, state, control, model=None, **kwargs):
        epoch = int(state.epoch)
        checkpoint_name = f"{self.experiment_name}-epoch-{epoch}"
        checkpoint_dir = f"{args.output_dir}/{checkpoint_name}"

        os.makedirs(checkpoint_dir, exist_ok=True)
        model.save_pretrained(checkpoint_dir)
        self.tokenizer.save_pretrained(checkpoint_dir)

        try:
            self.api.upload_folder(
                folder_path=checkpoint_dir,
                repo_id=self.repo_name,
                path_in_repo=checkpoint_name,
                repo_type="model",
                commit_message=f"Checkpoint {checkpoint_name}"
            )
        except Exception as e:
            pass

        return control

In [None]:
def train_model(experiment_name, train_dataset, eval_dataset, repo_name):

    torch.cuda.empty_cache()

    output_dir = f"./results/{experiment_name}"

    model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME)
    model.gradient_checkpointing_enable()

    data_collator = DataCollatorForSeq2Seq(
        tokenizer=tokenizer,
        model=model,
        padding=True
    )

    training_args = Seq2SeqTrainingArguments(
        output_dir=output_dir,
        eval_strategy="epoch",
        save_strategy="epoch",
        learning_rate=LEARNING_RATE,
        per_device_train_batch_size=BATCH_SIZE,
        per_device_eval_batch_size=BATCH_SIZE,
        gradient_accumulation_steps=GRADIENT_ACCUMULATION_STEPS,
        weight_decay=0.01,
        save_total_limit=2,
        num_train_epochs=NUM_EPOCHS,
        predict_with_generate=True,
        fp16=torch.cuda.is_available(),
        logging_steps=50,
        warmup_steps=WARMUP_STEPS,
        load_best_model_at_end=True,
        metric_for_best_model="rouge1",
        greater_is_better=True,
        report_to="wandb",
        run_name=experiment_name,
        push_to_hub=False,
        label_smoothing_factor=0.1,
    )

    trainer = Seq2SeqTrainer(
        model=model,
        args=training_args,
        train_dataset=train_dataset,
        eval_dataset=eval_dataset,
        processing_class=tokenizer,
        data_collator=data_collator,
        compute_metrics=compute_metrics,
        callbacks=[SafePushCallback(tokenizer, repo_name, HF_TOKEN, experiment_name)]
    )

    if os.path.exists(output_dir):
        checkpoints = [d for d in os.listdir(output_dir) if d.startswith(experiment_name)]
        if checkpoints:
            latest = max(checkpoints, key=lambda x: os.path.getmtime(os.path.join(output_dir, x)))
            trainer.train(resume_from_checkpoint=os.path.join(output_dir, latest))
        else:
            trainer.train()
    else:
        trainer.train()

    final_dir = f"{output_dir}/final"
    trainer.save_model(final_dir)
    tokenizer.save_pretrained(final_dir)

    try:
        api = HfApi(token=HF_TOKEN)
        api.upload_folder(
            folder_path=final_dir,
            repo_id=repo_name,
            path_in_repo=f"{experiment_name}-final",
            repo_type="model"
        )
    except Exception as e:
        pass

    eval_results = trainer.evaluate()

    return eval_results, trainer

### **Huấn luyện trên tập dữ liệu nguyên mẫu:**

In [None]:
baseline_results, baseline_trainer = train_model(
    experiment_name="baseline",
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    repo_name="fcsn37/vit5-summarization-baseline"
)

print("\nKet qua Baseline:")
print(pd.DataFrame([baseline_results]))

wandb.finish()

Epoch,Training Loss,Validation Loss,Rouge1,Rouge2,Rougel,Rougelsum
1,3.8709,3.661714,36.25,12.61,25.53,25.59
2,3.6448,3.553145,34.91,13.48,24.98,25.01
3,3.4618,3.530811,34.95,13.38,25.38,25.38


Processing Files (0 / 0)      : |          |  0.00B /  0.00B            

New Data Upload               : |          |  0.00B /  0.00B            

  ...line-epoch-1/spiece.model: 100%|##########|  820kB /  820kB            

  ...epoch-1/model.safetensors:   0%|          |  555kB /  904MB            

Processing Files (0 / 0)      : |          |  0.00B /  0.00B            

New Data Upload               : |          |  0.00B /  0.00B            

  ...line-epoch-2/spiece.model: 100%|##########|  820kB /  820kB            

  ...epoch-2/model.safetensors:   0%|          |  555kB /  904MB            

Processing Files (0 / 0)      : |          |  0.00B /  0.00B            

New Data Upload               : |          |  0.00B /  0.00B            

  ...line-epoch-3/spiece.model: 100%|##########|  820kB /  820kB            

  ...epoch-3/model.safetensors:   0%|          |  554kB /  904MB            

There were missing keys in the checkpoint model loaded: ['encoder.embed_tokens.weight', 'decoder.embed_tokens.weight', 'lm_head.weight'].


Processing Files (0 / 0)      : |          |  0.00B /  0.00B            

New Data Upload               : |          |  0.00B /  0.00B            

  ...seline/final/spiece.model: 100%|##########|  820kB /  820kB            

  ...e/final/model.safetensors:   4%|3         | 33.5MB /  904MB            

  ...e/final/training_args.bin: 100%|##########| 6.03kB / 6.03kB            


Ket qua Baseline:
   eval_loss  eval_rouge1  eval_rouge2  eval_rougeL  eval_rougeLsum  \
0   3.661714        36.25        12.61        25.53           25.59   

   eval_runtime  eval_samples_per_second  eval_steps_per_second  epoch  
0         29.86                    6.698                  1.674    3.0  


0,1
eval/loss,█▂▁█
eval/rouge1,█▁▁█
eval/rouge2,▁█▇▁
eval/rougeL,█▁▆█
eval/rougeLsum,█▁▅█
eval/runtime,▅▅█▁
eval/samples_per_second,▄▄▁█
eval/steps_per_second,▄▄▁█
train/epoch,▂▃▁▁▂▂▃▃▃▃▄▄▅▅▅▆▆▆▇▇▇████
train/global_step,▁▁▁▁▂▂▃▃▃▃▄▄▅▅▅▆▆▆▇▇▇████

0,1
eval/loss,3.66171
eval/rouge1,36.25
eval/rouge2,12.61
eval/rougeL,25.53
eval/rougeLsum,25.59
eval/runtime,29.86
eval/samples_per_second,6.698
eval/steps_per_second,1.674
total_flos,4567184179200000.0
train/epoch,3


### **Huấn luyện trên tập dữ liệu kết hợp:**

In [None]:
augmented_dataset = load_dataset(AUGMENTED_DATASET, split='train')

num_augmented = min(len(augmented_dataset), 500)
augmented_sample = augmented_dataset.shuffle(seed=42).select(range(num_augmented))

combined_train = concatenate_datasets([
    dataset['train'],
    augmented_sample
])

combined_tokenized = combined_train.map(
    preprocess_function,
    batched=True,
    remove_columns=combined_train.column_names
)

print(f"Du lieu training: {len(combined_tokenized)} mau")

augmented_results, augmented_trainer = train_model(
    experiment_name="augmented",
    train_dataset=combined_tokenized,
    eval_dataset=tokenized_datasets["validation"],
    repo_name="fcsn37/vit5-summarization-augmented"
)

print("\nKet qua Augmented:")
print(pd.DataFrame([augmented_results]))

wandb.finish()

Map:   0%|          | 0/5194 [00:00<?, ? examples/s]



Du lieu training: 5194 mau


Epoch,Training Loss,Validation Loss,Rouge1,Rouge2,Rougel,Rougelsum
1,3.8964,3.642673,35.36,12.68,24.79,24.87
2,3.6438,3.548826,35.15,13.56,24.96,24.96
3,3.4785,3.526063,36.22,13.96,25.69,25.75


There were missing keys in the checkpoint model loaded: ['encoder.embed_tokens.weight', 'decoder.embed_tokens.weight', 'lm_head.weight'].



Ket qua Augmented:
   eval_loss  eval_rouge1  eval_rouge2  eval_rougeL  eval_rougeLsum  \
0   3.526063        36.22        13.96        25.69           25.75   

   eval_runtime  eval_samples_per_second  eval_steps_per_second  epoch  
0       30.1081                    6.643                  1.661    3.0  


0,1
eval/loss,█▂▁▁
eval/rouge1,▂▁██
eval/rouge2,▁▆██
eval/rougeL,▁▂██
eval/rougeLsum,▁▂██
eval/runtime,█▆▁▁
eval/samples_per_second,▁▃██
eval/steps_per_second,▁▃██
train/epoch,▁▁▂▂▃▃▃▃▄▄▄▅▅▆▆▆▆▇▇▇████
train/global_step,▁▁▂▂▃▃▃▃▄▄▄▅▅▆▆▆▆▇▇▇████

0,1
eval/loss,3.52606
eval/rouge1,36.22
eval/rouge2,13.96
eval/rougeL,25.69
eval/rougeLsum,25.75
eval/runtime,30.1081
eval/samples_per_second,6.643
eval/steps_per_second,1.661
total_flos,4744390925352960.0
train/epoch,3


### **So sánh kết quả trước và sau khi tổng hợp:**

In [None]:
comparison_data = {
    'Model': ['Baseline'],
    'ROUGE-1': [baseline_results.get('eval_rouge1', 0)],
    'ROUGE-2': [baseline_results.get('eval_rouge2', 0)],
    'ROUGE-L': [baseline_results.get('eval_rougeL', 0)],
}

if augmented_results:
    comparison_data['Model'].append('Augmented')
    comparison_data['ROUGE-1'].append(augmented_results.get('eval_rouge1', 0))
    comparison_data['ROUGE-2'].append(augmented_results.get('eval_rouge2', 0))
    comparison_data['ROUGE-L'].append(augmented_results.get('eval_rougeL', 0))

comparison_df = pd.DataFrame(comparison_data)
print(comparison_df)

       Model  ROUGE-1  ROUGE-2  ROUGE-L
0   Baseline    36.25    12.61    25.53
1  Augmented    36.22    13.96    25.69


In [None]:
def generate_summary(model, tokenizer, text, max_length=64):
    inputs = tokenizer(text, return_tensors="pt", max_length=MAX_INPUT_LENGTH, truncation=True)
    inputs = {k: v.to(device) for k, v in inputs.items()}

    summary_ids = model.generate(
        inputs["input_ids"],
        max_length=max_length,
        num_beams=4,
        early_stopping=True
    )

    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

baseline_trainer.model.to(device)

for i in range(3):
    sample = dataset['test'][i]
    text = sample['text']
    original_summary = sample['summary']
    predicted_summary = generate_summary(baseline_trainer.model, tokenizer, text)

    print(f"\nVi du {i+1}:")
    print(f"Van ban: {text}...")
    print(f"Tom tat goc: {original_summary}")
    print(f"Tom tat du doan: {predicted_summary}")
    print("-" * 80)


Vi du 1:
Van ban: phó tổng_thống mỹ_kamala harris mặc_dù tôi có_thể là người phụ_nữ đầu_tiên giữ vị_trí này nhưng tôi sẽ không phải là người cuối_cùng bà kamala harris từng nhấn_mạnh trong một bài phát_biểu hồi tháng 11 2020 sau khi liên_danh tranh_cử joe biden kamala_harris giành chiến_thắng trong cuộc bầu_cử tổng_thống mỹ với lễ tuyên_thệ nhậm_chức vào ngày 20 2021 nữ cựu thượng_nghị_sĩ bang california đã làm_nên lịch_sử với tư_cách là người phụ_nữ đầu_tiên và cũng là người phụ_nữ da màu đầu_tiên trở_thành phó tổng_thống mỹ bà harris sinh ngày 20 10 1964 với tên đầy_đủ là kamala devi harris là con của những người nhập_cư đến mỹ mẹ bà shyamala gopalan harris là người nhập_cư từ ấn_độ còn cha bà ông donald haris là một giáo_sư kinh_tế người mỹ gốc jamaica bà harris lớn lên với sự ảnh_hưởng sâu_sắc của người mẹ gốc ấn và nền_tảng tư_duy từ cha mình trong suốt quá_trình tranh_cử bà harris thường_xuyên đề_cập đến việc các hoạt_động đấu_tranh vì nhân_quyền của cha_mẹ đã ảnh_hưởng tới bà n