In [None]:
# Bị lỗi khi cài đặt bằng lệnh PIP nên mình thêm vào
import locale
locale.getpreferredencoding = lambda: "UTF-8"

In [None]:
!pip -q install transformers torch accelerate SentencePiece google

In [None]:
import gdown
import os 

# print(">>>>> Start download data <<<<<")
# if not os.path.isdir('./datasets'):
#     os.mkdir('./datasets')
# if not os.path.isfile('./datasets/Phap_luat.zip'):
#     file_id = "1ZnDdWrVD6Np9wZgav_pWYU3EXesSt5lB"
#     output = "./datasets/Phap_luat.zip"
#     gdown.download(f"https://drive.google.com/uc?id={file_id}", output, quiet=True)
# print(">>>>> Finish download data <<<<<")

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, AutoConfig, Seq2SeqTrainingArguments, Seq2SeqTrainer
from torch.utils.data import DataLoader, Dataset

# huggingface token
access_token = "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"

# Tải mô hình và tokenizer
model_name = "vinai/bartpho-word"
# Load bộ tokenzier
tokenizer = AutoTokenizer.from_pretrained(model_name,
                                          token=access_token)

# Cấu hình cho model
config = AutoConfig.from_pretrained(model_name,
                                    trust_remote_code=True,
                                    token=access_token)
config.temperature = 0.1
config.max_length =300
config.eos_token_id=tokenizer.eos_token_id
config.pad_token_id=tokenizer.pad_token_id
config.do_sample = True

# Ld model
model = AutoModelForSeq2SeqLM.from_pretrained(model_name,
                                              config=config,
                                              token=access_token)

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Chuẩn bị dữ liệu (thay thế bằng mã của bạn)
class CustomDataset(Dataset):
    def __init__(self, inputs, outputs):
        self.inputs = inputs
        self.outputs = outputs

    def __len__(self):
        return len(self.inputs['input_ids'])

    def __getitem__(self, idx):
        return {
            'input_ids': self.inputs['input_ids'][idx],
            'attention_mask': self.inputs['attention_mask'][idx],
            'labels': self.outputs['input_ids'][idx],
        }

In [None]:
import zipfile
import pandas as pd

# python3 PreProcessingDatasets/preprocess_phap_luat.py

# 2264578 data in csv
zip_file_path = '/content/drive/MyDrive/phap_luat.zip'
csv_file_name = 'Pháp luật.csv'
usecols = ['title', 'sapo', 'content']
# Kích thước của mỗi phần (số dòng)
test_size = 1000

with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    # Đọc file CSV từ file ZIP và lưu vào DataFrame
    with zip_ref.open(csv_file_name) as file:
        eval_df = pd.read_csv(file, nrows=test_size ,usecols=usecols)

eval_df['sapo'].fillna('', inplace=True)
eval_df['content'] = eval_df['sapo'] + eval_df['content']

test_inputs = tokenizer(eval_df['content'].tolist(), return_tensors='pt', padding=True, truncation=True, max_length=512)
test_outputs = tokenizer(eval_df['title'].tolist(), return_tensors='pt', padding=True, truncation=True, max_length=128)

# Chuẩn bị dữ liệu
test_dataset = CustomDataset(test_inputs, test_outputs)  # Thay thế `data` bằng dữ liệu của bạn

# Tạo DataLoader
test_dataloader = DataLoader(test_dataset, batch_size=2, shuffle=True)

In [None]:
# Thiết lập đối số cho Trainer
training_args = Seq2SeqTrainingArguments(
    output_dir="./checkpoin_model",
    evaluation_strategy="steps",
    eval_steps=500,
    save_steps=500,
    save_total_limit=3,  # Lưu lại tối đa 3 mô hình
    per_device_train_batch_size=2,
    per_device_eval_batch_size=2,
    num_train_epochs=100,
    learning_rate=5e-5,
    weight_decay=0.01,
)

# Kích thước của mỗi chunk (số dòng)
chunksize = int((2264578 - 1000) / 4) + 1

# Số lượng mẫu huấn luyện
total_train_samples = chunksize

# Số lượng batch huấn luyện mỗi epoch
train_batch_size = training_args.per_device_train_batch_size
num_train_batches_per_epoch = total_train_samples // train_batch_size

# Số epoch giữa mỗi lần lưu mô hình
save_steps_per_epoch = 5

# Tổng số lần lưu mô hình trong suốt quá trình huấn luyện
total_save_steps = num_train_batches_per_epoch * save_steps_per_epoch * training_args.num_train_epochs

# Cập nhật đối số lưu mô hình và số lần lưu mô hình tối đa
training_args.save_steps = num_train_batches_per_epoch * save_steps_per_epoch
training_args.save_total_limit = total_save_steps

In [None]:
# Tạo Trainer
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=None,
    eval_dataset=test_dataloader,
    tokenizer=tokenizer,
)

In [None]:
# Đọc file CSV theo từng chunk
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    # Đọc file CSV từ file ZIP và lưu vào DataFrame
    with zip_ref.open(csv_file_name) as file:
        chunks = pd.read_csv(file, chunksize=chunksize ,usecols=usecols)
        
        # Vòng lặp qua từng chunk và huấn luyện
        for i, chunk in enumerate(chunks):
            print(f"Training on chunk {i + 1}...")

            chunk['sapo'].fillna('', inplace=True)
            chunk['content'] = chunk['sapo'] + chunk['content']

            inputs_chunk = tokenizer(chunk['content'].tolist(), return_tensors='pt', padding=True, truncation=True, max_length=512)
            outputs_chunk = tokenizer(chunk['title'].tolist(), return_tensors='pt', padding=True, truncation=True, max_length=128)

            dataset_chunk = CustomDataset(inputs_chunk, outputs_chunk)
            dataloader_chunk = DataLoader(dataset_chunk, batch_size=2, shuffle=True)

            # Cập nhật dữ liệu cho Trainer và huấn luyện mô hình
            trainer.train_dataset = dataset_chunk
            trainer.train_dataloader = dataloader_chunk
            trainer.train()

In [None]:
# Lưu mô hình sau khi huấn luyện
if not os.path.isdir('./bartpho-model'):
    os.mkdir('./bartpho-model')
model.save_pretrained("./bartpho-model")