In [1]:
!pip install -q --upgrade huggingface_hub transformers
!pip install -q accelerate peft trl bitsandbytes datasets wandb

[0m

In [2]:
SEED = 2024
BLOCK_SIZE = 256

MODEL_NAME = "google/gemma-2-2b"
NEW_MODEL_NAME = "vi-gemma-2-2b"
DATASET_NAME = "vietgpt/wikipedia_vi"
HF_TOKEN_READ = "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"
HF_TOKEN_WRITE = "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"
WANDB_TOKEN = "02b82f496321becca227a522b17fe7b965d7e20b"
OUTPUT_DIR = "./outputs"

In [3]:
from huggingface_hub import login
import wandb
login(HF_TOKEN_READ)
wandb.login(key = WANDB_TOKEN)

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.


Failed to detect the name of this notebook, you can set it manually with the WANDB_NOTEBOOK_NAME environment variable to enable code saving.
[34m[1mwandb[0m: Using wandb-core as the SDK backend. Please refer to https://wandb.me/wandb-core for more information.


Token is valid (permission: read).
Your token has been saved to /root/.cache/huggingface/token
Login successful


[34m[1mwandb[0m: Currently logged in as: [33mdaominhtrids[0m ([33muniversity-of-sciecne-vnu-hcm[0m). Use [1m`wandb login --relogin`[0m to force relogin
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc


True

# Step 1: Load and preprocess dataset

## 1.1: Load dataset

In [4]:
from datasets import load_dataset
dataset = load_dataset(DATASET_NAME, split = "all").shuffle(seed = SEED).select(range(200_000))
print(dataset)

Dataset({
    features: ['id', 'revid', 'url', 'title', 'text'],
    num_rows: 200000
})


## 1.2: Preprocess dataset

In [5]:
from random import sample
raw_text = dataset["text"]
sample(raw_text, 10)

['Byttneria heteromorpha là một loài thực vật có hoa trong họ Cẩm quỳ. Loài này được Arènes mô tả khoa học đầu tiên năm 1956.',
 'Ngày 30 tháng 11 là ngày thứ 334 (335 trong năm nhuận) trong lịch Gregory. Còn 31 ngày trong năm.',
 'Xã Salt River () là một xã thuộc quận Audrain, tiểu bang Missouri, Hoa Kỳ. Năm 2010, dân số của xã này là 9.497 người.',
 'Vittaria plurisulcata là một loài dương xỉ trong họ Pteridaceae. Loài này được Ching mô tả khoa học đầu tiên năm 1931.',
 'Michael Ben David (, ; sinh ngày 26 tháng 7 năm 1996) là một ca sĩ người Israel sẽ đại diện cho trong Eurovision Song Contest 2022. Anh sẽ biểu diễn ca khúc "I.M" trong đêm bán kết thứ hai.\nCuộc đời và sự nghiệp.\nMichael Ben David sinh năm 1996, là con thứ hai trong gia đình có sáu anh chị em, có cha và mẹ là người Do Thái gốc Gruzia nhập cư vào Israel từ Ukraina. Anh bắt đầu học giọng và học vũ đạo dưới sự điều hành của biên đạo múa người Israel Oz Morag khi còn nhỏ. Anh cũng từng làm bồi bàn hát tại một quán bar 

In [6]:
import re
def remove_html(text):
    return re.sub(r'<[^>]*>', '', text)

In [7]:
# Vietnamese Unicode Normalize
uniChars = "àáảãạâầấẩẫậăằắẳẵặèéẻẽẹêềếểễệđìíỉĩịòóỏõọôồốổỗộơờớởỡợùúủũụưừứửữựỳýỷỹỵÀÁẢÃẠÂẦẤẨẪẬĂẰẮẲẴẶÈÉẺẼẸÊỀẾỂỄỆĐÌÍỈĨỊÒÓỎÕỌÔỒỐỔỖỘƠỜỚỞỠỢÙÚỦŨỤƯỪỨỬỮỰỲÝỶỸỴÂĂĐÔƠƯ"
unsignChars = "aaaaaaaaaaaaaaaaaeeeeeeeeeeediiiiiooooooooooooooooouuuuuuuuuuuyyyyyAAAAAAAAAAAAAAAAAEEEEEEEEEEEDIIIOOOOOOOOOOOOOOOOOOOUUUUUUUUUUUYYYYYAADOOU"

def loaddicchar():
    dic = {}
    char1252 = 'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ'.split('|')
    charutf8 = "à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ".split('|')
    for i in range(len(char1252)):
        dic[char1252[i]] = charutf8[i]
    return dic

dicchar = loaddicchar()

In [8]:
def convert_unicode(text):
    return re.sub(
        r'à|á|ả|ã|ạ|ầ|ấ|ẩ|ẫ|ậ|ằ|ắ|ẳ|ẵ|ặ|è|é|ẻ|ẽ|ẹ|ề|ế|ể|ễ|ệ|ì|í|ỉ|ĩ|ị|ò|ó|ỏ|õ|ọ|ồ|ố|ổ|ỗ|ộ|ờ|ớ|ở|ỡ|ợ|ù|ú|ủ|ũ|ụ|ừ|ứ|ử|ữ|ự|ỳ|ý|ỷ|ỹ|ỵ|À|Á|Ả|Ã|Ạ|Ầ|Ấ|Ẩ|Ẫ|Ậ|Ằ|Ắ|Ẳ|Ẵ|Ặ|È|É|Ẻ|Ẽ|Ẹ|Ề|Ế|Ể|Ễ|Ệ|Ì|Í|Ỉ|Ĩ|Ị|Ò|Ó|Ỏ|Õ|Ọ|Ồ|Ố|Ổ|Ỗ|Ộ|Ờ|Ớ|Ở|Ỡ|Ợ|Ù|Ú|Ủ|Ũ|Ụ|Ừ|Ứ|Ử|Ữ|Ự|Ỳ|Ý|Ỷ|Ỹ|Ỵ',
        lambda x: dicchar[x.group()], text)

In [9]:
# Get Vietnamese stopwords
def get_stopwords_list(stop_file_path):
    with open(stop_file_path, 'r', encoding="utf-8") as f:
        stopwords = f.readlines()
        stop_set = set(m.strip() for m in stopwords)
        return list(frozenset(stop_set))

stopwords_path = "./vietnamese-stopwords.txt"
stopwords = get_stopwords_list(stopwords_path)
print(f"Total number of stopwords: {len(stopwords)}")

Total number of stopwords: 1942


In [10]:
def remove_stop_words(sentence_list):
    for i in range(len(sentence_list)):
        word_tokens = sentence_list[i].split(" ")
        sentence_list[i] = " ".join([word for word in word_tokens if word not in stopwords])
    return sentence_list

In [11]:
def remove_urls(text):
    url_pattern = re.compile(r'https?://\S+|www\.\S+')
    return url_pattern.sub(r'', text)

In [12]:
import string
def remove_punctuation(text):
    PUNCT_TO_REMOVE = string.punctuation
    return text.translate(str.maketrans('', '', PUNCT_TO_REMOVE))

In [13]:
raw_text = [remove_urls(text) for text in raw_text]
raw_text = [remove_html(text) for text in raw_text]
raw_text = [text.replace("\n", " ") for text in raw_text]
raw_text = [text.replace("_", " ").strip() for text in raw_text]
raw_text = [convert_unicode(text) for text in raw_text]
raw_text = [remove_punctuation(text) for text in raw_text]
raw_text = remove_stop_words(raw_text)
raw_text = [text.lower() for text in raw_text]

In [14]:
sample(raw_text, 10)

['cao minh tiếng trung 高明区 hán việt cao minh khu địa thị phật sơn 佛山市 tỉnh quảng đông cộng hòa nhân dân trung hoa',
 ' çorlu  thành phố nằm nội địa đông thrace tỉnh tekirdağ thổ nhĩ kỳ thành phố çorlu diện tích km² dân thời 2009 210362 đây thành phố 34 thổ nhĩ kỳ đây thành phố công nghiệp trưởng chóng nằm đồng lộ châu âu e80 chạy istanbul biên giới thổ nhĩ kỳ hy lạp bungary tham khảo çorlu huyện tỉnh tekirdağ thổ nhĩ kỳ huyện diện tích 899\xa0km² dân thời 2007 225244 mật độ 251 ngườikm²',
 'oroscopa privigna loài bướm đêm erebidae',
 'muhlenbergia speciosa loài thực vật hoa hòa thảo loài vasey mô tả khoa học đầu tiên 1886',
 'atriplex leptostachys loài thực vật hoa dền loài lchevall mô tả khoa học đầu tiên 1903',
 'timeline tiếng thái timeline จดหมาย ความทรงจำ tiếng việt lá thư kỷ niệm phim điện ảnh thái lan công chiếu 2014 bộ phim doanh thu 518\xa0million bạt phim tham gia jirayu tangsrisuk jarinporn joonkiat nội dung mồ côi bố tan sống mẹ tần tảo tối nuôi học mẹ tan đựng sống đơn nươ

In [15]:
from datasets import Dataset
dataset = Dataset.from_dict({"text": raw_text})
dataset = dataset.flatten()
dataset = dataset.train_test_split(test_size = 0.2, seed = SEED)
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['text'],
        num_rows: 160000
    })
    test: Dataset({
        features: ['text'],
        num_rows: 40000
    })
})


In [16]:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
tokenizer.padding_side = 'left'
tokenizer.pad_token = tokenizer.eos_token
tokenizer.pad_token_id = tokenizer.eos_token_id
tokenizer.add_eos_token = True

In [17]:
def preprocess_function(examples):
    return tokenizer([" ".join(x) for x in examples["text"]])

tokenized_dataset = dataset.map(
    preprocess_function,
    batched = True,
    num_proc = 4,
    remove_columns = dataset["train"].column_names,
)

print(tokenized_dataset)

Map (num_proc=4):   0%|          | 0/160000 [00:00<?, ? examples/s]

Map (num_proc=4):   0%|          | 0/40000 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask'],
        num_rows: 160000
    })
    test: Dataset({
        features: ['input_ids', 'attention_mask'],
        num_rows: 40000
    })
})


In [18]:
def group_texts(examples):
    # Concatenate all texts
    concatenated_examples = {k: sum(examples[k],[]) for k in examples.keys()}
    total_length = len(concatenated_examples[list(examples.keys())[0]])
    """
    Ensures that the final dataset consists of chunks of exactly BLOCK_SIZE tokens,
    by trimming off any remainder that doesn't fit into a full block.
    """
    if total_length >= BLOCK_SIZE:
        total_length = (total_length // BLOCK_SIZE) * BLOCK_SIZE

    # Split by chunks of BLOCK_SIZE.
    result = {
        k: [t[i : i + BLOCK_SIZE] for i in range(0, total_length, BLOCK_SIZE)]
        for k, t in concatenated_examples.items()
    }
    result["labels"] = result["input_ids"].copy()
    return result

lm_dataset = tokenized_dataset.map(group_texts, batched = True, num_proc = 4)
print(lm_dataset)

Map (num_proc=4):   0%|          | 0/160000 [00:00<?, ? examples/s]

Map (num_proc=4):   0%|          | 0/40000 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 312288
    })
    test: Dataset({
        features: ['input_ids', 'attention_mask', 'labels'],
        num_rows: 75673
    })
})


In [19]:
from transformers import DataCollatorForLanguageModeling
data_collator = DataCollatorForLanguageModeling(tokenizer = tokenizer, mlm = False, pad_to_multiple_of = 8)

# Step 2: Preparing and Training model

## 2.1 Load model and create PEFT Model

In [20]:
import torch
from transformers import AutoModelForCausalLM, TrainingArguments, Trainer, BitsAndBytesConfig

device = "cuda" if torch.cuda.is_available() else "cpu"
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype = torch.bfloat16,
    attn_implementation = 'eager',
    device_map = device
)

model.config.use_cache = False
model.config.pretraining_tp = 1
model.gradient_checkpointing_enable()

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [21]:
def find_all_linear_names(model):
    cls = torch.nn.Linear
    # cls = bnb.nn.Linear4bit
    lora_module_names = set()
    for name, module in model.named_modules():
        if isinstance(module, cls):
            names = name.split(".")
            lora_module_names.add(names[0] if len(names) == 1 else names[-1])

    if "lm_head" in lora_module_names:
        lora_module_names.remove("lm_head")
    return list(lora_module_names)

In [22]:
from peft import LoraConfig, get_peft_model,
peft_config = LoraConfig(
    r = 32,
    lora_alpha = 32,
    lora_dropout = 0.1,
    bias = "none",
    task_type = "CAUSAL_LM",
    target_modules = find_all_linear_names(model),
    use_rslora = True,
)

model = get_peft_model(model, peft_config)
model.print_trainable_parameters()

trainable params: 41,533,440 || all params: 2,655,875,328 || trainable%: 1.5638


## 2.2 Training model

In [23]:
training_arguments = TrainingArguments(
    per_device_train_batch_size = 16,
    per_device_eval_batch_size = 16,
    gradient_accumulation_steps = 2,
    num_train_epochs = 1,
    warmup_steps = 10,
    max_steps = -1,
    logging_steps = 1,
    save_steps = 0.1,
    eval_steps = 0.1,

    learning_rate = 2e-5,
    weight_decay = 0.1,

    fp16 = False,
    bf16 = False,
    load_best_model_at_end = True,
    remove_unused_columns = False,

    eval_strategy = "steps",
    save_strategy = "steps",
    optim = "paged_adamw_32bit",
    lr_scheduler_type = "cosine",
    report_to = "wandb",
    run_name = "Fine-tune-Gemma2-2B",
    output_dir = OUTPUT_DIR,
)

trainer = Trainer(
    model = model,
    args = training_arguments,
    train_dataset = lm_dataset["train"],
    eval_dataset = lm_dataset["test"],
    data_collator = data_collator,
)

In [24]:
import math
#evaluate the baseline model
initial_results = trainer.evaluate()
print(initial_results)
print(f"Baseline {MODEL_NAME} Results: Perplexity: {math.exp(initial_results['eval_loss']):.2f}")

{'eval_loss': 3.4166407585144043, 'eval_model_preparation_time': 0.0155, 'eval_runtime': 1573.32, 'eval_samples_per_second': 48.098, 'eval_steps_per_second': 3.006}
Baseline google/gemma-2-2b-it Results: Perplexity: 30.47


In [None]:
import os

# fine-tune the pre-trained model with Vietnamese dataset
for _ in range(1_000_000): torch.cuda.empty_cache()
trainer.train()

#evaluate the fine-tuned model
eval_results = trainer.evaluate()
print(f"Fine-tuned {NEW_MODEL_NAME} Results:{eval_results}\n")

perplexity = math.exp(eval_results['eval_loss'])
eval_results['perplexity'] = perplexity
print(f"Fine-tuned {NEW_MODEL_NAME} Results: Perplexity: {perplexity:.2f}")

os.makedirs(NEW_MODEL_NAME, exist_ok=True)
trainer.save_model(NEW_MODEL_NAME)

wandb.finish()
model.config.use_cache = True

Step,Training Loss,Validation Loss


# Step 3: Merge LoRA and push to HuggingFace

In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import PeftModel
from huggingface_hub import login

HF_TOKEN_WRITE = "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"
login(HF_TOKEN_WRITE)

In [None]:
# Reload tokenizer and model
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
base_model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    low_cpu_mem_usage = True,
    return_dict = True,
    torch_dtype = torch.float16,
    device_map = "auto"
)

In [None]:
model = PeftModel.from_pretrained(base_model, NEW_MODEL_NAME)
model = model.merge_and_unload()

In [None]:

model.push_to_hub(NEW_MODEL_NAME, use_temp_dir = False)
tokenizer.push_to_hub(NEW_MODEL_NAME, use_temp_dir = False)