In [1]:
!pip install -q -U transformers datasets accelerate peft trl bitsandbytes


In [2]:
import os
os.environ["HF_TOKEN"] = "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"


In [3]:
import torch
from datasets import load_dataset
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    TrainingArguments,
    pipeline,
)
from peft import LoraConfig, PeftModel, prepare_model_for_kbit_training
from trl import SFTTrainer




In [4]:
base_model = "NousResearch/Llama-2-7b-chat-hf"

new_model = "vietnamese-Llama2-instruct-finetune"

dataset = load_dataset("hiepdaoquang704/test_vietnamese", split="train")


tokenizer = AutoTokenizer.from_pretrained(base_model, use_fast=True)


tokenizer.pad_token=tokenizer.eos_token
tokenizer.padding_side="right"


In [5]:
print(dataset)

Dataset({
    features: ['content', 'summary'],
    num_rows: 1000
})


In [6]:
dataset.to_pandas()

Unnamed: 0,content,summary
0,"### Instruction:\nNgày 28-12, TAND TP HCM mở p...","Ngày 28-12, TAND TP HCM mở phiên tòa sơ thẩm x..."
1,### Instruction:\nBaron Capital muốn thôn tính...,Baron Capital (Mỹ) đã sở hữu 1/4 số cổ phiếu c...
2,"### Instruction:\nTheo báo cáo của Sở, hai căn...","Sự cố xảy ra tại phường 2, quận Tân Bình vào n..."
3,### Instruction:\nSữa là nguyên nhân gây đầy b...,Sữa hạnh nhân là một lựa chọn hàng đầu cho nhữ...
4,"### Instruction:\nTrong tự nhiên, có sẵn rất n...","Trong tự nhiên, có sẵn rất nhiều loại thực phẩ..."
...,...,...
995,### Instruction:\nTàu Tế Nam được hạ thủy tại ...,Tàu Tế Nam 052C là tàu chiến mới nhất của Hải ...
996,### Instruction:\nKhối bướu hiếm gặp này khiến...,"Bệnh nhân Đ.C.T (40 tuổi, ngụ Tiền Giang) đã p..."
997,### Instruction:\nẢnh minh họa. (Nguồn: AFP/TT...,"Robert Bates, 73 tuổi, là cảnh sát dự bị của s..."
998,"### Instruction:\nTrưa 19/5, Cơ quan Cảnh sát ...",Cơ quan Cảnh sát điều tra Công an huyện Thủ Th...


In [7]:
print(tokenizer)

LlamaTokenizerFast(name_or_path='NousResearch/Llama-2-7b-chat-hf', vocab_size=32000, model_max_length=1000000000000000019884624838656, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'pad_token': '</s>'}, clean_up_tokenization_spaces=False),  added_tokens_decoder={
	0: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	1: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=True),
	32000: AddedToken("<pad>", rstrip=False, lstrip=False, single_word=False, normalized=True, special=False),
}


In [8]:
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    #Quant type
    #We will use the "nf4" format this was introduced in the QLoRA paper
    bnb_4bit_quant_type="nf4",
    #As the model weights are stored using 4 bits and when we want to compute its only going to use 16 bits so we have more accuracy
    bnb_4bit_compute_dtype=torch.float16,
    #Quantization parameters are quantized
    bnb_4bit_use_double_quant=True,
)




In [9]:
peft_config = LoraConfig(

    lora_alpha=15,
    #10% dropout
    lora_dropout=0.1,
    bias="none",
    task_type="CAUSAL_LM",
)

In [10]:
fine_tuned_model='togethercomputer/Llama-2-7B-32K-Instruct'

In [11]:

model = AutoModelForCausalLM.from_pretrained(
    fine_tuned_model,
    quantization_config=bnb_config,
    device_map={"": 0}
)

model.config.use_cache = False
model.config.pretraining_tp = 1


model = prepare_model_for_kbit_training(model)
     

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [12]:
training_arguments = TrainingArguments(
        output_dir="./results",
        num_train_epochs=1,
        per_device_train_batch_size=4,
        gradient_accumulation_steps=1,
        evaluation_strategy="steps",
        eval_steps=1000,
        logging_steps=25,
        optim="paged_adamw_8bit",
        learning_rate=2e-4,
        lr_scheduler_type="linear",
        warmup_steps=10,
        report_to="tensorboard",
        max_steps=-1,
)

In [13]:
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    eval_dataset=dataset,
    peft_config=peft_config,
    dataset_text_field="content",
    max_seq_length=512,
    tokenizer=tokenizer,
    args=training_arguments,
)


In [14]:
trainer.train()


trainer.model.save_pretrained(new_model)


You're using a LlamaTokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Step,Training Loss,Validation Loss


In [15]:
%load_ext tensorboard
%tensorboard --logdir results/runs

Reusing TensorBoard on port 6006 (pid 426), started 2:29:12 ago. (Use '!kill 426' to kill it.)

In [16]:
prompt = "Năm 2023, ngành Tư pháp Hưng Yên đã triển khai thực hiện đồng bộ trên tất cả các lĩnh vực công tác, đạt nhiều kết quả tích cực."
content = f"### Instruction:\n{prompt}\n\n### Response:\n"
#Using Pipeline from the hugging face
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=128)
result = pipe(content)
#Trim the response, remove instruction manually
print(result[0]['generated_text'][len(content):])



Đồng bộ triển khai thực hiện các chương trình, dự án đư


In [17]:
del model
del pipe
del trainer
import gc
gc.collect()
gc.collect()

0

In [18]:
model = AutoModelForCausalLM.from_pretrained(
    base_model,
    low_cpu_mem_usage=True,
    return_dict=True,
    torch_dtype=torch.float16,
    device_map={"": 0},
)
#Reload the Base Model and load the QLoRA adapters
model = PeftModel.from_pretrained(model, new_model)
model = model.merge_and_unload()

# Reload tokenizer to save it
tokenizer = AutoTokenizer.from_pretrained(base_model, trust_remote_code=True)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]



In [19]:

import locale
locale.getpreferredencoding = lambda: "UTF-8"

In [20]:
model.push_to_hub("hiepdaoquang704/finetune-LLamma2-instruct", check_pr=True, use_auth_token="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")
tokenizer.push_to_hub("hiepdaoquang704/finetune-LLamma2-instruct", check_pr=True, use_auth_token="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")


Thrown during validation:
`do_sample` is set to `False`. However, `temperature` is set to `0.9` -- this flag is only used in sample-based generation modes. You should set `do_sample=True` or unset `temperature`.


Upload 3 LFS files:   0%|          | 0/3 [00:00<?, ?it/s]

model-00001-of-00003.safetensors:   0%|          | 0.00/4.94G [00:00<?, ?B/s]

model-00003-of-00003.safetensors:   0%|          | 0.00/3.59G [00:00<?, ?B/s]

model-00002-of-00003.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]



tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/hiepdaoquang704/finetune-LLamma2-instruct/commit/f731512535b61ab09c145daaa40b74abcefb52c1', commit_message='Upload tokenizer', commit_description='', oid='f731512535b61ab09c145daaa40b74abcefb52c1', pr_url=None, pr_revision=None, pr_num=None)