# **Install and Import Libraries**

In [None]:
!pip install -q -U bitsandbytes
!pip install -q -U datasets
!pip install -q -U git+https://github.com/huggingface/transformers.git
!pip install -q -U git+https://github.com/huggingface/peft.git
!pip install -q -U git+https://github.com/huggingface/accelerate.git
!pip install -q -U loralib
!pip install -q -U einops
!pip install --upgrade torch


[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m119.8/119.8 MB[0m [31m8.3 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m542.0/542.0 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m8.0 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m194.1/194.1 kB[0m [31m9.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m9.2 MB/s[0m eta [36m0:00:00[0m
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m401.2/401.2 kB[0m [31m15.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for transformers (pyproject.toml) ... [?25l[?25hdone
  Installing build

In [None]:
import json
import os
import bitsandbytes as bnb
import torch
import torch.nn as nn
import transformers

from pprint import pprint
from tqdm import tqdm
from datasets import load_dataset, Dataset
from huggingface_hub import notebook_login
from peft import (
    LoraConfig,
    PeftConfig,
    PeftModel,
    get_peft_model,
    prepare_model_for_kbit_training
)
from transformers import (
    AutoConfig,
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig
)

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

## **HuggingFace Login**

In [None]:
from huggingface_hub import notebook_login
notebook_login()
# hf: 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

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

## **Load Pretrained LLM**

In [None]:
MODEL_NAME = "vilm/vinallama-7b-chat"

bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
tokenizer.pad_token = tokenizer.eos_token

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/709 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/3 [00:00<?, ?it/s]

model-00001-of-00003.safetensors:   0%|          | 0.00/4.97G [00:00<?, ?B/s]

model-00002-of-00003.safetensors:   0%|          | 0.00/4.95G [00:00<?, ?B/s]

model-00003-of-00003.safetensors:   0%|          | 0.00/3.80G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/314 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.22k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.67M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/557 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
    print(f"Number of trainable parameters: {trainable_params}")

In [None]:
model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)

In [None]:
config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=[
        "q_proj",
        "up_proj",
        "o_proj",
        "k_proj",
        "down_proj",
        "gate_proj",
        "v_proj"
    ],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, config)
print_trainable_parameters(model)

Number of trainable parameters: 39976960


# **Test pretrained model performance**

In [None]:
generation_config = model.generation_config
generation_config.max_new_tokens = 200
generation_config.temperature = 0.7
generation_config.top_p = 0.7
generation_config.num_return_sequences = 1
generation_config.pad_token_id = tokenizer.eos_token_id
generation_config.eos_token_id = tokenizer.eos_token_id

In [None]:
prompt = """
<|im_start|>system
Bạn là một chuyên gia về toán. Bạn sẽ nhận câu hỏi trắc nghiệm kèm theo các lựa chọn, hãy giải step by step nếu có và chọn phương án đúng.

<|im_start|>user
### Câu hỏi:
Giá trị của biểu thức: 876 - m với m =432 là:
### Các lựa chọn:
A. 444
B. 434
C. 424
D. 414
### Câu trả lời:

<|im_start|>assistant
""".strip()

In [None]:
%%time
from IPython.display import Javascript
display(Javascript('''google.colab.output.setIframeHeight(0, true, {maxHeight: 500})'''))

device = 'cuda' if torch.cuda.is_available() else 'cpu'

encoding = tokenizer(prompt, return_tensors="pt").to(device)
with torch.inference_mode():
    outputs = model.generate(
        input_ids=encoding["input_ids"],
        attention_mask=encoding["attention_mask"],
        generation_config=generation_config
    )
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

<IPython.core.display.Javascript object>

<|im_start|> system
Bạn là một chuyên gia về toán. Bạn sẽ nhận câu hỏi trắc nghiệm kèm theo các lựa chọn, hãy giải step by step nếu có và chọn phương án đúng.

<|im_start|> user
### Câu hỏi:
Giá trị của biểu thức: 876 - m với m =432 là:
### Các lựa chọn:
A. 444
B. 434
C. 424
D. 414
### Câu trả lời:

<|im_start|> assistant
Để tìm giá trị của biểu thức 876 - m với m = 432, chúng ta có thể thay thế m bằng 432 trong biểu thức.

876 - 432 = 444

Vậy, giá trị của biểu thức là 444. Do đó, lựa chọn đúng là:

A. 444
CPU times: user 13.6 s, sys: 1.1 s, total: 14.7 s
Wall time: 19.1 s


# **Fine-Tuning**

## Prepare dataset

In [None]:
data = load_dataset('hllj/vi_grade_school_math_mcq')
data

Downloading readme:   0%|          | 0.00/2.95k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/4.60M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/2733 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['grade', 'id', 'title', 'problems', 'url'],
        num_rows: 2733
    })
})

In [None]:
type(data)

datasets.dataset_dict.DatasetDict

In [None]:
data["train"]

Dataset({
    features: ['grade', 'id', 'title', 'problems', 'url'],
    num_rows: 2733
})

In [None]:
data["train"][1]["problems"][0]

{'choices': ['A. 5 quả', 'B. 4 quả', 'C. 1 quả', 'D. 9 quả'],
 'explanation': 'Hướng dẫn giải \n Đáp án đúng là: D \n Tất cả số quả cam gồm: 5 quả cam ở đĩa thứ nhất và 4 quả cam ở đĩa thứ hai \n Số quả cam có tất cả là: \n 5 + 4 = 9  (quả cam). \n Đáp số:  9 quả cam .',
 'question': 'Câu 1: \n \n Đĩa thứ nhất có 5 quả cam, đĩa thứ hai có 4 quả cam. Số quả cam có tất cả là:'}

In [None]:
def generate_prompt(question, choices, explanation):
  return f"""
          <|im_start|>system
          Bạn là một chuyên gia về toán. Bạn sẽ nhận câu hỏi trắc nghiệm kèm theo các lựa chọn, hãy giải step by step nếu có và chọn phương án đúng.

          <|im_start|>user
          ### Câu hỏi:
          {question}
          ### Các lựa chọn:
          {choices}
          ### Câu trả lời:

          <|im_start|>assistant
          {explanation}
          """.strip()

def generate_and_tokenize_prompt(question, choices, explanation):
  full_prompt = generate_prompt(question, choices, explanation)
  tokenizer_full_prompt = tokenizer(full_prompt, padding=True, truncation=True)
  return tokenizer_full_prompt

In [None]:
training_samples = []
for sample in tqdm(data["train"]):
  for quest in sample["problems"]:
    choices = quest["choices"]
    explanation = quest["explanation"]
    question = quest["question"]

    if explanation == " " or question == " " or choices == []:
      continue

    try:
      question = question.split('\n \n')[1].strip()
    except:
      continue

    choices = '\n'.join(choices)
    training_sample = generate_and_tokenize_prompt(question, choices, explanation)
    training_samples.append(training_sample)

  0%|          | 0/2733 [00:00<?, ?it/s]Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.
100%|██████████| 2733/2733 [00:04<00:00, 657.12it/s]


In [None]:
choices_data = Dataset.from_list(training_samples)

## Training

In [None]:
training_args = transformers.TrainingArguments(
    per_device_train_batch_size=1,
    gradient_accumulation_steps=4,
    num_train_epochs=1,
    learning_rate=2e-4,
    fp16=True,
    save_total_limit=3,
    logging_steps=1,
    output_dir="experiments",
    optim="paged_adamw_8bit",
    lr_scheduler_type="cosine",
    warmup_ratio=0.05
)

trainer = transformers.Trainer(
    model=model,
    train_dataset=choices_data,
    args=training_args,
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False)
)

model.config.use_cache = False
trainer.train()



Step,Training Loss
1,3.9206
2,4.1776
3,4.1894
4,3.8061
5,3.6826
6,4.0821
7,4.0842
8,3.9932
9,3.5108
10,3.7201




# **Test prediction**

In [None]:
%%time
device = 'cuda' if torch.cuda.is_available() else 'cpu'

prompt = """
<|im_start|>system
Bạn là một chuyên gia về toán. Bạn sẽ nhận câu hỏi trắc nghiệm kèm theo các lựa chọn, hãy giải step by step nếu có và chọn phương án đúng.

<|im_start|>user
### Câu hỏi:
Số gồm 1 đơn vị và 2 chục đọc là :
### Các lựa chọn:
A. 20
B. 21
C. 30
D. 31
### Câu trả lời:

<|im_start|>assistant
""".strip()

encoding = tokenizer(prompt, return_tensors="pt").to(device)
with torch.inference_mode():
    outputs = model.generate(
        input_ids=encoding.input_ids,
        attention_mask=encoding.attention_mask,
        generation_config=generation_config
    )

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

# **Save model to hugging face**

In [None]:
model.save_pretrained("trained-model")

In [None]:
PEFT_MODEL = "wterrrr/Math_LLM"

model.push_to_hub(
    PEFT_MODEL, use_auth_token=True
)

# **Inference**

In [None]:
PEFT_MODEL = "ZeZanZiet/LLM_Math"

config = PeftConfig.from_pretrained(PEFT_MODEL)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

model = AutoModelForCausalLM.from_pretrained(
    config.base_model_name_or_path,
    return_dict=True,
    quantization_config=bnb_config,
    device_map="auto",
    trust_remote_code=True
)

tokenizer=AutoTokenizer.from_pretrained(config.base_model_name_or_path)
tokenizer.pad_token = tokenizer.eos_token

model = PeftModel.from_pretrained(model, PEFT_MODEL)

In [None]:
generation_config = model.generation_config
generation_config.max_new_tokens = 200
generation_config.temperature = 0.7
generation_config.top_p = 0.7
generation_config.num_return_sequences = 1
generation_config.pad_token_id = model.config.pad_token_id
generation_config.eos_token_id = model.config.eos_token_id

In [None]:
%%time
device = 'cuda' if torch.cuda.is_available() else 'cpu'

prompt = """
<|im_start|>system
Bạn là một chuyên gia về toán. Bạn sẽ nhận câu hỏi trắc nghiệm kèm theo các lựa chọn, hãy giải step by step nếu có và chọn phương án đúng.

<|im_start|>user
### Câu hỏi:
Số gồm 1 đơn vị và 3 chục đọc là :
### Các lựa chọn:
A. 30
B. 31
C. 20
D. 21
### Câu trả lời:

<|im_start|>assistant
""".strip()

encoding = tokenizer(prompt, return_tensors="pt").to(device)
with torch.inference_mode():
    outputs = model.generate(
        input_ids=encoding.input_ids,
        attention_mask=encoding.attention_mask,
        generation_config=generation_config
    )

print(tokenizer.decode(outputs[0], skip_special_tokens=True))


# # Function to generate response
# def generate_response(conversation_history, user_input):
#     conversation_history += f"\nuser\n{user_input}\nassistant\n"

#     # Tokenize input
#     encoding = tokenizer(conversation_history, return_tensors="pt").to(device)

#     with torch.inference_mode():
#         outputs = model.generate(
#             input_ids=encoding.input_ids,
#             attention_mask=encoding.attention_mask,
#             generation_config=generation_config
#         )

#     # Decode the generated text
#     response = tokenizer.decode(outputs[0], skip_special_tokens=True)

#     # Append the response to the conversation history
#     conversation_history += response

#     return response, conversation_history

# # Initial conversation history
# conversation_history = """
# system
# Bạn là một chuyên gia về toán. Bạn sẽ nhận câu hỏi trắc nghiệm kèm theo các lựa chọn, hãy giải step by step nếu có và chọn phương án đúng.
# """

# # Simulate a chat session
# user_input = "Số gồm 1 đơn vị và 3 chục đọc là gì?"
# response, conversation_history = generate_response(conversation_history, user_input)
# print(response)

# # Continue the conversation
# user_input = "Một câu hỏi khác, 2 nhân với 3 là bao nhiêu?"
# response, conversation_history = generate_response(conversation_history, user_input)
# print(response)