<a href="https://colab.research.google.com/github/warwavn/AIMLKMITL2024/blob/Day1/Day5/3_tuning-LLM/2_llama3_thaimed.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introduction
This is really a to teach fine tuning using llama3.

# Setup the Model
The following section performs all the setup of the model. This includes

Installing any dependencies
Setting any configuration
Downloading the Base Model

## Install dependencies
In order to get started we need to install the appropriate dependencies

In [1]:
#


import IPython
import sys

def clean_notebook():
    IPython.display.clear_output(wait=True)
    print("Notebook cleaned.")

# Installs Unsloth, Xformers (Flash Attention) and all other packages!



# we use the latest version of transformers, peft, and accelerate
!pip install -q accelerate peft transformers

# install bitsandbytes for quantization
!pip install -q bitsandbytes

# install trl for the SFT library
!pip install -q trl

# we need to install datasets for our training dataset
!pip install -q datasets

# we need huggingface hub to get access to the llama 3 model
!pip install huggingface_hub

# Clean up the notebook
clean_notebook()

Notebook cleaned.


## Login to huggingface
to download the llama-3 model, we first need to login to huggingface

In [2]:
import os
os.environ['HF_TOKEN']         = "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"

In [3]:
from huggingface_hub import notebook_login

# login to huggingface
notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

## Settings
The following configures our settings for finetuning our model

In [4]:
# we will use llama-3 instruct as our base model
model_id = "meta-llama/Meta-Llama-3-8b-Instruct"

# The instruction dataset to use
dataset_name = "Thaweewat/thai-med-pack"

# Fine-tuned model name
new_model = "llama-3-8b-thaimed"

# Output directory where the model predictions and checkpoints will be stored
output_dir = "./results"

# Number of training epochs
num_train_epochs = 1

In [11]:
# # we will use llama-3 instruct as our base model
# model_id = "scb10x/llama-3-typhoon-v1.5-8b"

# # The instruction dataset to use
# dataset_name = "Thaweewat/thai-med-pack"

# # Fine-tuned model name
# new_model = "typhoon-v1.5-8b-thaimed"

# # Output directory where the model predictions and checkpoints will be stored
# output_dir = "./results"

# # Number of training epochs
# num_train_epochs = 1

## Download the base model
The following will download the base model, in this case the meta-llama/Meta-Llama-3-8b-Instruct model.

In [5]:
import torch
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    BitsAndBytesConfig,
    pipeline,
    logging,
)

# load the quantized settings, we're doing 4 bit quantization
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_use_double_quant=False,
)

# Load base model
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    quantization_config=bnb_config,
    # use the gpu
    device_map={"": 0}
)

# don't use the cache
model.config.use_cache = False

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/654 [00:00<?, ?B/s]

model.safetensors.index.json:   0%|          | 0.00/23.9k [00:00<?, ?B/s]

Downloading shards:   0%|          | 0/4 [00:00<?, ?it/s]

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

generation_config.json:   0%|          | 0.00/187 [00:00<?, ?B/s]

## Setup the Tokenizer
We need to setup the tokenizer to process llama-3

### Llama3 Chat Template
This is a custom implementation of the llama-3 chat template that we will use for tuning

In [6]:
def get_llama3_chat_template():
    return (
        "<|begin_of_text|>"
        "{% for message in messages %}"
            "{% if message.role == 'system' %}"
                "<|start_header_id|>system<|end_header_id|>"
                "{{message.content}}"
                "<|eot_id|>"
            "{% endif %}"
            "{% if message.role == 'user' %}"
                "<|start_header_id|>user<|end_header_id|>"
                "{{message.content}}"
                "<|eot_id|>"
            "{% endif %}"
            "{% if message.role == 'assistant' %}"
                "<|start_header_id|>assistant<|end_header_id|>"
                "{{message.content}}"
                "<|eot_id|>"
            "{% endif %}"
        "{% endfor %}"
        "<|end_of_text|>"
    )

### Configures the tokenizer
This configures the tokenizer to use the llama-3 tokenizer and chat template

In [7]:
# Initialize the tokenizer with specific adjustments
tokenizer = AutoTokenizer.from_pretrained(model_id, revision="refs/pr/8")
tokenizer.padding_side = 'right'
tokenizer.pad_token = tokenizer.eos_token
tokenizer.chat_template = get_llama3_chat_template()

tokenizer_config.json:   0%|          | 0.00/51.0k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.08M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/73.0 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


## Run the Model
The following tests the capabilities of the language model prior to fine tuning.

In [8]:
# Run text generation pipeline with our next model
prompt = "อยากรู้ว่าต้องทำยังไงคะมีอาการคันอวัยวะเพศภายนอกมาก"
# prompt = "How hot is 7 degrees Calvin on the Calvin Scale?"
#prompt = "<|begin_of_text|><|start_header_id|>system<|end_header_id|>{'prompt': 'You are a helpful assistant'}<|eot_id|><|start_header_id|>user<|end_header_id|>How hot is 122 degrees Calvin on the Calvin Scale?<|eot_id|><|start_header_id|>assistant<|end_header_id|>"
#prompt = "<|begin_of_text|><|start_header_id|>system<|end_header_id|>{'prompt': 'You are a helpful assistant'}<|eot_id|><|start_header_id|>user<|end_header_id|>Write a Poem about the Calvin Scale<|eot_id|><|start_header_id|>assistant<|end_header_id|>"
#prompt = "Who is Ada Lovelace?"
#prompt = "<|begin_of_text|><|start_header_id|>system<|end_header_id|>{'prompt': 'You are a helpful assistant'}<|eot_id|><|start_header_id|>user<|end_header_id|>Who is Ada Lovelace?<|eot_id|><|start_header_id|>assistant<|end_header_id|>"
#prompt = "What would you classify the typical weather in Arizona in the summer as according to the Calvin Scale?"
#prompt = "How hot is 9 degrees Calvin on the Calvin Scale?"
#prompt = "Write a poem about the Calvin Scale in limerick style"
#prompt = "<|begin_of_text|><|start_header_id|>system<|end_header_id|>{'prompt': 'You are a helpful assistant'}<|eot_id|><|start_header_id|>user<|end_header_id|>What would you classify the typical weather in Arizona in the summer as according to the Calvin Scale?<|eot_id|><|start_header_id|>assistant<|end_header_id|>"

# execute the query
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=200)
result = pipe(f"{prompt}")

# show the result
print(result[0]['generated_text'])

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


อยากรู้ว่าต้องทำยังไงคะมีอาการคันอวัยวะเพศภายนอกมากขึ้น

นี่คือตัวอย่างที่แสดงให้เห็นว่า "ความสัมพันธ์" ของเราไม่เพียงแค่ "ความสัมพันธ์" ระหว่าง "ตัวเรา" กับ "ตัวเราเอง" แต่ยังรวมไปถึง "ความสัมพันธ์" ระหว่าง "ตัวเรา" กับ "สิ่งรอบข้าง" ด้วย

เรื่องนี้ทำให้เราเห็นความสำคัญของ "ความสัมพันธ์" ในชีวิตของเรา และทำให้เราเห็นว่า "ความสัมพันธ์" ไม่เพียงแค่ "ความสัมพันธ์" ระหว่าง "ตัวเรา" กับ "ตัวเราเอง" แต่ยังมีความสัมพันธ์ระหว่าง "


# Train the Model
We now get ready to train the model

## Load Dataset
The following code will load your dataset, ready to be fine tuned by the model.


In [9]:
from datasets import load_dataset

# Load the dataset
dataset = load_dataset(dataset_name, split="train")
dataset

Downloading readme:   0%|          | 0.00/21.0 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/185M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/189190 [00:00<?, ? examples/s]

Dataset({
    features: ['text'],
    num_rows: 189190
})

### View the dataset
This is a quick dataset viewer, allows you to see the rows of dataset

In [10]:
import pandas as pd

# Convert to pandas DataFrame
df = pd.DataFrame(dataset)

# Display the first few rows of the DataFrame to understand its structure
print(df.head())

# Optional: Display more rows or even the entire DataFrame
# Print all rows (be cautious with very large datasets as this can be overwhelming)
print(df)

# Print a specific number of rows, for example, the first 20 rows
print(df.head(20))

                                                text
0  <s>[INST] สวัสดีค่ะ อยากรู้ว่าต้องทำยังไงคะมีอ...
1  <s>[INST] อยากทราบว่ากินยาคลุมฉุกเฉินชนิด 1 เม...
2  <s>[INST] ไม่รู้ว่าใช่ประจำเดือนหรือป่าว แต่เล...
3  <s>[INST] ตอนนี้หนูอายุ13ปีและหนูเป็นนางรำของร...
4  <s>[INST] ตามต้นหัวข้อเลยค่ะ เราเป็นคนที่คิดมา...
                                                     text
0       <s>[INST] สวัสดีค่ะ อยากรู้ว่าต้องทำยังไงคะมีอ...
1       <s>[INST] อยากทราบว่ากินยาคลุมฉุกเฉินชนิด 1 เม...
2       <s>[INST] ไม่รู้ว่าใช่ประจำเดือนหรือป่าว แต่เล...
3       <s>[INST] ตอนนี้หนูอายุ13ปีและหนูเป็นนางรำของร...
4       <s>[INST] ตามต้นหัวข้อเลยค่ะ เราเป็นคนที่คิดมา...
...                                                   ...
189185  <s>[INST] เรียน ดร.ลุนดี ฉันเป็นหญิงอายุ 39 ปี...
189186  <s>[INST] สวัสดี ฉันเป็นผู้ชายอายุ 55 ปี เป็นโ...
189187  <s>[INST] สามีของฉันเข้ารับการรักษาในโรงพยาบาล...
189188  <s>[INST] เมื่อสัปดาห์ที่แล้วฉันถอดยาทาเล็บสีแ...
189189  <s>[INST] ฉันมีลูกสาวอายุ 3 ขวบและเพ

In [11]:
df

Unnamed: 0,text
0,<s>[INST] สวัสดีค่ะ อยากรู้ว่าต้องทำยังไงคะมีอ...
1,<s>[INST] อยากทราบว่ากินยาคลุมฉุกเฉินชนิด 1 เม...
2,<s>[INST] ไม่รู้ว่าใช่ประจำเดือนหรือป่าว แต่เล...
3,<s>[INST] ตอนนี้หนูอายุ13ปีและหนูเป็นนางรำของร...
4,<s>[INST] ตามต้นหัวข้อเลยค่ะ เราเป็นคนที่คิดมา...
...,...
189185,<s>[INST] เรียน ดร.ลุนดี ฉันเป็นหญิงอายุ 39 ปี...
189186,<s>[INST] สวัสดี ฉันเป็นผู้ชายอายุ 55 ปี เป็นโ...
189187,<s>[INST] สามีของฉันเข้ารับการรักษาในโรงพยาบาล...
189188,<s>[INST] เมื่อสัปดาห์ที่แล้วฉันถอดยาทาเล็บสีแ...


In [12]:
print(df.loc[0,'text'])

<s>[INST] สวัสดีค่ะ อยากรู้ว่าต้องทำยังไงคะมีอาการคันอวัยวะเพศภายนอกมาก คันจนรู้สึกไม่อยากทำอะไรเลยค่ะ พยายามไม่เกา พยายามล้างน้ำ แต่ก็ยังคันรู้สึกแสบๆแต่ไม่มีตุมขึ้นนะคะ ยิ่งตอนกลางคืนนี่ยิ่งคันนอนไม่หลับเลยค่ะ นี่ก็คิดว่าเป็นเพราะอ้อยมันไปถิ่มที่จุดตรงนั้น เพราะที่จุดตรงนั้นดูเหมือนจะแดงๆน่ะคะ ก็เลยโกน พอโกนแล้วมันเป็นตอนี่ยิ่งไปกันใหญ่ ยิ่งคัน ไอ้ที่เป็นตอคงจะไปถิ่มจุดตรงนั้น ตอนนี้คันมากค่ะ นอนไม่หลับเลย ทรมานมากๆ พอมีทางแก้หรืออะไรช่วยหน่อยนะคะ แล้วคันนี่จะคันกี่วันคะ เป็นมาสองสามวันแล้วคะ คือ..อายุ14ค่ะ ไม่กล้าปรึกษาใครเลยเพราะตัวเองยังเด็กมากๆแล้วให้ถามแม่ก็ไม่กล้าถามหมด อายมากค่ะ ก็เลยมาปรึกษาคุณดู รบกวนด้วยนะคะ ขอบค่ะ [/INST] สวัสดีค่ะ อาการคันอวัยวะเพศหญิง อาจเกิดจาก-รูขุมขนบริเวณขนอวัยวะเพศอักเสบ หรือระคายเคืองจากการไปโกนออก-การติดเชื้อราในช่องคลอด โดยมักมีตกขาวปริมาณมาก มีสีขาวขุ่นจับตัวเป็นก้อนคล้ายแป้งเปียกหรือนมบูด-การติดเชื้อแบคทีเรียหรือโพรโทซัวในช่องคลอด อาจคัน และมีตกขาวสีเขียวหรือเหลือง มีกลิ่นเหม็นผิดปกติ-ติดเชื้อราบริเวณอวัยวะเพศภายนอก มักเกิดเป็นผื่นสีแดง มีขุย แ

In [13]:
from IPython.display import Markdown, display

Markdown(f"**{df.loc[0,'text']}**")


**<s>[INST] สวัสดีค่ะ อยากรู้ว่าต้องทำยังไงคะมีอาการคันอวัยวะเพศภายนอกมาก คันจนรู้สึกไม่อยากทำอะไรเลยค่ะ พยายามไม่เกา พยายามล้างน้ำ แต่ก็ยังคันรู้สึกแสบๆแต่ไม่มีตุมขึ้นนะคะ ยิ่งตอนกลางคืนนี่ยิ่งคันนอนไม่หลับเลยค่ะ นี่ก็คิดว่าเป็นเพราะอ้อยมันไปถิ่มที่จุดตรงนั้น เพราะที่จุดตรงนั้นดูเหมือนจะแดงๆน่ะคะ ก็เลยโกน พอโกนแล้วมันเป็นตอนี่ยิ่งไปกันใหญ่ ยิ่งคัน ไอ้ที่เป็นตอคงจะไปถิ่มจุดตรงนั้น ตอนนี้คันมากค่ะ นอนไม่หลับเลย ทรมานมากๆ พอมีทางแก้หรืออะไรช่วยหน่อยนะคะ แล้วคันนี่จะคันกี่วันคะ เป็นมาสองสามวันแล้วคะ คือ..อายุ14ค่ะ ไม่กล้าปรึกษาใครเลยเพราะตัวเองยังเด็กมากๆแล้วให้ถามแม่ก็ไม่กล้าถามหมด อายมากค่ะ ก็เลยมาปรึกษาคุณดู รบกวนด้วยนะคะ ขอบค่ะ [/INST] สวัสดีค่ะ อาการคันอวัยวะเพศหญิง อาจเกิดจาก-รูขุมขนบริเวณขนอวัยวะเพศอักเสบ หรือระคายเคืองจากการไปโกนออก-การติดเชื้อราในช่องคลอด โดยมักมีตกขาวปริมาณมาก มีสีขาวขุ่นจับตัวเป็นก้อนคล้ายแป้งเปียกหรือนมบูด-การติดเชื้อแบคทีเรียหรือโพรโทซัวในช่องคลอด อาจคัน และมีตกขาวสีเขียวหรือเหลือง มีกลิ่นเหม็นผิดปกติ-ติดเชื้อราบริเวณอวัยวะเพศภายนอก มักเกิดเป็นผื่นสีแดง มีขุย และคันมากผิวหนังอาจมีลักณะบวมแดงลอกก็ได้-การระคายเคืองหรือแพ้สัมผัสจากสารเคมีต่างๆ เช่น อาจแพ้ผงซักฟอก หรือน้ำยาที่ใช้ซักกางเกงใน แพ้น้ำยาปรับผ้านุ่ม แพ้ผ้าอนามัย แพ้แป้งที่นำมาทาบริเวณอวัยวะเพศภายนอกเบื้องต้นแนะนำไม่ไปโกนบริเวณอวัยวะเพศเพิ่มเติม ไม่สวนล้างช่องคลอด ใช้น้ำเปล่าหรือน้ำสบู่อ่อนๆทำความสะอาดบริเวณอวัยวะเพศภายนอกเท่านั้น งดการมีเพศสัมพันธ์ไปกอน และไปพบแพทย์เพื่อตรวจร่างกายให้ได้การวินิจฉัยที่แน่นอนสังเกตอาการถ้าคันมากขึ้นเรื่อยๆ ตกขาวมีเลือดปน บวมและปวดช่องคลอดหรือปากช่องคลอดมาก มีเลือดออกผิดปกติจากช่องคลอด ปัสสาวะแสบขัดหรือปนเลือดควรรีบไปพบแพทย์ </s>**

## Fine Tune the model
We can now kick off the training loop

In [12]:
from peft import LoraConfig, get_peft_model

config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["lm_head","all-linear"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, config)
# print_trainable_parameters(model)

In [None]:
import torch
from transformers import (
    AutoModelForCausalLM,
    AutoTokenizer,
    BitsAndBytesConfig,
    HfArgumentParser,
    TrainingArguments,
    pipeline,
    logging,
)
from peft import LoraConfig, PeftModel
from trl import SFTTrainer,SFTConfig

# # Load LoRA configuration
# peft_config = LoraConfig(
#     lora_alpha=32,
#     lora_dropout=0.1,
#     r=16,
#     bias="none",
#     task_type="CAUSAL_LM",
# )


def objective(trial):
    # Hyperparameters to tune
    lora_alpha = trial.suggest_int('lora_alpha', 4, 32)
    r = trial.suggest_int('r', 4, 64)

    # Define LoRA configuration
    peft_config = LoraConfig(
        lora_alpha=lora_alpha,
        lora_dropout=0.1,
        r=r,
        bias="none",
        task_type="CAUSAL_LM",
    )


# Set training parameters
# training_arguments = TrainingArguments(
training_arguments = SFTConfig(
    output_dir=output_dir,
    num_train_epochs=num_train_epochs,      # uses the number of epochs earlier
    per_device_train_batch_size=1,          # 2 seems reasonable (made smaller due to CUDA memory issues)
    gradient_accumulation_steps=2,          # 2 is fine, as we're a small batch
    optim="paged_adamw_8bit",              # default optimizer
    save_steps=0,                           # we're not gonna save
    logging_steps=10,                       # same value as used by Meta
    learning_rate=2e-4,                     # standard learning rate
    weight_decay=0.001,                     # standard weight decay 0.001
    fp16=False,                             # set to true for A100
    bf16=False,                             # set to true for A100
    max_grad_norm=0.3,                      # standard setting
    max_steps=-1,                           # needs to be -1, otherwise overrides epochs
    warmup_ratio=0.03,                      # standard warmup ratio
    group_by_length=True,                   # speeds up the training
    lr_scheduler_type="cosine"          # constant seems better than cosine

)

# Set supervised fine-tuning parameters
trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    peft_config=peft_config,                # use our lora peft config
    dataset_text_field="text",
    max_seq_length=200,                    # no max sequence length
    tokenizer=tokenizer,                    # use the llama tokenizer
    # args=training_arguments,                # use the training arguments
    packing=True,                          # don't need packing
)

# Train model
trainer.train()

# Save trained model
trainer.model.save_pretrained(new_model)


Deprecated positional argument(s) used in SFTTrainer, please use the SFTConfig to set these arguments instead.


Generating train split: 0 examples [00:00, ? examples/s]

Step,Training Loss


### Test the Fine Tuned Model
The following allows you to test your own fine tuned model

In [None]:
# Run text generation pipeline with our next model
#prompt = "Who is Ada Lovelace?"
#prompt = "How hot is 9 degrees Calvin on the Calvin Scale?"
#prompt = "Write a poem about the Calvin Scale in limerick style"
prompt = "<|begin_of_text|><|start_header_id|>system<|end_header_id|>{'prompt': 'You are a helpful assistant'}<|eot_id|><|start_header_id|>user<|end_header_id|>How hot is 9 degrees Calvin on the Calvin Scale?<|eot_id|><|start_header_id|>assistant<|end_header_id|>"
#prompt = " "

# execute the query
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=200)
result = pipe(f"{prompt}")

# show the result
print(result[0]['generated_text'])

<|begin_of_text|><|start_header_id|>system<|end_header_id|>{'prompt': 'You are a helpful assistant'}<|eot_id|><|start_header_id|>user<|end_header_id|>How hot is 9 degrees Calvin on the Calvin Scale?<|eot_id|><|start_header_id|>assistant<|end_header_id|>Hot


In [None]:
# Run text generation pipeline with our next model
#prompt = "Who is Ada Lovelace?"
#prompt = "How hot is 9 degrees Calvin on the Calvin Scale?"
prompt = "Write a poem about the Calvin Scale in limerick style"
#prompt = "<|begin_of_text|><|start_header_id|>system<|end_header_id|>{'prompt': 'You are a helpful assistant'}<|eot_id|><|start_header_id|>user<|end_header_id|>How hot is 9 degrees Calvin on the Calvin Scale?<|eot_id|><|start_header_id|>assistant<|end_header_id|>"
#prompt = " "

# execute the query
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=200)
result = pipe(f"{prompt}")

# show the result
print(result[0]['generated_text'])

Write a poem about the Calvin Scale in limerick style. A limerick is a type of poem that has five lines, with a specific rhyming scheme. The first, second, and last lines rhyme, while the third and fourth lines rhyme. Here's a limerick about the Calvin Scale:

There once was a scale, you see,
Calvin's, with categories for me,
Hot, Warm, Cold, or Bold,
How would you describe the weather to hold?
On the Calvin Scale, that's where I'd be! 

Categories: Hot, Warm, Cold, Bold
Tags: Calvin Scale, Weather, Temperature, Categories, Limerick, Poetry

Note: The Calvin Scale is a classification system for describing the temperature of the weather. It's not commonly used in everyday conversation, but it's an interesting topic for a limerick. If you want to write a limerick about a more common topic, I'd be happy to help you


In [None]:
# Run text generation pipeline with our next model
prompt = "Who is Ada Lovelace?"
#prompt = "How hot is 9 degrees Calvin on the Calvin Scale?"
#prompt = "Write a poem about the Calvin Scale in limerick style"
#prompt = "<|begin_of_text|><|start_header_id|>system<|end_header_id|>{'prompt': 'You are a helpful assistant'}<|eot_id|><|start_header_id|>user<|end_header_id|>How hot is 9 degrees Calvin on the Calvin Scale?<|eot_id|><|start_header_id|>assistant<|end_header_id|>"
#prompt = " "

# execute the query
pipe = pipeline(task="text-generation", model=model, tokenizer=tokenizer, max_length=200)
result = pipe(f"{prompt}")

# show the result
print(result[0]['generated_text'])

Who is Ada Lovelace? Ada Lovelace is often considered the first computer programmer, as she is credited with writing the first algorithm intended to be processed by a machine. She is also known as the "Mother of the Computer" and is considered one of the most important figures in the development of computer programming. Lovelace was born in 1815 and died in 1842. She is best known for her work on Charles Babbage's Analytical Engine, a proposed mechanical general-purpose computer. Her work on the Analytical Engine's programming language, known as the "Notes on the Analytical Engine", is considered a fundamental contribution to the development of computer programming. Lovelace's work on the Analytical Engine's programming language is also considered the first computer program, as it was designed to be executed by a machine. Lovelace's contributions to the development of computer programming have been recognized and celebrated for centuries, and she is often referred to as the "Mother of 

## Clear the Model
The following will clear the model from memory

In [None]:
# Empty VRAM
del model
del pipe
del trainer

# clear memory
import torch
torch.cuda.empty_cache()

# garbage collect
import gc
gc.collect()
gc.collect()

0

## Merge the Model

In [None]:
# Reload model in FP16 and merge it with LoRA weights
base_model = AutoModelForCausalLM.from_pretrained(
    model_id,
    low_cpu_mem_usage=True,
    return_dict=True,
    torch_dtype=torch.float16,
    device_map={"": 0},
)
model = PeftModel.from_pretrained(base_model, new_model)
model = model.merge_and_unload()

# Reload tokenizer to save it
# Initialize the tokenizer with specific adjustments
tokenizer = AutoTokenizer.from_pretrained(model_id, revision="refs/pr/8")
tokenizer.padding_side = 'right'
tokenizer.pad_token = tokenizer.eos_token
tokenizer.chat_template = get_llama3_chat_template()

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


In [None]:
model.push_to_hub("llama-3-8b-thaimed", use_temp_dir=False)
tokenizer.push_to_hub("llama-3-8b-thaimed", use_temp_dir=False)

model-00001-of-00004.safetensors:   0%|          | 0.00/4.98G [00:00<?, ?B/s]

model-00004-of-00004.safetensors:   0%|          | 0.00/1.17G [00:00<?, ?B/s]

model-00002-of-00004.safetensors:   0%|          | 0.00/5.00G [00:00<?, ?B/s]

Upload 4 LFS files:   0%|          | 0/4 [00:00<?, ?it/s]

model-00003-of-00004.safetensors:   0%|          | 0.00/4.92G [00:00<?, ?B/s]

README.md:   0%|          | 0.00/5.17k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/chrishayuk/llama-3-8b-calvinscale/commit/e8681eec7be2eb6fd236e4dfc5809752550189d7', commit_message='Upload tokenizer', commit_description='', oid='e8681eec7be2eb6fd236e4dfc5809752550189d7', pr_url=None, pr_revision=None, pr_num=None)