In [None]:
%%capture
# Installs Unsloth, Xformers (Flash Attention) and all other packages!
!pip install --upgrade pip 
!pip install "unsloth[cu126-torch260] @ git+https://github.com/unslothai/unsloth.git"
!pip install --no-deps xformers trl peft accelerate bitsandbytes

In [1]:
from unsloth import FastLanguageModel
import torch
max_seq_length = 5632 # Choose any! We auto support RoPE Scaling internally!
dtype = None # None for auto detection. Float16 for Tesla T4, V100, Bfloat16 for Ampere+
load_in_4bit = True # Use 4bit quantization to reduce memory usage. Can be False.

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/gemma-2b-it-bnb-4bit", # Choose ANY! eg teknium/OpenHermes-2.5-Mistral-7B
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit
)

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


  from .autonotebook import tqdm as notebook_tqdm
    PyTorch 2.6.0+cu126 with CUDA 1206 (you have 2.6.0+cu124)
    Python  3.10.16 (you have 3.10.12)
  Please reinstall xformers (see https://github.com/facebookresearch/xformers#installing-xformers)
  Memory-efficient attention, SwiGLU, sparse and more won't be available.
  Set XFORMERS_MORE_DETAILS=1 for more details


🦥 Unsloth Zoo will now patch everything to make training faster!


2025-03-14 09:15:11,645	INFO util.py:154 -- Missing packages: ['ipywidgets']. Run `pip install -U ipywidgets`, then restart the notebook server for rich notebook output.


==((====))==  Unsloth 2025.3.10: Fast Gemma patching. Transformers: 4.49.0. vLLM: 0.7.3.
   \\   /|    NVIDIA GeForce RTX 3060. Num GPUs = 1. Max memory: 12.0 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 8.6. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = TRUE. FA [Xformers = None. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


In [2]:
model = FastLanguageModel.get_peft_model(
    model,
    r = 16, # Choose any number > 0 ! Suggested 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj",],
    lora_alpha = 16,
    lora_dropout = 0, # Supports any, but = 0 is optimized
    bias = "none",    # Supports any, but = "none" is optimized
    # [NEW] "unsloth" uses 30% less VRAM, fits 2x larger batch sizes!
    use_gradient_checkpointing = "unsloth", # True or "unsloth" for very long context
    random_state = 3407,
    use_rslora = False,  # We support rank stabilized LoRA
    loftq_config = None, # And LoftQ
)

Unsloth 2025.3.10 patched 18 layers with 18 QKV layers, 18 O layers and 18 MLP layers.


In [3]:
from datasets import load_dataset
dataset = load_dataset("kyujinpy/KOpen-platypus")

In [4]:
dataset

DatasetDict({
    train: Dataset({
        features: ['input', 'output', 'instruction', 'data_source'],
        num_rows: 24926
    })
})

In [5]:
dataset['train'][0]

{'input': '',
 'output': '모든 가능한 결과의 확률의 합이 1$이므로, 스피너가 $C$에 착륙할 확률을 구하려면 스피너가 $A$와 $B$에 착륙할 확률을 1$에서 빼야 합니다. 이를 방정식으로 쓸 수 있습니다: $P(C) = 1 - P(A) - P(B)$. P(A) = \\frac{1}{3}$, $P(B) = \\frac{5}{12}$라는 것을 알고 있으므로 이 값을 방정식에 대입하여 단순화할 수 있습니다. 결과는 다음과 같습니다: P(C) = 1 - \\frac{1}{3} - frac{5}{12} = \\frac{12}{12} - frac{4}{12} - frac{5}{12} = \\frac{3}{12}$. 분자와 분모를 $3$로 나누면 이 분수를 줄일 수 있습니다: P(C) = \\frac{1}{4}$입니다.',
 'instruction': '보드 게임 스피너는 $A$, $B$, $C$로 표시된 세 부분으로 나뉩니다. 스피너가 $A$에 떨어질 확률은 $\\frac{1}{3}$이고, 스피너가 $B$에 떨어질 확률은 $\\frac{5}{12}$입니다.  스피너가 $C$에 착륙할 확률은 얼마입니까? 답을 공통 분수로 표현하세요.',
 'data_source': 'MATH/PRM-800K'}

In [6]:
train_data = dataset['train']

In [7]:
messages = [
    {"role": "user",
        "content": train_data[0]['instruction']
    }
]

chat_message = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
chat_message


'<bos><start_of_turn>user\n보드 게임 스피너는 $A$, $B$, $C$로 표시된 세 부분으로 나뉩니다. 스피너가 $A$에 떨어질 확률은 $\\frac{1}{3}$이고, 스피너가 $B$에 떨어질 확률은 $\\frac{5}{12}$입니다.  스피너가 $C$에 착륙할 확률은 얼마입니까? 답을 공통 분수로 표현하세요.<end_of_turn>\n<start_of_turn>model\n'

In [8]:
def generate_prompt(data):
    output_texts = []
    messages = [
        {
            "role": "user",
            "content": data['instruction']
        },
        {
            "role": "model",
            "content": data['output']
        }
    ]
    chat_message = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
    chat_message += '<eos>'
    output_texts.append(chat_message)
    return output_texts

In [9]:
chat_message = generate_prompt(train_data[0])
chat_message

['<bos><start_of_turn>user\n보드 게임 스피너는 $A$, $B$, $C$로 표시된 세 부분으로 나뉩니다. 스피너가 $A$에 떨어질 확률은 $\\frac{1}{3}$이고, 스피너가 $B$에 떨어질 확률은 $\\frac{5}{12}$입니다.  스피너가 $C$에 착륙할 확률은 얼마입니까? 답을 공통 분수로 표현하세요.<end_of_turn>\n<start_of_turn>model\n모든 가능한 결과의 확률의 합이 1$이므로, 스피너가 $C$에 착륙할 확률을 구하려면 스피너가 $A$와 $B$에 착륙할 확률을 1$에서 빼야 합니다. 이를 방정식으로 쓸 수 있습니다: $P(C) = 1 - P(A) - P(B)$. P(A) = \\frac{1}{3}$, $P(B) = \\frac{5}{12}$라는 것을 알고 있으므로 이 값을 방정식에 대입하여 단순화할 수 있습니다. 결과는 다음과 같습니다: P(C) = 1 - \\frac{1}{3} - frac{5}{12} = \\frac{12}{12} - frac{4}{12} - frac{5}{12} = \\frac{3}{12}$. 분자와 분모를 $3$로 나누면 이 분수를 줄일 수 있습니다: P(C) = \\frac{1}{4}$입니다.<end_of_turn>\n<eos>']

In [10]:
def formatting_prompts_func(examples):
    instructions = examples["instruction"]
    inputs       = examples["input"]
    outputs      = examples["output"]
    texts = []
    for instruction, input, output in zip(instructions, inputs, outputs):
        if len(input.strip()) > 0 :
            instruction = f"{instruction}\n\n{input}"
        messages = [
            {
                "role": "user",
                "content": instruction
            },
        ]
        messages.append(
            {
                "role": "model",
                "content": output
            }
        )            
        chat_message = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
        chat_message += '<eos>'
        texts.append(chat_message)
    return { "text" : texts, }
pass

from datasets import load_dataset
dataset = load_dataset("kyujinpy/KOpen-platypus", split = "train")
dataset = dataset.map(formatting_prompts_func, batched = True,)

In [11]:
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported
import math

batch_size = 2
training_args = TrainingArguments(
    per_device_train_batch_size = batch_size,
    gradient_accumulation_steps = 4,
    warmup_steps = 5,
    max_steps = 100,
    learning_rate = 2e-5,
    fp16 = not is_bfloat16_supported(),
    bf16 = is_bfloat16_supported(),
    logging_steps = 10,
    optim = "adamw_8bit",
    weight_decay = 0.01,
    lr_scheduler_type = "linear",
    seed = 3407,
    output_dir = "outputs",
)

In [12]:
from trl import SFTTrainer
from transformers import TrainingArguments
from unsloth import is_bfloat16_supported
import math

trainer = SFTTrainer(
    model=model,
    train_dataset=dataset,
    tokenizer=tokenizer,
    dataset_text_field = "text",
    args=training_args,
    formatting_func=formatting_prompts_func,
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False, # Can make training 5x faster for short sequences.
)

Unsloth: We found double BOS tokens - we shall remove one automatically.


In [13]:
gpu_stats = torch.cuda.get_device_properties(0)
start_gpu_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
print(f"{start_gpu_memory} GB of memory reserved.")

GPU = NVIDIA GeForce RTX 3060. Max memory = 12.0 GB.
2.047 GB of memory reserved.


In [14]:
trainer_stats = trainer.train()

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 24,926 | Num Epochs = 1 | Total steps = 100
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 19,611,648/1,534,879,744 (1.28% trained)


Unsloth: Will smartly offload gradients to save VRAM!


Step,Training Loss
10,10.8056
20,11.618
30,12.2842
40,8.4795
50,8.2653
60,7.4684
70,6.2298
80,6.4551
90,6.4529
100,5.36


In [15]:
from transformers import TextStreamer, GenerationConfig

streamer = TextStreamer(tokenizer)

def gen(prompt):
    generation_config = GenerationConfig(
        temperature = 1.31,
        max_new_tokens = 512,
        exponential_decay_length_penalty = (512, 1.03),
        eos_token_id = tokenizer.eos_token_id,
        repetition_penalty = 1.17,
        do_sample = True,
        top_k = 49,
        top_p = 0.14,
        min_length = 5,
        use_cache = True,
        return_dict_in_generate = True
    )
    gened = model.generate(
        **tokenizer(
            prompt,
            return_tensors='pt',
            return_token_type_ids=False
        ).to("cuda"),
        generation_config=generation_config,
        streamer=streamer
    )

In [16]:
messages = [
    {"role": "user", 
     "content": "이순신 장군에 대해 설명해주세요."},
]
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) 

gen(prompt)

<bos><bos><start_of_turn>user
이순신 장군에 대해 설명해주세요.<end_of_turn>
<start_of_turn>model
**이순신 장군**은 조선의 제10대 국왕인 문종과 그의 후궁인 김씨의 아들로, 1397년 1월 1일부터 1450년 12월 28일에 걸쳐 조선을 평화시키고 발전시킨 것으로 알려져 있습니다.

**이순신의 평화 정책**은 다음과 같습니다.

* **세상을 평등하게 만들기:** 이순신은 세상을 평등하게 만들기 위해 노력했으며, 특히 인간의 자본과 힘을 기록하는 것을 중점적으로 했습니다.
* **국민의 자본과 힘을 기록하기:** 이순신은 국민의 자본과 힘을 기록하도록 촉구했습니다.
* **국민의 교육과 훈련:** 이순신은 국민의 교육과 훈련을 강조했습니다.
* **국민의 안전과 평등:** 이순신은 국민의 안전과 평등을 강조했습니다.

**이순신의 평화 정책은 다음과 같은 결과를 가져왔습니다.**

* **조선의 경제가 발전:** 이순신의 평화 정책은 조선의 경제를 발전시켰습니다.
* **조선의 문화가 발전:** 이순신의 평화 정책은 조선의 문화를 발전시켰습니다.
* **조선의 국경이 확장:** 이순신의 평화 정책은 조선의 국경을 확장시켰습니다.
* **조선의 평등과 평등:** 이순신의 평화 정책은 조선의 평등과 평등을 유지했습니다.

**이순신은 평화와 발전을 위한 중요한 지도자였습니다.** 그의 평화 정책은 조선의 역사에서 가장 중요한 평화 정책 중 하나로 남겨졌습니다.<eos>


In [17]:
save_directory = "./trained_model"
model.save_pretrained(save_directory)
tokenizer.save_pretrained(save_directory)

('./trained_model/tokenizer_config.json',
 './trained_model/special_tokens_map.json',
 './trained_model/tokenizer.model',
 './trained_model/added_tokens.json',
 './trained_model/tokenizer.json')

In [18]:
import os
from huggingface_hub import HfApi, login

login(token=os.getenv("HUGGINGFACE_TOKEN"))

In [19]:
repo_name = "bardroh/gemma_train"
model.push_to_hub(repo_name)
tokenizer.push_to_hub(repo_name)

100%|██████████| 1/1 [00:52<00:00, 52.04s/it]


Saved model to https://huggingface.co/bardroh/gemma_train


100%|██████████| 1/1 [00:18<00:00, 18.68s/it]
