In [1]:
%%capture
import torch

major_version, minor_version = torch.cuda.get_device_capability()

!pip install "unsloth[colab-new] @git+https://github.com/unslothai/unsloth.git"

if major_version >= 8:
    !pip install --no-deps packaging ninja einops flash-attn xformers trl peft accelerate bitsandbytes
else:
    !pip install --no-deps xformers trl peft accelerate bitsandbytes
pass

In [2]:
# Gerekli kütüphaneleri yükleyelim.
from unsloth import FastLanguageModel
import torch
from datasets import load_dataset

# Model ayarları
max_seq_length = 2048
dtype = None
load_in_4bit = True

fourbit_models = [
    "unsloth/mistral-7b-bnb-4bit",
    "unsloth/mistral-7b-instruct-v0.2-bnb-4bit",
    "unsloth/llama-2-7b-bnb-4bit",
    "unsloth/gemma-7b-bnb-4bit",
    "unsloth/gemma-7b-it-bnb-4bit",
    "unsloth/gemma-2b-bnb-4bit",
    "unsloth/gemma-2b-it-bnb-4bit",
    "unsloth/llama-3-8b-bnb-4bit",
]

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name = "unsloth/llama-3-8b-bnb-4bit",
    max_seq_length = max_seq_length,
    dtype = dtype,
    load_in_4bit = load_in_4bit,
)

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
🦥 Unsloth Zoo will now patch everything to make training faster!
==((====))==  Unsloth 2025.3.19: Fast Llama patching. Transformers: 4.50.0.
   \\   /|    Tesla T4. Num GPUs = 1. Max memory: 14.741 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 7.5. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = FALSE. FA [Xformers = 0.0.29.post3. FA2 = False]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


model.safetensors:   0%|          | 0.00/5.70G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/198 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/50.6k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

In [3]:
# LoRA adapter ekleyelim: sadece %1-10 oranında parametreyi güncelleyeceğiz.
model = FastLanguageModel.get_peft_model(
    model,
    r = 16,  # Önerilen: 8, 16, 32, 64, 128
    target_modules = ["q_proj", "k_proj", "v_proj", "o_proj",
                      "gate_proj", "up_proj", "down_proj"],
    lora_alpha = 16,
    lora_dropout = 0,
    bias = "none",
    use_gradient_checkpointing = "unsloth",
    random_state = 3407,
    use_rslora = False,
    loftq_config = None,
)

Unsloth 2025.3.19 patched 32 layers with 32 QKV layers, 32 O layers and 32 MLP layers.


In [5]:
# Türkçe Alpaca tarzı prompt şablonu
turkish_prompt = """Aşağıda, bir görevi tanımlayan açıklama bulunmaktadır. Lütfen verilen girdiye uygun bir yanıt yazınız.

### Görev:
{}

### Girdi:
{}

### Yanıt:
{}"""

EOS_TOKEN = tokenizer.eos_token  # Generation’ın sonsuz gitmesini önlemek için EOS_TOKEN eklenmeli.

def formatting_prompts_func(examples):
    # Eğer datasetinizde "instruction", "input", "output" alanları varsa
    instructions = examples["instruction"]
    inputs       = examples["input"]
    outputs      = examples["output"]
    texts = []
    for instruction, input_text, output in zip(instructions, inputs, outputs):
        text = turkish_prompt.format(instruction, input_text, output) + EOS_TOKEN
        texts.append(text)
    return { "text": texts }

# Hugging Face’den Türkçe bir Alpaca dataset’i yükleyelim.
# (Aşağıdaki dataset ismini, Hugging Face üzerinde mevcut Türkçe bir Alpaca dataset’i ile değiştirin.)
dataset = load_dataset("TFLai/Turkish-Alpaca", split="train")
dataset = dataset.map(formatting_prompts_func, batched=True)

README.md:   0%|          | 0.00/118 [00:00<?, ?B/s]

data.json:   0%|          | 0.00/24.2M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/51914 [00:00<?, ? examples/s]

Map:   0%|          | 0/51914 [00:00<?, ? examples/s]

In [6]:
# Eğitim için TRL SFTTrainer kullanımı
from trl import SFTTrainer
from transformers import TrainingArguments

trainer = SFTTrainer(
    model = model,
    tokenizer = tokenizer,
    train_dataset = dataset,
    dataset_text_field = "text",
    max_seq_length = max_seq_length,
    dataset_num_proc = 2,
    packing = False,  # Kısa dizilerde eğitim 5 kat hızlanır.

    args = TrainingArguments(
        per_device_train_batch_size = 2,
        gradient_accumulation_steps = 4,
        warmup_steps = 5,
        max_steps = 60,  # Hızlandırılmış örnek eğitim, tam eğitim için ayarlanabilir.
        learning_rate = 2e-4,
        fp16 = not torch.cuda.is_bf16_supported(),
        bf16 = torch.cuda.is_bf16_supported(),
        logging_steps = 1,
        optim = "adamw_8bit",
        weight_decay = 0.01,
        lr_scheduler_type = "linear",
        seed = 3407,
        output_dir = "outputs",
    ),
)

Unsloth: Tokenizing ["text"] (num_proc=2):   0%|          | 0/51914 [00:00<?, ? examples/s]

In [7]:
# GPU bilgilerini gösterelim.
if torch.cuda.is_available():
    gpu_stats = torch.cuda.get_device_properties(0)
    allocated_gpu_memory = round(torch.cuda.memory_allocated(0) / 1024 / 1024 / 1024, 3)
    max_memory = round(gpu_stats.total_memory / 1024 / 1024 / 1024, 3)
    print(f"GPU = {gpu_stats.name}. Max memory = {max_memory} GB.")
    print(f"{allocated_gpu_memory} GB GPU belleği kullanılıyor.")
else:
    print("CUDA bu sistemde kullanılamıyor.")

GPU = Tesla T4. Max memory = 14.741 GB.
5.473 GB GPU belleği kullanılıyor.


In [8]:
# Modeli eğitelim.
trainer_stats = trainer.train()

used_memory = round(torch.cuda.max_memory_reserved() / 1024 / 1024 / 1024, 3)
used_memory_for_lora = round(used_memory - allocated_gpu_memory, 3)
used_percentage = round(used_memory / max_memory * 100, 3)
lora_percentage = round(used_memory_for_lora / max_memory * 100, 3)
print(f"Eğitim süresi: {trainer_stats.metrics['train_runtime']} saniye ({round(trainer_stats.metrics['train_runtime']/60, 2)} dakika).")
print(f"Peak reserved memory = {used_memory} GB. (LoRA için: {used_memory_for_lora} GB)")
print(f"Bellek kullanım yüzdesi: Toplam {used_percentage} %, Eğitim için {lora_percentage} %.")

# İnference örneği: Basit bir örnekle modelin çıktısını görelim.
FastLanguageModel.for_inference(model)
inputs = tokenizer(
    [
        turkish_prompt.format(
            "Fibonacci dizisini devam ettiriniz.",
            "1, 1, 2, 3, 5, 8",
            "",
        )
    ], return_tensors="pt"
).to("cuda")

outputs = model.generate(**inputs, max_new_tokens=64, use_cache=True)
print(tokenizer.batch_decode(outputs))

==((====))==  Unsloth - 2x faster free finetuning | Num GPUs used = 1
   \\   /|    Num examples = 51,914 | Num Epochs = 1 | Total steps = 60
O^O/ \_/ \    Batch size per device = 2 | Gradient accumulation steps = 4
\        /    Data Parallel GPUs = 1 | Total batch size (2 x 4 x 1) = 8
 "-____-"     Trainable parameters = 41,943,040/8,000,000,000 (0.52% trained)
[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.


<IPython.core.display.Javascript object>

[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mmuratsimsek003[0m to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


Unsloth: Will smartly offload gradients to save VRAM!


Step,Training Loss
1,2.3198
2,2.3659
3,2.3247
4,2.3222
5,1.7465
6,1.7116
7,1.6494
8,1.5278
9,1.3028
10,1.457


Eğitim süresi: 374.9252 saniye (6.25 dakika).
Peak reserved memory = 8.564 GB. (LoRA için: 3.091 GB)
Bellek kullanım yüzdesi: Toplam 58.096 %, Eğitim için 20.969 %.
['<|begin_of_text|>Aşağıda, bir görevi tanımlayan açıklama bulunmaktadır. Lütfen verilen girdiye uygun bir yanıt yazınız.\n\n### Görev:\nFibonacci dizisini devam ettiriniz.\n\n### Girdi:\n1, 1, 2, 3, 5, 8\n\n### Yanıt:\n13, 21, 34, 55, 89, 144, 233, 377, 610, 987<|end_of_text|>']


In [9]:

# Modeli Hugging Face hesabınıza yükleme (push_to_hub_merged kullanımı)
# Aşağıdaki parametreleri kendi kullanıcı adınız, repo adı ve Hugging Face tokenınız ile güncelleyin.
model.push_to_hub_merged(
    repo_id="muratsimsek003/turkish_llama3_finetuned",  # repozitory adınızı buraya yazın.
    tokenizer=tokenizer,
    save_method="lora",  # LoRA adapter'ını yükler.
    token="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"  # Hugging Face erişim tokenınızı girin.
)


Unsloth: Saving LoRA adapters. Please wait...


README.md:   0%|          | 0.00/581 [00:00<?, ?B/s]

  0%|          | 0/1 [00:00<?, ?it/s]

adapter_model.safetensors:   0%|          | 0.00/168M [00:00<?, ?B/s]

  0%|          | 0/1 [00:00<?, ?it/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

Saved lora model to https://huggingface.co/muratsimsek003/turkish_llama3_finetuned
