In [None]:
!pip install -q transformers datasets torch sentencepiece

import torch
from datasets import load_dataset
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    Trainer,
    TrainingArguments,
    DataCollatorForLanguageModeling
)
from peft import LoraConfig, get_peft_model, TaskType

# Ben model adı ve tokenizer'ı yükleyip cihazı belirliyorum
MODEL_NAME = "ytu-ce-cosmos/turkish-gpt2-large-750m-instruct-v0.1" #ytu-ce-cosmos/Turkish-Gemma-9b-v0.1
# Bu modelleri teacher olarak hazırladığım davranış verileriyle eğittim

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
tokenizer.pad_token = tokenizer.eos_token

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float32
).to(device)

print("Model & tokenizer OK")

# Dataset'i yükleyip örnek veriyi gösteriyorum
dataset = load_dataset("bylang/behavior_data")

print(dataset)
print(dataset["train"][0])

# Tokenize fonksiyonu: Soru ve cevabı birleştirip tokenize ediyorum
def tokenize_fn(example):
    text = example["question"] + "\n" + example["answer"]
    tokens = tokenizer(
        text,
        truncation=True,
        padding="max_length",
        max_length=512
    )
    tokens["labels"] = tokens["input_ids"].copy()
    return tokens

# Dataset'i tokenize edip gereksiz sütunları kaldırıyorum
tokenized_ds = dataset.map(
    tokenize_fn,
    remove_columns=dataset["train"].column_names
)

# LoRA konfigürasyonunu ayarlıyorum
lora_config = LoraConfig(
    task_type=TaskType.CAUSAL_LM,
    r=8,
    lora_alpha=32,
    lora_dropout=0.05,
    target_modules=["c_attn", "c_proj"]
)

# Model'e LoRA uygulayıp eğitilebilir parametreleri gösteriyorum
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

# Data collator oluşturuyorum
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False
)

# Çıktı dizini ve eğitim argümanlarını ayarlıyorum
OUTPUT_DIR = "/content/drive/MyDrive/turkish_gpt2_peft"

training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,
    num_train_epochs=3,
    learning_rate=2e-4,
    fp16=True,
    logging_steps=50,
    save_steps=500,
    save_total_limit=2,
    report_to="none",
    optim="adamw_torch"
)

# Trainer'ı oluşturuyorum
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_ds["train"],
    data_collator=data_collator,
    tokenizer=tokenizer
)

# Modeli eğitiyorum
trainer.train()

# Eğitilmiş modeli Hugging Face Hub'a yüklüyorum
trainer.push_to_hub("--",token="--")# bylang/teacher1_cosmos_gpt2, bylang/teacher2_cosmos_gemma bu modelleri hf'ye pushladım

In [None]:
import pandas as pd
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

# Finetune ettiğim ve etmediğim teacher modellerine rastgele oluşturduğum promptları sorup cevap aldım
HF_REPO = "--" #bylang/teacher2_cosmos_gemma , bylang/teacher1_cosmos_gpt2 , ytu-ce-cosmos/turkish-gpt2-large-750m-instruct-v0.1, ytu-ce-cosmos/Turkish-Gemma-9b-v0.1
teacher_model = AutoModelForCausalLM.from_pretrained(HF_REPO)
teacher_tokenizer = AutoTokenizer.from_pretrained(HF_REPO)
teacher_model.eval()

# Cihazı belirliyorum: GPU varsa kullan, yoksa CPU
# GPU varsa kullan, yoksa CPU
device = "cuda" if torch.cuda.is_available() else "cpu"
teacher_model.to(device)

# CSV dosyasından prompt'ları okuyup listeye çeviriyorum
csv_path = "/kaggle/input/dataset/random_student_prompts.csv"
df_prompts = pd.read_csv(csv_path)
prompts = df_prompts["input"].tolist()

# Her prompt için teacher model ile çıktı üretiyorum
teacher_outputs = []

for i, prompt in enumerate(prompts, 1):
    inputs = teacher_tokenizer(prompt, return_tensors="pt").to(device)
    with torch.no_grad():
        output_ids = teacher_model.generate(
            **inputs,
            max_length=50,
            do_sample=True,
            top_p=0.9,
            temperature=0.8
        )
    output_text = teacher_tokenizer.decode(output_ids[0], skip_special_tokens=True)
    teacher_outputs.append(output_text)
    
    if i % 20 == 0:
        print(f"{i}/{len(prompts)} prompt işlendi...")

# Student dataset'ini oluşturup CSV olarak kaydediyorum
df_student = pd.DataFrame({"input": prompts, "target": teacher_outputs})
df_student.to_csv("/kaggle/working/student_dataset.csv", index=False)

print("Student dataset oluşturuldu ve 'student_dataset.csv' olarak kaydedildi.")

In [None]:
!pip install -U bitsandbytes peft transformers datasets huggingface_hub

# ZORUNLU: Kernel restart sonrası çalıştırıyorum
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
os.environ["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:512"  # CUDA fragmentation önleyici

# Importları yapıyorum
import torch
from datasets import load_dataset
from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    BitsAndBytesConfig,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling,
)
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training
from huggingface_hub import login

# Hugging Face Login yapıyorum
login(token="--")

# Model ve Tokenizer'ı hazırlıyorum
MODEL_NAME = "ytu-ce-cosmos/Turkish-Gemma-9b-v0.1"  # YTU'nun modeli veya datasetine uygun base
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

# BitsAndBytes Config (8-bit, T4 uyumlu) ayarlıyorum
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0,
)

model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto",
)

# LoRA için k-bit training hazırlığı yapıyorum
model = prepare_model_for_kbit_training(model)

# LoRA Config ayarlıyorum
lora_config = LoraConfig(
    r=8,
    lora_alpha=16,
    target_modules=["q_proj", "v_proj"],  # T4 memory-safe
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)

model = get_peft_model(model, lora_config)
model.print_trainable_parameters()

# Dataset Hazırlığı yapıyorum
dataset = load_dataset("bylang/teacher-gemma-outputs", split="train")  # küçük örnek T4 memory safe

def format_prompt(example):
    text = f"<s>[INST] {example['input']} [/INST] {example['output']} </s>"
    return {"text": text}

dataset = dataset.map(format_prompt)

def tokenize(example):
    tokens = tokenizer(
        example["text"],
        truncation=True,
        padding="max_length",
        max_length=256,
    )
    tokens["labels"] = tokens["input_ids"].copy()
    return tokens

dataset = dataset.map(tokenize, remove_columns=dataset.column_names)

# Data Collator oluşturuyorum
data_collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False,
)

# Training Arguments ayarlıyorum
training_args = TrainingArguments(
    output_dir="./ytu_lora_finetune",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,
    learning_rate=2e-4,
    num_train_epochs=5,
    fp16=True,
    logging_steps=10,
    save_steps=100,
    save_total_limit=1,
    report_to="none",
    push_to_hub=True,
    hub_model_id="bylang/ytu_lora_finetuned",  # HF Hub repo
)

# Trainer oluşturuyorum
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=data_collator,
)

# Train + Hugging Face Push yapıyorum
trainer.train()
trainer.push_to_hub()
tokenizer.push_to_hub("bylang/ytu_lora_finetuned")

print(" LoRA fine-tune tamamlandı ve HF Hub'a push edildi!")