In [None]:
"""
Burada paralel tokenizasyonu kapatıyorum ve gerekli kütüphaneleri import ediyorum
"""
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"


import torch
from datasets import load_dataset
from huggingface_hub import login

from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling,
)

from peft import (
    LoraConfig,
    get_peft_model,
)


"""
Hugging Face'e login oluyorum
"""
login(token="---")



"""
Model adını belirleyip tokenizer'ı yüklüyorum ve ayarlarını yapıyorum
"""
MODEL_NAME = "google/gemma-2b-it" #distilbert/distilgpt2

tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

"""
Modeli yüklüyorum, bfloat16 kullanarak
"""
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.bfloat16,   
    device_map="auto",
)


"""
LoRA konfigürasyonunu ayarlıyorum
"""
lora_config = LoraConfig(
    r=8,
    lora_alpha=16,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM",
)

"""
Model'e LoRA uygulayıp eğitilebilir parametreleri gösteriyorum
"""
model = get_peft_model(model, lora_config)
model.print_trainable_parameters()



"""
Dataset'i Hugging Face'ten yüklüyorum
"""
dataset = load_dataset(
    "bylang/teacher-gemma-outputs-base",
    split="train"
)

"""
Prompt formatını ayarlayan fonksiyon
"""
def format_prompt(ex):
    return {
        "text": f"<s>[INST] {ex['input']} [/INST] {ex['output']} </s>"
    }

"""
Dataset'e format uyguluyorum
"""
dataset = dataset.map(format_prompt)

"""
Tokenize fonksiyonu
"""
def tokenize(ex):
    out = tokenizer(
        ex["text"],
        max_length=256,
        truncation=True,
        padding="max_length",
    )
    out["labels"] = out["input_ids"].copy()
    return out

"""
Dataset'i tokenize ediyorum ve gereksiz sütunları kaldırıyorum
"""
dataset = dataset.map(
    tokenize,
    remove_columns=dataset.column_names
)



"""
Data collator oluşturuyorum
"""
collator = DataCollatorForLanguageModeling(
    tokenizer=tokenizer,
    mlm=False,
)



"""
Eğitim argümanlarını ayarlıyorum
"""
training_args = TrainingArguments(
    output_dir="./teacher2_gemma_base_lora",
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,
    learning_rate=2e-4,
    num_train_epochs=10,
    bf16=True,                    
    logging_steps=10,
    save_steps=100,
    save_total_limit=1,
    report_to="none",
    push_to_hub=True,
    hub_model_id="bylang/teacher2-gemma-base-lora",
)



"""
Trainer'ı oluşturuyorum
"""
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=dataset,
    data_collator=collator,
)



"""
Modeli eğitiyorum
"""
trainer.train()

"""
Eğitilmiş modeli ve tokenizer'ı Hub'a yüklüyorum
"""
trainer.push_to_hub()
tokenizer.push_to_hub("bylang/teacher2-gemma-student_base_2")


"""
Şimdi ikinci kısım: Modeli merge edip base versiyonunu oluşturuyorum
"""
from peft import PeftModel
from transformers import AutoModelForCausalLM


"""
Tekrar ortam değişkeni ve import'lar
"""
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"


import torch
from datasets import load_dataset
from huggingface_hub import login

from transformers import (
    AutoTokenizer,
    AutoModelForCausalLM,
    TrainingArguments,
    Trainer,
    DataCollatorForLanguageModeling,
)

from peft import (
    LoraConfig,
    get_peft_model,
)



"""
Tekrar login
"""
login(token="--")
MODEL_NAME = "google/gemma-2b-it"

"""
Tokenizer'ı yüklüyorum
"""
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

"""
Base modeli yüklüyorum ve LoRA ağırlıklarını ekliyorum
"""
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    torch_dtype=torch.float16,
    device_map="auto"
)

model = PeftModel.from_pretrained(model, "bylang/teacher2-gemma-base-lora")

"""
LoRA'yı merge edip unload ediyorum
"""
model = model.merge_and_unload()

"""
Merge edilmiş modeli ve tokenizer'ı Hub'a yüklüyorum
"""
model.push_to_hub("bylang/student2_base_gemma")
tokenizer.push_to_hub("bylang/student2_base_gemma")