In [1]:
# Gerekli kütüphaneyi içe aktarma
from unsloth import FastLanguageModel  # Unsloth kütüphanesinden hızlı model yükleme sınıfını içe aktarır, büyük dil modellerini optimize eder

# PyTorch kütüphanesini içe aktarma
import torch                           # PyTorch'u tensör işlemleri ve model hesaplamaları için içe aktarır

# Maksimum dizi uzunluğu ayarı
max_seq_length = 2048                  # Modelin bir seferde işleyebileceği maksimum token sayısını 2048 olarak tanımlar, RoPE Scaling ile otomatik ölçeklenir

# Veri tipi ayarı
#dtype = None                           # Veri tipini otomatik algılamaya bırakır; Tesla T4/V100 için Float16, Ampere+ için Bfloat16 seçilir
dtype = torch.bfloat16 #A5000 ekran kartı için bunu seçtik.

# 4-bit kuantizasyon ayarı
load_in_4bit = True                    # Modeli 4-bit kuantizasyon ile yükler, bu bellek kullanımını azaltır ve performansı korur (False yapılırsa tam hassasiyet kullanılır)

# 4-bit önceden kuantize edilmiş modellerin listesi
fourbit_models = [                     # Unsloth’un desteklediği, 4-bit kuantize edilmiş modellerin listesi; hızlı indirme ve bellek tasarrufu sağlar
    "unsloth/Meta-Llama-3.1-8B-bnb-4bit",      # Llama-3.1 8B modeli, 15 trilyon token ile eğitilmiş, 2 kat hızlı
    "unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit",  # Llama-3.1 8B’nin talimatlara özel sürümü
    "unsloth/Meta-Llama-3.1-70B-bnb-4bit",     # Llama-3.1 70B modeli
    "unsloth/Meta-Llama-3.1-405B-bnb-4bit",    # Llama-3.1 405B modeli, 4-bit olarak yükleniyor
    "unsloth/Mistral-Nemo-Base-2407-bnb-4bit", # Mistral Nemo temel modeli, 12B, 2 kat hızlı
    "unsloth/Mistral-Nemo-Instruct-2407-bnb-4bit",  # Mistral Nemo’nun talimat sürümü
    "unsloth/mistral-7b-v0.3-bnb-4bit",        # Mistral 7B v0.3, 2 kat hızlı
    "unsloth/mistral-7b-instruct-v0.3-bnb-4bit",   # Mistral 7B v0.3 talimat sürümü
    "unsloth/Phi-3.5-mini-instruct",           # Phi-3.5 mini, talimatlara özel, 2 kat hızlı
    "unsloth/Phi-3-medium-4k-instruct",        # Phi-3 orta boy, 4k token kapasiteli
    "unsloth/gemma-2-9b-bnb-4bit",             # Gemma 2 9B modeli
    "unsloth/gemma-2-27b-bnb-4bit",            # Gemma 2 27B modeli, 2 kat hızlı
]  # Daha fazla model için: https://huggingface.co/unsloth
model_path = "C:\\Users\\Mehmet\\Desktop\\Denizhan\\Meta-Llama-3.1-8B-bnb-4bit"

# Modeli ve tokenizer'ı önceden eğitilmiş olarak yükleme
model, tokenizer = FastLanguageModel.from_pretrained( 
   # force_download=True,
      # Modeli ve tokenizer'ı yükler, Unsloth optimizasyonlarıyla
    model_name=model_path,   # Yüklenecek modelin adı: LLaMA-3.1 8B (8 milyar parametre)
    max_seq_length=max_seq_length,            # Maksimum dizi uzunluğunu 2048 olarak ayarlar
    dtype=dtype,                              # Veri tipini otomatik algılamaya bırakır (Tesla T4 için Float16 olur)
    load_in_4bit=load_in_4bit,                # 4-bit kuantizasyonu etkinleştirir, belleği optimize eder
    #token = "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",                       # Eğer kısıtlı erişimli bir model kullanıyorsanız Hugging Face token’ı eklenir (burada pasif)
)  # Model ve tokenizer nesnelerini döndürür

🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.


  from .autonotebook import tqdm as notebook_tqdm


🦥 Unsloth Zoo will now patch everything to make training faster!
==((====))==  Unsloth 2025.2.15: Fast Llama patching. Transformers: 4.49.0.
   \\   /|    GPU: NVIDIA RTX A5000. Max memory: 23.988 GB. Platform: Windows.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 8.6. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.29.post3. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


  self.register_buffer("cos_cached", emb.cos().to(dtype=dtype, device=device, non_blocking=True), persistent=False)


In [2]:
# Step 2: Load the LoRA adapters using PEFT
from unsloth import FastLanguageModel
from peft import PeftModel
model = PeftModel.from_pretrained(
    model,
    "C:\\Users\\Mehmet\\Desktop\\Denizhan\\model_egitim3\\checkpoint-500" # Path to the LoRA checkpoint
)

# Step 3: Merge LoRA into the base model and unload
model = model.merge_and_unload()




In [3]:
model.save_pretrained("C:\\Users\\Mehmet\\Desktop\\Denizhan\\model_egitim3\\dddd")
tokenizer.save_pretrained("C:\\Users\\Mehmet\\Desktop\\Denizhan\\model_egitim3\\dddd")  # Tokenizer’ı aynı dizine kaydeder


('C:\\Users\\Mehmet\\Desktop\\Denizhan\\model_egitim3\\dddd\\tokenizer_config.json',
 'C:\\Users\\Mehmet\\Desktop\\Denizhan\\model_egitim3\\dddd\\special_tokens_map.json',
 'C:\\Users\\Mehmet\\Desktop\\Denizhan\\model_egitim3\\dddd\\tokenizer.json')

In [4]:
from unsloth import FastLanguageModel
from peft import PeftModel

# Step 1: Load the base model
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="C:\\Users\\Mehmet\\Desktop\\Denizhan\\model_egitim3\\dddd",  # Path to the base model
    load_in_4bit=True,
)

==((====))==  Unsloth 2025.2.15: Fast Llama patching. Transformers: 4.49.0.
   \\   /|    GPU: NVIDIA RTX A5000. Max memory: 23.988 GB. Platform: Windows.
O^O/ \_/ \    Torch: 2.6.0+cu124. CUDA: 8.6. CUDA Toolkit: 12.4. Triton: 3.2.0
\        /    Bfloat16 = TRUE. FA [Xformers = 0.0.29.post3. FA2 = False]
 "-____-"     Free Apache license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Loading checkpoint shards: 100%|██████████| 2/2 [00:02<00:00,  1.24s/it]


In [5]:
# Alpaca formatı için prompt şablonu tanımlama
alpaca_prompt = """Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
{}

### Input:
{}

### Response:
{}"""  # Üç bölümden oluşan bir şablon: talimat (instruction), giriş (input) ve cevap (response) yer tutucuları içerir

In [7]:
# alpaca_prompt = Yukarıdan kopyalandığını varsayıyorum
# Alpaca formatında prompt şablonunun "instruction", "input", "response" alanlarını içerdiğini kabul ediyorum

# Modeli tahmin moduna geçirme
FastLanguageModel.for_inference(model)  # Modeli inference için hazırlar, Unsloth’un 2 kat hızlı yerel tahmin özelliğini etkinleştirir

# Girişi hazırlama ve tokenize etme
inputs = tokenizer(                     # Tokenizer ile giriş metnini token’lara çevirir
    [                                   # Tek bir prompt’u liste içinde işler
        alpaca_prompt.format(           # Alpaca şablonunu belirli değerlerle doldurur
            "Fenerbahçe'nin son maçlarının sonuçlarını listele ve her maç için kısa bir açıklama yap.",  # Talimat: Maç sonuçlarını listele ve açıklama ekle
            "",                         # Giriş: Boş bırakıldı, model kendi bilgisine dayanacak
            "",                         # Çıkış: Boş bırakılır, modelin üretmesi için
        )
    ],
    return_tensors="pt"                 # Çıktıyı PyTorch tensör formatında döndürür
).to("cuda")                            # Tensörleri CUDA (GPU) belleğine taşır

# Model ile tahmin yapma
outputs = model.generate(               # Modeli kullanarak metin üretir
    **inputs,                           # Tokenize edilmiş girişleri modele verir
    max_new_tokens=512,                 # Üretilecek maksimum yeni token sayısı: Daha fazla ayrıntı için 512
    use_cache=True                      # Önbellek kullanımını etkinleştirir, hızı artırır
)

# Çıktıyı decode etme ve yazdırma
result = tokenizer.batch_decode(outputs, skip_special_tokens=True)[0]  # Üretilen token’ları insan tarafından okunabilir metne çevirir, özel token’ları atlar
print(result)

Below is an instruction that describes a task, paired with an input that provides further context. Write a response that appropriately completes the request.

### Instruction:
Fenerbahçe'nin son maçlarının sonuçlarını listele ve her maç için kısa bir açıklama yap.

### Input:


### Response:

