![image.png](image01.png)


## 🔠 **LLM (Large Language Model)** nedir?

**Çok büyük miktarda metin verisiyle eğitilmiş yapay zeka modelleridir.**
Doğal dil üretme, anlama, çeviri, özetleme gibi görevleri yerine getirir.
👉 *(Örnek: GPT-4, Claude, LLaMA, Mistral)*

---

## 🧠 Models (Modeller)

* **Open-Source:** Kaynak kodu açık modeller.
  👉 *(Örnek: LLaMA 2, Mistral, Falcon)*
* **Closed Source:** Kaynak kodu kapalı, sadece API ile erişilebilen modeller.
  👉 *(Örnek: GPT-4, Claude)*
* **Multi-modal:** Metin + Görsel + Ses gibi farklı veri türlerini aynı anda işleyebilen modeller.
  👉 *(Örnek: GPT-4o, Gemini, Claude 3.5 Sonnet)*
* **Architecture:** Modelin katman yapısı, dikkat mekanizmaları, transformer yapısı gibi iç tasarımı.
  👉 *(Örnek: Decoder-only, Encoder-decoder transformer)*
* **Selecting:** Uygun modeli seçme süreci; kullanım senaryosuna göre doğru LLM’i belirleme.

---

## 🔧 Tools (Araçlar)

* **HuggingFace:** Model paylaşımı, eğitimi ve çalıştırması için popüler bir platform.
  👉 *(transformers, datasets gibi paketleri vardır)*
* **LangChain:** LLM'leri zincirleme işlemler ve dış kaynaklarla (veritabanı, API) bağlama kütüphanesi.
  👉 *(Örnek: veritabanından bilgi al, LLM’e gönder, sonuç üret)*
* **Gradio:** Modeller için hızlıca web arayüzü oluşturmayı sağlayan araç.
* **Weights & Biases:** Eğitim sürecini görselleştirme ve izleme aracı (ML ops için).
* **Modal:** Sunucusuz (serverless) LLM uygulamaları dağıtımı için platform.

---

## ⚙️ Techniques (Teknikler)

* **APIs:** Modellerle REST API üzerinden iletişim kurma yöntemi.
  👉 *(Örnek: OpenAI API kullanarak cevap alma)*
* **Multi-shot prompting:** LLM'e birden fazla örnek vererek daha doğru cevap almayı hedefleme.
  👉 *(Örnek: 3 soru-cevap örneği verip 4. cevabı istemek)*
* **RAG (Retrieval-Augmented Generation):** LLM'e dış kaynaktan bilgi getirip, o bilgiyle cevap ürettirme.
  👉 *(Örnek: Belgeleri tarayıp onlardan özet üretme)*
* **Fine-tuning:** Modelin belirli bir görev veya veriyle yeniden eğitilmesi.
  👉 *(Örnek: Bir müşteri hizmetleri chatbot'u için GPT'yi ince ayarlamak)*
* **Agentization:** LLM'in kendi kararlarını verip adım adım işlem yapabilen "ajan" gibi çalışması.
  👉 *(Örnek: Bir görevi çözüme ulaştırmak için araç çağırma, plan yapma)*


![image.png](image02.png)


1. **Chat interfaces (Sohbet Arayüzleri):**

   * Örnek: ChatGPT gibi platformlar
   * Kullanıcıların doğrudan sohbet ederek modeli kullanmalarını sağlar.

2. **Cloud APIs (Bulut API’leri):**

   * LLM API’leri üzerinden
   * LangChain gibi framework’lerle entegre edilir.
   * Yönetilen AI hizmetleri:

     * Amazon Bedrock
     * Google Vertex
     * Azure ML

3. **Direct inference (Doğrudan çıkarım):**

   * HuggingFace Transformers kütüphanesi ile
   * Ollama gibi araçlarla yerel çalıştırma yapılabilir.

---
### **Yönetilen AI hizmetleri:**

Bunlar, büyük bulut sağlayıcılarının sunduğu hazır altyapılardır. Model eğitme, çalıştırma ve ölçekleme işlemlerini senin yerine yaparlar.

* **Amazon Bedrock, Google Vertex AI, Azure ML** gibi platformlar buna örnektir.
* Kendi donanımın olmadan büyük dil modellerini kullanabilirsin.

### **Ollama:**

Ollama, dil modellerini **kendi bilgisayarında (lokal)** çalıştırmanı sağlayan bir araçtır.

* İnternete gerek kalmadan, örneğin LLaMA gibi modelleri PC’de hızlıca çalıştırabilirsin.
* Geliştiriciler için hafif ve kolaydır.


# Frontier AI Models

![image.png](image03.png)

![image.png](image04.png)

Frontier LLM’ler artık bilgi sentezi, yazı üretimi ve kodlama gibi konularda insan düzeyine çok yaklaşmış durumda.

Bu yüzden insanlar artık Stack Overflow gibi sitelere değil, bu modellere başvuruyor.

Yani bu modeller, hem bilgi kaynaklarını değiştiriyor hem de çalışma alışkanlıklarını kökten etkiliyor.

![image.png](image05.png)

## Neden Frontier Modeller basit sorularda yanlış yapar?

Gerçek şu ki, bu bilginin LLM'e gönderilme şekliyle ve tokenizasyon stratejisi ilgili. LLM harfler veya kelimeler nedir bilmez. Token'ları alırlar ve bundan dolayı çoğu zaman büyük matematiksel işlemleri yapamazlar.

### Conclusion
* Tüm 6 ileri düzey LLM modeli şaşırtıcı derecede iyi.  
Özellikle bilgiyi sentezleme ve ayrıntılı cevaplar üretme konusunda çok başarılılar.

* Claude (Anthropic'in LLM'si), pratikte en çok tercih edilen model.  
Çünkü daha esprili, güvenliğe daha çok önem veriyor ve daha özlü yanıtlar veriyor.

* Modellerin yetenekleri birbirine yaklaştıkça, fiyat fark yaratabilir.  
Yeni geliştirmeler, daha ucuz modellere odaklanıyor.



![image.png](image06.png)

Google'daki çalışanlar "Attention is All You need" makalesini yayımladı ve ilk kez transformer modeller burada bahsedildi.

## LLM'in parametreleri:

LLM'lerde parametre sayısı, modelin **öğrenilebilir ağırlık ve bias değerlerinin** toplam sayısını ifade eder.

**Parametreler nelerdir?**
- **Ağırlıklar (weights)**: Katmanlar arasındaki bağlantıların gücünü belirleyen değerler
- **Bias değerleri**: Her nöronun aktivasyon eşiğini ayarlayan değerler
- **Embedding matrisleri**: Kelimeleri sayısal vektörlere dönüştüren tablolar
- **Attention mekanizması ağırlıkları**: Transformer'larda hangi kelimelere odaklanacağını belirleyen değerler

**Neden önemli?**
- **Model kapasitesi**: Daha fazla parametre genellikle daha karmaşık kalıpları öğrenebilme yeteneği demek
- **Hesaplama maliyeti**: Parametre sayısı arttıkça eğitim ve çalıştırma maliyeti artar
- **Bellek gereksinimi**: Her parametre bellekte yer kaplar

**Örnekler:**
- GPT-3: ~175 milyar parametre
- GPT-4: Tam sayı açıklanmadı ama trilyon civarında tahmin ediliyor
- BERT Base: ~110 milyon parametre

Yani kısaca, parametre sayısı modelin "beyinindeki sinaps sayısı" gibi düşünülebilir - ne kadar çok parametre, o kadar karmaşık düşünme yeteneği.

![image.png](image07.png)

![image.png](image08.png)


**Token nedir?**  
Token, LLM'lerin metni işlerken kullandığı en küçük anlamlı birimdir. Kelimeden daha küçük, karakterden daha büyük parçalardır.

**Görseldekilerin açıklaması:**

**1. Karakter seviyesi (sol):**
- Her harf ayrı ayrı işlenir
- Küçük kelime dağarcığı ama çok fazla adım gerekir
- "Merhaba" için 7 adım (m-e-r-h-a-b-a)

**2. Kelime seviyesi (orta):**
- Her kelime bir birim olarak işlenir
- Öğrenmesi kolay ama nadir kelimeler sorun yaratır
- Kelime dağarcığı çok büyük olur

**3. Token seviyesi (sağ) - En ideal çözüm:**
- Kelimelerin parçalarına bölünür
- Hem yönetilebilir kelime dağarcığı hem de verimli işleme
- Ek'leri, kök'leri ayrı ayrı anlayabilir

**Örnekler:**
- "oyuncu" → ["oyun", "cu"]
- "koşuyorum" → ["koş", "uyor", "um"]
- "AI" → ["A", "I"] (kısa olduğu için bölünmez)

**Neden önemli?**
- Farklı dillerdeki ekleri anlayabilir
- Yeni kelimeler görse bile kök ve eklerden anlam çıkarabilir
- Bellek kullanımı optimize edilir

Token'lar sayesinde LLM'ler hem verimli hem de esnek bir şekilde dil işleyebilirler!

![image.png](image09.png)

![image.png](image10.png)

Ne işe yarıyor?  
Bu araç, yazdığınız metni GPT'nin nasıl gördüğünü gösterir. Metninizi token'lara böler ve her token'ı farklı renklerle işaretler.

Neden önemli?

* Maliyet hesaplama: API kullanımı token sayısına göre ücretlendirilir
* Limit kontrolü: GPT'nin token limiti var (örn. 4K, 8K)
* Optimizasyon: Daha az token kullanarak aynı anlamı ifade edebilirsiniz

Kısaca: Bu araç, GPT'nin gözünden metninizi görmenizi sağlar ve maliyet/limit planlaması yapmaya yarar!


**Sayılar ve Matematik Sorunu:**
- "Ed Donner's fave number is 3.14159265358979..." cümlesi
- **17 token, 47 karakter**
- Uzun sayılar birden fazla token'a bölünür
- Bu yüzden erken GPT modelleri matematik işlemlerinde zorlanıyordu - sayıları parça parça görüyorlardı!

**Önemli Kurallar (İngilizce için):**
- **1 token ≈ 4 karakter**
- **1 token ≈ 0.75 kelime**
- **1,000 token ≈ 750 kelime**

**Pratik Örnekler:**
- Shakespeare'in tüm eserleri: ~900,000 kelime = 1.2M token
- Matematik, bilimsel terimler ve kod daha fazla token tüketir

![image.png](image11.png)

* Farklı tokenizerlar farklı şekilde çalışabilir.  
* Daha az jeton veya daha fazla jeton sahibi olmanın artıları ve eksileri vardır.

## Context Window

Context Window, LLM'lerin bir seferde "hatırlayabildiği" maksimum token sayısıdır - yani dijital kısa süreli hafızası. Bu pencere içinde tüm konuşma geçmişi, promptlar ve çıktılar yer alır.

Kısa konuşmalar için sorun yaratmaz, ancak uzun dökümanları analiz etmek veya çok örnekli prompt'lar hazırlamak için kritik önem taşır. Context window dolduğunda model eski bilgileri "unutur" ve sadece en güncel bilgilere odaklanır.

Görseldeki vitrin penceresi analojisi durumu güzel özetliyor - modelin "görebildiği" alan sınırlı. GPT-3.5 yaklaşık 4K token (~3,000 kelime) ile sınırlıyken, GPT-4 32K token'a, Claude ise 100K+ token'a kadar çıkabiliyor. Context window büyüdükçe modeller daha uzun dökümanları analiz edebilir ve tutarlı uzun konuşmalar yapabilir.

![](image12.png)

Gemini 1.5 Flash'ın 1,000,000 token'lık context window'u şu anlama geliyor:

- **Tek bir konuşmada** 1 milyon token'a kadar bilgiyi aynı anda işleyebilir
- Ama bu bilgiyi **konuşma bitince unutur**
- Yeni bir konuşma başladığında sıfırdan başlar

**Pratik örnek:**
- Gemini'ye 800 sayfalık bir kitap yükleyin (yaklaşık 1M token)
- O kitap hakkında sorular sorabilirsiniz
- Kitabın tamamını "aklında" tutarak cevap verir
- Ama konuşma bitince kitabı tamamen unutur
  
Yani Gemini 1.5 Flash çok daha büyük dökümanları tek seferde işleyebilir, ancak bu "kalıcı hafıza" değil, sadece "anlık işleme kapasitesi". Her yeni konuşma temiz sayfa ile başlar.

---

**Senaryo:** Gemini 1.5 Flash'a 500 sayfalık bir rapor yükleyip analiz ettiriyorsunuz.

**INPUT (Giriş - $0.35/1M token):**

- 500 sayfalık rapor: ~400,000 token
- Sorduğunuz soru: "Bu rapordaki en önemli 5 bulguyu listele" - 100 token
- **Toplam input:** 400,100 token
- **Input maliyeti:** 400,100 ÷ 1,000,000 × $0.35 = **  $0.14  **

**OUTPUT (Çıkış - $0.70/1M token):**

- Gemini'nin ürettiği cevap: 5 bulgu + açıklamalar = 800 token
- **Output maliyeti:** 800 ÷ 1,000,000 × $0.70 = **$0.0006**

**Toplam maliyet:** $0.14 + $0.0006 = **$0.1406**

**Görünen o ki:**

- 500 sayfalık raporu "okumak" (input): $0.14

- 800 kelimelik cevap "yazmak" (output): $0.0006

Bu örnekte input maliyeti çok daha yüksek çünkü çok büyük bir döküman yüklediniz. Ama eğer kısa bir soru sorup uzun bir makale yazdırırsanız, o zaman output maliyeti daha yüksek olur.

**Ekonomik kullanım ipucu:** Büyük dökümanları bir kez yükleyip birden fazla kısa soru sormak daha mantıklı!

--- 
## 5. Gün

**Zero-Shot Prompting:**
Modele hiçbir örnek vermeden, sadece görevin ne olduğunu açıklayarak istekte bulunmak.

*Örnek:* "Bu metni İngilizce'ye çevir: Merhaba, nasılsın?"

**One-Shot Prompting:**
Modele bir örnek verip, aynı formatı takip etmesini istemek.

*Örnek:* 
"Türkçe: Merhaba, nasılsın?
İngilizce: Hello, how are you?

Türkçe: Bu kitap çok güzel.
İngilizce:"

**Multishot** 
Birden fazla örnek verme

**Fark:** Zero-shot'ta model sadece talimatı anlamaya çalışır, one-shot'ta hem talimatı hem de örnek formatı görür. One-shot genellikle daha tutarlı sonuçlar verir çünkü model tam olarak ne beklediğinizi anlar.