# 🧠 Large Language Model (LLM) — Teorik Temel

---

## 1. 🧩 LLM Nedir?

**LLM (Large Language Model)**, çok sayıda parametreye (milyarlarca) sahip, metin üzerinde **dil modelleme** yapan bir **Transformer tabanlı derin sinir ağıdır**.

> Girdi olarak bir dizi token alır, bu dizideki bağlamı (*context*) öğrenir ve bir sonraki token’ın olasılığını tahmin eder.



## 2. 🧱 LLM’in Temel Yapısı

Bir LLM genellikle şu ana bileşenlerden oluşur:

| **Bileşen** | **Görev** | **Örnek** |
|--------------|------------|------------|
| **Embedding Layer** | Token ID’lerini vektörlere dönüştürür. | `nn.Embedding` |
| **Positional Encoding** | Sıralama bilgisini ekler (Transformers sıra bilmez). | `sin/cos` encoding |
| **Transformer Blocks (N adet)** | Modelin “beyni”; attention + feed-forward katmanlarından oluşur. | `MultiHeadAttention`, `FeedForward` |
| **LayerNorm + Residual** | Eğitimi stabilize eder. | `nn.LayerNorm` + skip connection |
| **Output Projection (LM Head)** | Gizli temsili kelime olasılıklarına dönüştürür. | `nn.Linear(hidden_dim, vocab_size)` |



## 3. ⚙️ Transformer Block’un İç Yapısı

Bir LLM bloğu, aslında klasik bir **Transformer Decoder bloğudur (GPT tarzı)**.  
İçinde iki ana parça vardır:

### 🔸 Masked Multi-Head Self-Attention
- Her token sadece **kendinden önceki token’lara** bakabilir (nedensel / *causal mask*).
- Bu sayede model “geleceği görmez”.

### 🔸 Feed-Forward Network (MLP)
Her attention çıkışı, bağımsız bir MLP’den geçirilir:

\[
\text{FFN}(x) = \text{ReLU}(xW_1 + b_1)W_2 + b_2
\]

### 🔸 Residual + LayerNorm
Her iki aşamada da “skip connection” eklenir ve normalize edilir:

\[
x = x + \text{Attention}(x)
\]
\[
x = x + \text{FFN}(x)
\]


## 4. 🔁 Tüm Modelin Akışı



```
bash
Input Tokens → Embedding → Positional Encoding
↓
[Transformer Block 1]
↓
[Transformer Block 2]
↓
...
↓
[Transformer Block N]
↓
LM Head (Linear Layer)
↓
Softmax → Olasılıklar → Tahmin


## 5. ⚡ LLM’lerin Özel Özellikleri

| **Özellik** | **Açıklama** |
|--------------|---------------|
| **Causal Masking** | Geleceği görmeden üretim sağlar. |
| **Parameter Sharing** | Bazen embedding ve LM head aynı ağırlıkları paylaşır. |
| **LayerNorm Before / After** | Modern modeller (GPT-Neo, LLaMA) genelde *pre-norm* kullanır. |
| **Rotary Embeddings (RoPE)** | Sin/cos positional encoding yerine daha kararlı alternatif. |
| **FlashAttention / KV Cache** | Bellek ve hız optimizasyonları sağlar. |
