# 🧠 Transformer Nedir?

**Transformer**, 2017’de Vaswani ve ekibinin *“Attention is All You Need”* makalesiyle tanıttığı bir derin öğrenme mimarisidir.  
Bu yapı, **RNN** veya **LSTM** gibi sırayla çalışan (ardışık) yapıları tamamen bırakır ve yerine **attention (dikkat) mekanizması** üzerine kurulu **paralel bir mimari** getirir.



## 🚀 Temel Fikir

Önceden RNN/LSTM modellerinde cümle şu şekilde işleniyordu:



* [Ben] → [okula] → [gidiyorum]


Her kelime sırayla işlenir, bilgi “gizli durum (hidden state)” içinde aktarılırdı.  
Bu da **zaman kaybı** ve **uzun bağımlılık sorunlarına (long-term dependency)** yol açıyordu.

Transformer ise:
> “Tüm kelimelere aynı anda bakayım, dikkatimi en önemli yerlere vereyim.” der.

Yani paralel işler, **sequence bağımlılığını kaldırır**.


## 🧩 Transformer’in Bileşenleri

Transformer iki ana kısımdan oluşur:

### 1. **Encoder (Kodlayıcı)**
- Girdiyi işler (örneğin “Ben okula gidiyorum.”)
- Her kelimeye “attention” uygular ve anlam temsilleri üretir.
- Encoder çıktısı = gizli bilgi (context)

### 2. **Decoder (Çözücü)**
- Encoder’ın çıktısını alır.
- Çıktı dizisini (örneğin çeviri ya da tahmin) üretir.
- Kendi önceki çıktılarından da öğrenir (auto-regressive yapı).


## ⚙️ İç Yapı

Her encoder/decoder bloğu birkaç temel alt parçadan oluşur:

| Katman | İşlev | Açıklama |
|--------|--------|----------|
| **Multi-Head Self-Attention** | Dikkat hesaplar | Her kelime diğerlerine ne kadar dikkat edecek, bunu öğrenir. |
| **Feed Forward Network (FFN)** | Dönüştürme | Attention çıktısını işler. |
| **Layer Normalization** | Denge | Katmanlar arası ölçek farklarını dengeler. |
| **Residual Connection** | Shortcut | Öğrenmeyi stabilize eder, gradyan kaybını azaltır. |

Decoder tarafında bunlara ek olarak:
- **Masked Self-Attention** (geleceğe bakmayı engeller)
- **Encoder-Decoder Attention** (encoder’dan bilgi çeker)


## 🔍 Görsel Olarak



```bash 
Input Sequence
↓
[Encoder 1]
↓
[Encoder 2]
↓
... n kez
↓
Context Vector
↓
[Decoder 1]
↓
[Decoder 2]
↓
... n kez
↓
Output Sequence


---

## 💡 Avantajları

✅ Paralel işlem yapar → GPU dostu, çok hızlıdır  
✅ Uzun cümlelerde bağımlılıkları iyi öğrenir  
✅ Büyük veriyle mükemmel performans  
✅ Transfer learning’e uygundur (örnek: BERT, GPT, T5, BART...)



## 🔥 Örnek Kullanımlar

| Model | Taban | Görev |
|-------|--------|-------|
| **BERT** | Encoder | Anlama (classification, NER, QA) |
| **GPT** | Decoder | Üretim (text generation) |
| **T5 / BART** | Encoder–Decoder | Çeviri, özetleme, dönüşüm |



## 📚 Özet

- Transformer, RNN/LSTM yapılarının yerini alan **tamamen attention tabanlı** bir modeldir.  
- **Encoder**, girdiyi işler.  
- **Decoder**, çıktı üretir.  
- **Multi-Head Attention**, kelimeler arasındaki ilişkileri paralel olarak öğrenir.  
- Günümüzde **BERT**, **GPT**, **T5** gibi modern modellerin temelini oluşturur.


---

# 🎯 Transformer'da Kullanılan Attention Türleri

Transformer mimarisinin kalbi **“Attention” (Dikkat) mekanizmasıdır.**  
Bu mekanizma, modelin bir kelimeyi işlerken dizideki diğer kelimelere ne kadar dikkat edeceğini öğrenmesini sağlar.  

Transformer’da birden fazla attention türü vardır, çünkü **Encoder** ve **Decoder** farklı görevler yapar.  
Aşağıda tüm attention çeşitlerini ayrı ayrı açıklayalım 👇



## 🧠 1. Self-Attention (Kendine Dikkat)

Self-Attention, her kelimenin **aynı cümledeki diğer kelimelere dikkat etmesini** sağlar.

Örnek:
> “Kedi sütü içti.”  
> Burada “kedi” kelimesi, “içti” kelimesiyle anlam ilişkisini kurmak ister.

Bu mekanizmada her kelime, diğer tüm kelimelerle benzerliğini ölçer.  
Bu benzerlik **Query (Q)**, **Key (K)** ve **Value (V)** matrisleri üzerinden hesaplanır:

### 🧩 Matematiksel Olarak
\[
Attention(Q, K, V) = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V
\]

Burada:
- **Q (Query)**: Aranan bilgi (kelimenin neye dikkat etmek istediği)
- **K (Key)**: Diğer kelimelerin temsil ettiği bilgi
- **V (Value)**: Dikkat edilecek bilginin değeri  
- **√dₖ**: Ölçekleme faktörü (stabilite için)



## ⚙️ 2. Multi-Head Attention

Tek bir attention yeterli değildir, çünkü farklı başlıklar (heads) farklı ilişkileri öğrenir.

Bu yüzden **Multi-Head Attention**, aynı anda birden fazla “self-attention” işlemi yapar.  
Her head farklı bir alt uzayda ilişkiler öğrenir.



* MultiHead(Q, K, V) = Concat(head₁, head₂, ..., headₕ) * Wₒ


Avantajı:
- Farklı dikkat türlerini aynı anda öğrenir.
- Dilin karmaşık ilişkilerini daha iyi yakalar.



## 🕶️ 3. Masked Self-Attention (Decoder'da Kullanılır)

Decoder, çıktıyı **adım adım (auto-regressive)** üretir.  
Yani model, “gelecekteki kelimelere bakmadan” sıradaki kelimeyi tahmin etmelidir.

Bunu sağlamak için “masking” yapılır:
- Model, sadece geçmiş kelimelere bakabilir.
- Gelecek kelimelere erişimi **mask** (engelleme) ile kapatılır.

Örnek:
> Çeviri yaparken, “Ben okula” kelimeleri işlendiğinde “gidiyorum” kelimesine henüz bakamaz.



## 🔗 4. Encoder–Decoder Attention

Bu attention türü **Decoder tarafında** bulunur.  
Burada Decoder, **Encoder’ın ürettiği gizli temsillere (context vector)** dikkat eder.

Yani:
- **Encoder çıktısı** (bilgi)
- **Decoder sorgusu (query)** (hangi bilgiye ihtiyaç var)

Decoder böylece, girdi cümlesinin anlamlı bölümlerine odaklanarak doğru çıktıyı üretir.

Örnek:
> İngilizce: “I love apples”  
> Türkçe çeviri: “Elma seviyorum”  
> Decoder, “apples” kelimesine geldiğinde Encoder’daki “Elma” bilgisini çeker.



## 🧩 5. Cross-Attention (Genel Tanım)

“Cross-Attention” aslında Encoder–Decoder Attention’ın genel adıdır.  
Çünkü **Q** Decoder’dan gelir, **K** ve **V** Encoder’dan gelir.  
Yani iki farklı kaynaktan bilgi alışverişi olur.

Bu yapı, “bilgiyi kodlayan” (encoder) ile “bilgiyi kullanan” (decoder) arasındaki köprüdür.



## 🧮 Özet Tablo

| Attention Türü | Nerede Kullanılır | Amaç |
|-----------------|------------------|------|
| **Self-Attention** | Encoder & Decoder | Aynı dizideki kelimeler arası ilişki |
| **Masked Self-Attention** | Decoder | Geleceğe bakmayı engellemek |
| **Encoder–Decoder Attention (Cross)** | Decoder | Encoder’dan bilgi almak |
| **Multi-Head Attention** | Her yerde | Farklı ilişkileri paralel öğrenmek |



## 🧠 Kısa Hatırlatma

> Transformer’ı güçlü yapan şey, “her kelimenin diğer tüm kelimelerle bağ kurabilmesi”dir.  
> Bu da **Attention mekanizmaları** sayesinde olur.

Örneğin:
- **Encoder’daki Self-Attention:** Girdinin bağlamını anlar  
- **Decoder’daki Masked Self-Attention:** Çıktıyı adım adım üretir  
- **Encoder-Decoder Attention:** Girdi ve çıktı arasında anlam köprüsü kurar



## 🎓 Sonuç

- “Attention” kelimenin tam anlamıyla “dikkat”tir.  
- Transformer, dikkatini farklı parçalara bölüp (multi-head), cümledeki anlam ilişkilerini derinlemesine öğrenir.  
- Bu sayede çeviri, özetleme, metin üretimi gibi görevlerde olağanüstü sonuçlar verir.





---
# 📊 Transformer'da Kullanılan Attention Türleri

Aşağıdaki tablo, **Transformer** mimarisinde her bileşende (Encoder ve Decoder) hangi **attention türlerinin** kullanıldığını gösterir.



| Bileşen | Attention Türü | Açıklama | Mask Kullanımı | Amaç |
|----------|----------------|-----------|----------------|-------|
| **Encoder (Self-Attention)** | **Self-Attention** | Encoder içindeki her kelime diğerlerine dikkat eder. | ❌ Yok | Girdinin anlam bağlamını öğrenir. |
| **Encoder (Tüm Katmanlar)** | **Multi-Head Self-Attention** | Aynı anda birden fazla dikkat başlığı çalışır. | ❌ Yok | Farklı ilişkileri paralel öğrenir. |
| **Decoder (İlk Attention Bloğu)** | **Masked Self-Attention** | Decoder sadece geçmiş kelimelere bakar. | ✅ Var | Gelecek kelimelere bakmadan çıktı üretir. |
| **Decoder (İkinci Attention Bloğu)** | **Encoder–Decoder Attention (Cross-Attention)** | Decoder, Encoder çıktısına dikkat eder. | ❌ Yok | Girdi–çıktı bağlamını kurar. |
| **Decoder (Tüm Katmanlar)** | **Multi-Head Attention (2 Katmanlı)** | 1. Masked, 2. Encoder–Decoder | 🔸 Karışık | Üretim sırasında bağlam ve geçmiş kelimeleri birleştirir. |


## 🧠 Görsel Olarak



```bash
 ┌──────────────────────────┐
        │        ENCODER           │
        │ ┌──────────────────────┐ │
Input →────►│ Multi-Head Attention │ │ (Self-Attention)
│ └──────────────────────┘ │
│ FFN │
└──────────────────────────┘
│
▼
┌──────────────────────────┐
│ DECODER │
│ ┌──────────────────────┐ │
│ │ Masked Self-Attention│ │ (Geleceğe bakma engelli)
│ ├──────────────────────┤ │
│ │ Encoder–Decoder Att. │ │ (Cross-Attention)
│ └──────────────────────┘ │
│ FFN │
└──────────────────────────┘



## 💬 Özet

| Bölge | Kullanılan Attention Türü | Amaç |
|--------|-----------------------------|-------|
| **Encoder** | Self-Attention | Girdiyi anlamlı temsillere dönüştürmek |
| **Decoder** | Masked Self-Attention | Çıktıyı adım adım üretmek |
| **Decoder** | Encoder–Decoder Attention | Girdi–çıktı arasında ilişki kurmak |
| **Her ikisinde** | Multi-Head Attention | Farklı ilişkileri aynı anda öğrenmek |


✅ **Sonuç:**  
Transformer mimarisi toplamda **3 temel attention mekanizması** kullanır:  
1. **Self-Attention (Encoder)**  
2. **Masked Self-Attention (Decoder)**  
3. **Encoder–Decoder (Cross) Attention (Decoder)**  

Tüm bu attention’lar, **Multi-Head Attention** yapısı içinde paralel olarak çalışır.
