# 🧮 Self-Attention Hesaplama Adımları (örnek matrislerle)



Self-Attention, bir dizideki her kelimenin **diğer kelimelerle ne kadar ilişkili olduğunu** öğrenmesini sağlar.  
Bu bölümde, **adım adım matematiksel olarak** nasıl çalıştığını görelim 👇

## 🔹 1. Girdi Temsilleri (Embeddings)

Cümlemiz:
> “Ben okula gidiyorum”

Her kelime, embedding katmanı ile vektöre dönüştürülür:

| Kelime | Vektör (örnek) |
|---------|----------------|
| Ben | [0.2, 0.7, 0.1] |
| Okula | [0.9, 0.1, 0.3] |
| Gidiyorum | [0.4, 0.5, 0.8] |

Bu vektörler birleşerek bir matris oluşturur:

\[
X = 
\begin{bmatrix}
0.2 & 0.7 & 0.1 \\
0.9 & 0.1 & 0.3 \\
0.4 & 0.5 & 0.8
\end{bmatrix}
\]



## 🔹 2. Q, K, V Matrislerinin Hesaplanması

Her kelime için **üç ayrı temsil** hesaplanır:

- **Q (Query)** → ne arıyoruz  
- **K (Key)** → hangi bilgiyi temsil ediyoruz  
- **V (Value)** → hangi bilgiyi aktaracağız  

Bu üçü, öğrenilebilir ağırlık matrisleriyle elde edilir:

\[
Q = XW_Q,\quad K = XW_K,\quad V = XW_V
\]

Burada \( W_Q, W_K, W_V \) öğrenilen parametrelerdir.



## 🔹 3. Dikkat Skorlarının Hesaplanması

Her kelimenin diğer kelimelere olan dikkatini bulmak için **Q ile K** çarpılır:

\[
\text{Skorlar} = QK^T
\]

Bu bize, kelimeler arası ilişki skorlarını verir.

Örnek (3 kelimelik cümle için):
\[
QK^T =
\begin{bmatrix}
4 & 2 & 1 \\
2 & 3 & 0 \\
1 & 0 & 2
\end{bmatrix}
\]



## 🔹 4. Skorların Ölçeklenmesi

Skorlar çok büyük olabilir, bu yüzden stabilize etmek için boyut köküne bölünür:

\[
\text{Scaled Scores} = \frac{QK^T}{\sqrt{d_k}}
\]

Eğer \( d_k = 64 \) ise, √64 = 8 olur.


## 🔹 5. Softmax Uygulama

Her satır (kelime) için softmax uygulanır, böylece skorlar olasılık haline gelir:

\[
\text{Attention Weights} = softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)
\]

Örnek:
\[
\text{Attention Weights} =
\begin{bmatrix}
0.7 & 0.2 & 0.1 \\
0.4 & 0.5 & 0.1 \\
0.2 & 0.1 & 0.7
\end{bmatrix}
\]



## 🔹 6. Değerlerin (V) Ağırlıklı Ortalaması

Son olarak bu ağırlıklar, **V** matrisiyle çarpılır:

\[
\text{Output} = \text{Attention Weights} \times V
\]

Bu işlem, her kelimenin diğerlerinden topladığı bilgiyi temsil eder.


## 🔹 7. Multi-Head Attention (Opsiyonel)

Birden fazla “head” kullanılarak bu işlem paralel yapılır:

\[
\text{MultiHead}(Q, K, V) = Concat(head_1, head_2, ..., head_h)W_O
\]

Her head, farklı ilişkileri (örneğin anlam, zaman, yön, nesne) öğrenir.



## 🧠 Özet

| Adım | İşlem | Amaç |
|------|--------|-------|
| 1 | Embedding | Girdiyi vektörlere çevirir |
| 2 | Q, K, V | Her kelime için 3 farklı temsil üretir |
| 3 | Q × Kᵀ | Dikkat skorlarını hesaplar |
| 4 | Ölçekleme | Skorları normalize eder |
| 5 | Softmax | Olasılık dağılımı oluşturur |
| 6 | V ile çarp | Bilgiyi ağırlıklı topla |
| 7 | Multi-Head | Farklı dikkat türlerini öğren |


## 📚 Sonuç

- **Self-Attention**, her kelimenin tüm cümleye aynı anda bakmasını sağlar.  
- **Uzun bağımlılık sorunlarını çözer.**  
- **Transformer’ın kalbidir** — Encoder ve Decoder bloklarının temel yapı taşıdır.
