### 6. Embedding Mantığı

### Nedir Bu Embedding?

**Embedding**, kelimeleri veya cümleleri, anlamsal olarak yakın olanlar birbirine yakın olacak şekilde sayısal vektörlere dönüştürme işlemidir.

Örneğin:

- "kral" → `[0.8, 1.2, -0.3, 0.9]`
- "kraliçe" → `[0.75, 1.1, -0.2, 0.88]`
- "erkek" → `[0.82, 0.5, 0.1, 0.3]`
- "kadın" → `[0.78, 0.48, 0.08, 0.32]`

Burada:

`kral - erkek + kadın ≈ kraliçe`

Bu, embedding’lerin **anlamsal ilişkileri** yakalayabildiğini gösterir.

---

### Neden Gerekli?

- Bilgisayarlar metni doğrudan anlayamaz.
- Kelimeleri sayısal hale getirerek, matematiksel işlemler yapılabilir.
- Yakınlık, benzerlik, karşıtlık gibi ilişkiler vektör uzayında modellenebilir.

---

### Word2Vec, GloVe vs BERT Embedding

| Yöntem | Özellik |
| --- | --- |
| **Word2Vec** | Her kelime için sabit bir vektör (bağlamdan bağımsız). "Banka" her zaman aynı. |
| **GloVe** | Küresel kelime eş oluşum istatistiklerine dayalı. |
| **BERT Embedding** | **Bağlama duyarlı (contextual)**. "Banka" kelimesi "banka hesabı" ve "nehir bankı" cümlelerinde farklı vektörlere sahip olur. |

Bu yüzden günümüzde BERT tabanlı embedding’ler tercih edilir.

Embedding, kelimeleri sayısal vektörlere dönüştürme işlemidir.

- 1970'ler: One-hot encoding → Sparse, anlamsız
- 2013: Word2Vec → "Kral - Adam + Kadın = Kraliçe"
- 2018: BERT → Bağlama göre değişir ("bank" = nehir / banka)

# Türkçe BERT Model Alternatifleri

"dbmdz/bert-base-turkish-uncased-mc5" modeli yerine önerilebilecek en uygun alternatifler:

## 1. Önerilen Temel Model: loodos/bert-base-turkish-uncased

Bu model, 12 encoder katmanlı ve 768 gizli katman boyutuna sahip Türkçe için eğitilmiş BERT-Base modelidir.  

**Avantajları:**
- Büyük Türkçe web veri seti üzerinde eğitilmiş
- "Uncased" yapısı ile küçük/büyük harf duyarlılığı olmadan çalışır
- Hugging Face kütüphanesi ile tam uyumlu

**Kullanım Örneği:**
```python
from transformers import BertTokenizer, BertModel

model_name = "loodos/bert-base-turkish-uncased"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

inputs = tokenizer("Merhaba dünya", return_tensors="pt")
outputs = model(**inputs)
```

## 2. Trendyol/tybert

Trendyol tarafından geliştirilmiş bu model, çeşitli doğal dil anlama görevleri için optimize edilmiştir. 

**Avantajları:**
- Ticari uygulamalarda test edilmiş
- Türkçe'nin güncel kullanımına uygun
- İyi performans gösteriyor

**Kullanım:**
```python
model_name = "Trendyol/tybert"
tokenizer = BertTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)
```

## 3. Özel Görevlere Yönelik Modeller

### İsimlendirilmiş Varlık Tanıma (NER) için:
- **akdeniz27/bert-base-turkish-cased-ner**: dbmdz/bert-base-turkish-cased modelinin İsimlendirilmiş Varlık Tanıma için fine-tune edilmiş hali. 
- **girayyagmur/bert-base-turkish-ner-cased**: Türkçe NER görevinde yüksek doğruluk oranlarına ulaşmış bir model. 

### Tıp Alanı Soru-Cevaplama için:
- **kaixkhazaki/turkish-medical-question-answering**: dbmdz/bert-base-turkish-cased modelinin tıp alanında soru-cevaplama için optimize edilmiş hali. 

## Hangi Modeli Seçmeli?

- **Genel metin işleme için**: `loodos/bert-base-turkish-uncased` (en iyi genel performans)
- **E-ticaret veya ticari uygulamalar için**: `Trendyol/tybert` 
- **Özel görevler (NER, soru-cevaplama) için**: Göreve özel fine-tune edilmiş modeller

**Not**: Eğer metinlerinizde büyük/küçük harf duyarlılığı önemliyse, cased modelleri değerlendirebilirsiniz. Ancak Türkçe için genellikle uncased modeller tercih edilir.