# 🔹 Transformers Tokenization

## 1️⃣ Amaç
- Modelin doğal dil girdisini **sayısal tensor’a çevirmesi** gerekiyor.  
- Her token bir **vocab index** ile temsil edilir.  
- Subword tokenization → nadir kelimeler parçalanır, bilinmeyen token’lar azaltılır.

---

## 2️⃣ Tokenizer Türleri

| Tokenizer | Açıklama |
|-----------|----------|
| **Word-level** | Her kelime ayrı token, nadir kelimeler OOV (out-of-vocab) olur |
| **Subword (BPE, WordPiece, SentencePiece)** | Kelimeler alt parçalara bölünür, bilinmeyen kelime problemi azalır |
| **Character-level** | Her harf bir token, sequence uzunluğu çok artar |

> Modern Transformers çoğunlukla **BPE veya WordPiece** kullanır.

---

## 3️⃣ Özel Tokenlar
- `[BOS]` → sequence başlangıcı  
- `[EOS]` → sequence sonu  
- `[PAD]` → padding  
- `[MASK]` → masked language modeling (MLM) için

---

## 4️⃣ Tokenization Örnekleri

```python
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

text = "Hello, Transformers!"
tokens = tokenizer.tokenize(text)
print("Tokens:", tokens)
# ['hello', ',', 'transformers', '!']

token_ids = tokenizer.convert_tokens_to_ids(tokens)
print("Token IDs:", token_ids)
# [7592, 1010, 19081, 999]

# Special tokens ekleme
token_ids = tokenizer.build_inputs_with_special_tokens(token_ids)
print("Token IDs with special tokens:", token_ids)


## 5️⃣ Encoder-Decoder Hazırlığı

* Encoder Input: token IDs + padding

* Decoder Input: shifted right + [BOS] token

* Target Output: shifted left + [EOS] token

```python 
input_ids = tokenizer.encode("Hello, Transformers!", add_special_tokens=True)
target_ids = tokenizer.encode("Hi there!", add_special_tokens=True)
print("Input IDs:", input_ids)
print("Target IDs:", target_ids)


💡 Özet Mantık

Tokenizer → kelimeleri veya subword’leri token’a çevirir

Token → vocab ID

Special token’lar eklenir → [BOS], [EOS], [PAD]

Encoder ve decoder sequence’leri hazırlanır → padding ve shift uygulanır

----

# 🔹 Tokenization Seviyeleri

## 1️⃣ Word-level Tokenization

### Mantık
- Her kelime bir token olarak ele alınır.  
- Boşluk ve noktalama işaretleri token ayırıcı olarak kullanılır.  

### Avantajları
- Basit ve anlaşılır  
- Küçük vocab boyutu  

### Dezavantajları
- Nadir kelimeler → **OOV (Out-of-Vocab)** problemi  
- Morphologically zengin dillerde kötü performans  

### Örnek
```python
text = "Transformers are amazing!"
tokens = text.split()
# ['Transformers', 'are', 'amazing!']


## 2️⃣ Subword-level Tokenization (BPE / WordPiece / SentencePiece)

### Mantık
- Kelimeler alt birimlere (subword) ayrılır.  
- Nadir kelimeler parçalanarak modelin anlaması kolaylaşır.

### Avantajları
- OOV problemi azalır  
- Vocab boyutu orta seviyede  
- Modern Transformers çoğunlukla bunu kullanır

### Örnek (BPE / WordPiece)
```python
text = "Transformers"
tokens = ["Trans", "##form", "##ers"]  # WordPiece tarzı


## 3️⃣ Character-level Tokenization

### Mantık
- Her harf veya karakter bir token olarak ele alınır.  
- Tokenization çok basit → vocab = tüm karakterler

### Avantajları
- OOV problemi neredeyse yok  
- Dil bağımsız

### Dezavantajları
- Sequence uzunluğu çok artar → eğitim yavaş  
- Context öğrenimi zor

### Örnek
```python
text = "Hi!"
tokens = ['H', 'i', '!']


# 🔹 Özet Karşılaştırma

| Level           | Avantaj                         | Dezavantaj                   |
| --------------- | ------------------------------- | ---------------------------- |
| Word-level      | Basit, kısa sequence            | OOV problemi, düşük esneklik |
| Subword-level   | OOV azalır, modern NLP standart | Tokenization biraz karmaşık  |
| Character-level | OOV yok, dil bağımsız           | Uzun sequence, eğitim yavaş  |


## 💡 Not:

Modern Transformers (BERT, GPT, T5 vb.) subword tokenization kullanır.

Seq2Seq LSTM modellerinde bazen word-level veya character-level tercih edilebilir.