# **Byte Pair Encoding (BPE) - Uzman**

Ã–nceki Ã§alÄ±ÅŸmamÄ±zda BPE algoritmasÄ±nÄ±n Ã§ekirdeÄŸini (istatistik al -> birleÅŸtir) sÄ±fÄ±rdan inÅŸa ettik. Ancak modern LLM'ler (GPT serisi) bu iÅŸlemi ham metin Ã¼zerinde doÄŸrudan yapmazlar; verimlilik ve baÄŸlam yÃ¶netimi iÃ§in ek katmanlar kullanÄ±rlar.

Bu notebook'ta, gerÃ§ek bir LLM tokenizer'Ä±nÄ±n sahip olduÄŸu geliÅŸmiÅŸ Ã¶zellikleri ve endÃ¼stri standartlarÄ±nÄ± inceleyeceÄŸiz:

1.  **Regex (DÃ¼zenli Ä°fadeler):** Metni BPE'ye sokmadan Ã¶nce mantÄ±ksal parÃ§alara (kelime, noktalama, sayÄ±) ayÄ±rma stratejisi.
2.  **Special Tokens:** `<|endoftext|>` gibi modelin kontrol sinyallerini yÃ¶netme.
3.  **Tiktoken:** OpenAI'Ä±n resmi kÃ¼tÃ¼phanesi ve GPT-2'nin gerÃ§ek kelime daÄŸarcÄ±ÄŸÄ± dosyalarÄ±nÄ±n analizi.

> ğŸ”— **Kaynaklar ve Referanslar:**
> * **GÃ¶rselleÅŸtirme AracÄ±:** Metinlerin modeller tarafÄ±ndan nasÄ±l parÃ§alandÄ±ÄŸÄ±nÄ± canlÄ± gÃ¶rmek iÃ§in harika bir araÃ§: [Tiktokenizer App](https://tiktokenizer.vercel.app/)
> * **Orijinal Kaynak Kod:** OpenAI GPT-2 modelinin temelindeki resmi Python uygulamasÄ± ve Regex desenleri: [GitHub: GPT-2](https://github.com/openai/gpt-2/blob/master/src/encoder.py)
> * **Derinlemesine Ä°nceleme:** Ã–zel tokenlarÄ±n (Special Tokens) mantÄ±ÄŸÄ± ve kullanÄ±mÄ± Ã¼zerine topluluk tartÄ±ÅŸmasÄ±: [Reddit: ChatGPT Special Tokens](https://www.reddit.com/r/ChatGPT/comments/14afi5g/chatgpt_special_tokens/)

<p align="center">
  <img src="https://github.com/omertarikyilmaz/byte-pair-encoding/blob/main/assets/cahit_arf.jpg?raw=true" alt="Cahit Arf" width="800">
</p>

In [None]:
# @title Veri Seti Cahit Arf (Ã‡ift TÄ±klayarak AÃ§abilirsin)
dataset = """Ord. Prof. Dr. Cahit Arf (1910 - 1997), cebir ve sayÄ±lar teorisi alanÄ±ndaki Ã§alÄ±ÅŸmalarÄ±yla dÃ¼nya Ã§apÄ±nda tanÄ±nan, "Arf Sabiti", "Arf HalkalarÄ±" ve "Arf KapanÄ±ÅŸlarÄ±" gibi matematiksel terimleri bilim dÃ¼nyasÄ±na kazandÄ±ran TÃ¼rk matematikÃ§idir. 1910 yÄ±lÄ±nda Selanik'te doÄŸan Arf, ilkokulu o yÄ±llarda sultani adÄ± verilen liselerin ilk kÄ±smÄ±nda okumuÅŸ, daha sonra Paris'te St. Louis Lisesi'nde eÄŸitimini tamamlamÄ±ÅŸtÄ±r. YÃ¼ksekÃ¶ÄŸrenimini Fransa'da Ecole Normale Superieure'de 1932 yÄ±lÄ±nda tamamlayarak TÃ¼rkiye'ye dÃ¶nmÃ¼ÅŸtÃ¼r. Bir sÃ¼re Galatasaray Lisesi'nde matematik Ã¶ÄŸretmenliÄŸi yaptÄ±ktan sonra, Ä°stanbul Ãœniversitesi Fen FakÃ¼ltesi'nde doÃ§ent adayÄ± olarak Ã§alÄ±ÅŸmaya baÅŸlamÄ±ÅŸtÄ±r. DoktorasÄ±nÄ± yapmak Ã¼zere 1937 yÄ±lÄ±nda Almanya'ya, GÃ¶ttingen Ãœniversitesi'ne gitmiÅŸ ve burada Ã¼nlÃ¼ matematikÃ§i Helmut Hasse ile Ã§alÄ±ÅŸmÄ±ÅŸtÄ±r. Hasse'nin "Bu konuda doktora yapan Ã¶ÄŸrencilerim 1.5 - 2 yÄ±lda bitiriyor" dediÄŸi zorlu doktora Ã§alÄ±ÅŸmasÄ±nÄ± Cahit Arf, 1938 yÄ±lÄ±nda tamamlayarak bÃ¼yÃ¼k bir baÅŸarÄ±ya imza atmÄ±ÅŸtÄ±r. Bu Ã§alÄ±ÅŸma sonucunda, cisimlerin kuadratik formlarÄ±nÄ±n sÄ±nÄ±flandÄ±rÄ±lmasÄ±nda ortaya Ã§Ä±kan ve bugÃ¼n literatÃ¼rde "Arf DeÄŸiÅŸmezi" (Arf Invariant) olarak bilinen deÄŸiÅŸmezi bulmuÅŸtur. Bu keÅŸif, karakteristiÄŸi 2 olan cisimler Ã¼zerindeki kuadratik formlar teorisine kÃ¶klÃ¼ bir katkÄ± saÄŸlamÄ±ÅŸtÄ±r. AyrÄ±ca "Hasse-Arf Teoremi" ile matematikte kalÄ±cÄ± bir iz bÄ±rakmÄ±ÅŸtÄ±r. TÃ¼rkiye'ye dÃ¶ndÃ¼ÄŸÃ¼nde Ä°stanbul Ãœniversitesi'nde Ã§alÄ±ÅŸmaya devam etmiÅŸ, 1943'te profesÃ¶r, 1955'te ordinaryÃ¼s profesÃ¶r unvanÄ±nÄ± almÄ±ÅŸtÄ±r. 1962 yÄ±lÄ±nda dÃ¶nemin CumhurbaÅŸkanÄ± Cemal GÃ¼rsel'in atamasÄ±yla TÃœBÄ°TAK'Ä±n (TÃ¼rkiye Bilimsel ve Teknolojik AraÅŸtÄ±rma Kurumu) kuruluÅŸ Ã§alÄ±ÅŸmalarÄ±nda kurucu Ã¼ye olarak yer almÄ±ÅŸ ve uzun yÄ±llar Bilim Kurulu BaÅŸkanlÄ±ÄŸÄ± yapmÄ±ÅŸtÄ±r. Cahit Arf, matematiÄŸi sadece bir meslek deÄŸil, bir yaÅŸam biÃ§imi ve sanat olarak gÃ¶rmÃ¼ÅŸtÃ¼r. Onun ÅŸu sÃ¶zÃ¼ meÅŸhurdur: "Matematik esas olarak sabÄ±r olayÄ±dÄ±r. Belleyerek deÄŸil, keÅŸfederek anlamak gerekir." Robert Kolej'de, ODTÃœ'de (Orta DoÄŸu Teknik Ãœniversitesi) ve yurt dÄ±ÅŸÄ±nda Institute for Advanced Study (Princeton) ile California Ãœniversitesi'nde (Berkeley) misafir Ã¶ÄŸretim Ã¼yesi olarak bulunmuÅŸtur. 1948'de Ä°nÃ¶nÃ¼ ArmaÄŸanÄ±'nÄ±, 1974'te TÃœBÄ°TAK Bilim Ã–dÃ¼lÃ¼'nÃ¼ kazanmÄ±ÅŸtÄ±r. 1980 yÄ±lÄ±nda Ä°TÃœ ve Karadeniz Teknik Ãœniversitesi, 1981 yÄ±lÄ±nda ise ODTÃœ kendisine onursal doktora unvanÄ± vermiÅŸtir. BugÃ¼n kullandÄ±ÄŸÄ±mÄ±z 10 TÃ¼rk LirasÄ± banknotlarÄ±nÄ±n arka yÃ¼zÃ¼nde Cahit Arf'Ä±n portresi ve "Arf DeÄŸiÅŸmezi" formÃ¼lÃ¼nden bir kesit yer almaktadÄ±r. Cahit Arf, 26 AralÄ±k 1997'de Ä°stanbul'da geÃ§irdiÄŸi kalp rahatsÄ±zlÄ±ÄŸÄ± sonucu hayatÄ±nÄ± kaybetmiÅŸ, ancak geride bÄ±raktÄ±ÄŸÄ± teoremlerle Ã¶lÃ¼msÃ¼zleÅŸmiÅŸtir."""

###**Regex ile Zorunlu BÃ¶lme (GPT-2 Deseni)**

Standart BPE algoritmasÄ±nÄ±n en bÃ¼yÃ¼k riski, kelimeleri noktalama iÅŸaretleriyle birleÅŸtirmesidir (Ã¶rneÄŸin "okul" ve "okul." farklÄ± token olur). GPT-2 bunu Ã¶nlemek iÃ§in metni BPE iÅŸleminden Ã¶nce Ã¶zel bir **Regex (DÃ¼zenli Ä°fade)** deseniyle parÃ§alar.

GÃ¶rselde yer alan ve aÅŸaÄŸÄ±da uygulayacaÄŸÄ±mÄ±z bu desen, metni ÅŸu kategorilere ayÄ±rÄ±r:
* KÄ±saltmalar (Ä°ngilizce `'s`, `'t` vb.)
* Kelime Karakterleri (Harfler)
* SayÄ±lar
* Kelimelerden ayrÄ± durmasÄ± gereken noktalama iÅŸaretleri
* BoÅŸluklar

Bu sayede "Cahit Arf (1910)" ifadesi `['Cahit', 'Arf', '(', '1910', ')']` olarak temizce ayrÄ±lÄ±r.

In [None]:
import regex as re

gpt2pat = re.compile(r"""'s|'t|'re|'ve|'m|'ll|'d| ?\p{L}+| ?\p{N}+| ?[^\s\p{L}\p{N}]+|\s+(?!\S)|\s+""")

print(re.findall(gpt2pat, "Cahit Arf (1910)"))

['Cahit', ' Arf', ' (', '1910', ')']


In [None]:
tokens = re.findall(gpt2pat, dataset)

print(f"Dataset Karakter SayÄ±sÄ±: {len(dataset)}")
print(f"Regex ParÃ§a SayÄ±sÄ±:      {len(tokens)}")
print("-" * 50)

print(tokens[10:50])

Dataset Karakter SayÄ±sÄ±: 2583
Regex ParÃ§a SayÄ±sÄ±:      448
--------------------------------------------------
[' -', ' 1997', '),', ' cebir', ' ve', ' sayÄ±lar', ' teorisi', ' alanÄ±ndaki', ' Ã§alÄ±ÅŸmalarÄ±yla', ' dÃ¼nya', ' Ã§apÄ±nda', ' tanÄ±nan', ',', ' "', 'Arf', ' Sabiti', '",', ' "', 'Arf', ' HalkalarÄ±', '"', ' ve', ' "', 'Arf', ' KapanÄ±ÅŸlarÄ±', '"', ' gibi', ' matematiksel', ' terimleri', ' bilim', ' dÃ¼nyasÄ±na', ' kazandÄ±ran', ' TÃ¼rk', ' matematikÃ§idir', '.', ' 1910', ' yÄ±lÄ±nda', ' Selanik', "'t", 'e']


In [None]:
def get_stats(ids):
    counts = {}
    for pair in zip(ids, ids[1:]):
        counts[pair] = counts.get(pair, 0) + 1
    return counts

def merge(ids, pair, idx):
  newids = []
  i = 0
  while i < len(ids):
    if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]:
      newids.append(idx)
      i += 2
    else:
      newids.append(ids[i])
      i += 1
  return newids

In [None]:
vocab_size = 276
num_merges = vocab_size - 256
ids = list(dataset.encode("utf-8"))

merges = {}
for i in range(num_merges):
  stats = get_stats(ids)
  pair = max(stats, key=stats.get)
  idx = 256 + i

  ids = merge(ids, pair, idx)
  merges[pair] = idx

In [None]:
vocab = {idx: bytes([idx]) for idx in range(256)}
for (p0, p1), idx in merges.items():
    vocab[idx] = vocab[p0] + vocab[p1]

In [None]:
def decode(ids):
  tokens = b"".join(vocab[idx] for idx in ids)
  text = tokens.decode("utf-8", errors="replace")
  return text

def encode(text):
  tokens = list(text.encode("utf-8"))
  while len(tokens) >= 2:
    stats = get_stats(tokens)
    pair = min(stats, key=lambda p: merges.get(p, float("inf")))
    if pair not in merges:
      break

    idx = merges[pair]
    tokens = merge(tokens, pair, idx)
  return tokens