# **Byte Pair Encoding (BPE) - Temeller**


## **UNICODE ve UTF-8**

Unicode dÃ¼nyadaki tÃ¼m dilleri, sembolleri ve emojileri kapsayan ve her birine benzersiz bir sayÄ±sal kimlik atayan evrensel bir karakter kÃ¼mesi standardÄ±dÄ±r. UTF-8 ise bu sayÄ±sal kimliklerin bilgisayar belleÄŸinde 1 ile 4 byte arasÄ±nda deÄŸiÅŸen uzunluklarda nasÄ±l saklanacaÄŸÄ±nÄ± belirleyen kodlama yÃ¶ntemidir ve BPE algoritmasÄ±nÄ±n metinleri iÅŸlerken kullandÄ±ÄŸÄ± ham veri tabanÄ±nÄ± oluÅŸturarak karakterlerin dijital ortamda kayÄ±psÄ±z bir ÅŸekilde temsil edilmesini saÄŸlar.

> ğŸ”— **Referanslar:**
> * Karakterlerin evrensel kimlikleri ve kodlama yapÄ±larÄ± iÃ§in: [UNICODE Tablosu](https://symbl.cc/en/unicode-table/) ve [UTF-8 Tablosu](https://www.utf8-chartable.de/)
> * UTF-8'in neden modern metin iÅŸleme ve depolamada (Ã¶zellikle BPE gibi algoritmalarda) varsayÄ±lan standart olmasÄ± gerektiÄŸine dair teknik manifestoyu okumak iÃ§in: [UTF-8 Everywhere Manifesto](https://utf8everywhere.org/)

<p align="center">
  <img src="https://github.com/omertarikyilmaz/byte-pair-encoding/blob/main/assets/bytepairencoding.jpg?raw=true" alt="Byte Pair Encoding AlgoritmasÄ±" width="600">
</p>

In [None]:
ord("a")

97

### **Unicode ve Python ArasÄ±ndaki GÃ¶sterim FarkÄ±**

Unicode standart tablolarÄ±, karakter kimlik numaralarÄ±nÄ± (Code Point) genellikle **Hexadecimal** (16'lÄ±k sayÄ± sistemi) formatÄ±nda gÃ¶sterir (Ã¶rneÄŸin "a" iÃ§in `0061`). Python'un `ord()` fonksiyonu ise bu kimliÄŸi, programlama iÃ§inde matematiksel iÅŸlem yapmaya hazÄ±r **Decimal** (10'luk sayÄ± sistemi) formatÄ±nda bir tamsayÄ± olarak dÃ¶ndÃ¼rÃ¼r (Ã¶rneÄŸin "a" iÃ§in `97`). Bu bir veri farkÄ± deÄŸil, aynÄ± matematiksel deÄŸerin (byte'Ä±n) iki farklÄ± sayÄ± tabanÄ±ndaki gÃ¶sterimidir.

> ğŸ”— **Referans:** Karakterlerin Python `ord()` fonksiyonundan dÃ¶necek 10'luk karÅŸÄ±lÄ±klarÄ±nÄ± [UNICODE (Decimal) Tablosu](https://www.tamasoft.co.jp/en/general-info/unicode-decimal.html) Ã¼zerinden inceleyebilirsiniz.

In [None]:
ornek = "NÃ¼kleotit"

In [None]:
sonuc_1 = [ord(x) for x in ornek]
sonuc_2 = list(ornek.encode("utf-8"))

In [None]:
print(f"Sonuc-1 Uzunlugu: {len(sonuc_1)}")
print(sonuc_1)
print("=================================")

print(f"Sonuc-2 Uzunlugu: {len(sonuc_2)}")
print(sonuc_2)

Sonuc-1 Uzunlugu: 9
[78, 252, 107, 108, 101, 111, 116, 105, 116]
Sonuc-2 Uzunlugu: 10
[78, 195, 188, 107, 108, 101, 111, 116, 105, 116]


## **Byte Pair Encoding (BPE) Nedir?**

Metinsel veriyi evrensel Unicode standardÄ±na gÃ¶re ham byte dizilerine dÃ¶nÃ¼ÅŸtÃ¼ren ve ardÄ±ndan bu dizideki en sÄ±k tekrar eden byte Ã§iftlerini istatistiksel olarak birleÅŸtirip tek bir yeni sembolle temsil eden bir sÄ±kÄ±ÅŸtÄ±rma algoritmasÄ±dÄ±r. Bu yÃ¶ntem metni karakterler yerine doÄŸrudan byte seviyesinde iÅŸlediÄŸi iÃ§in kelime daÄŸarcÄ±ÄŸÄ±nÄ± ÅŸiÅŸirmeden emojiler veya nadir alfabeler gibi tÃ¼m Unicode karakterlerini kapsayabilir ve sÄ±k kullanÄ±lan yapÄ±larÄ± tek bir tokena indirgerken nadir karakterleri byte parÃ§alarÄ± halinde tutarak verinin en verimli ÅŸekilde kodlanmasÄ±nÄ± saÄŸlar.

> ğŸ”— **Kaynaklar:** AlgoritmanÄ±n teorik temelleri iÃ§in [Wikipedia: Byte-pair encoding](https://en.wikipedia.org/wiki/Byte-pair_encoding) ve NLP alanÄ±ndaki teknik uygulama detaylarÄ± iÃ§in [GeeksforGeeks: BPE in NLP](https://www.geeksforgeeks.org/byte-pair-encoding-bpe-in-nlp/) makalelerini inceleyebilirsiniz.

## **BPE Kullanan Ã–nemli Modeller**

Ã–zellikle OpenAI tarafÄ±ndan geliÅŸtirilen GPT serisi (GPT-2, GPT-3, GPT-4) bu algoritmanÄ±n byte seviyesindeki uygulamasÄ±nÄ± temel tokenizasyon yÃ¶ntemi olarak benimsemiÅŸtir. Bunun yanÄ± sÄ±ra Meta tarafÄ±ndan geliÅŸtirilen LLaMA ve RoBERTa modelleri ile Google'Ä±n bazÄ± modern mimarileri de metinleri iÅŸlemek ve sayÄ±sal veriye dÃ¶nÃ¼ÅŸtÃ¼rmek iÃ§in bu algoritmayÄ± veya tÃ¼revlerini aktif olarak kullanmaktadÄ±r.

> ğŸ”— **Referanslar:**
> * Byte-Level BPE yÃ¶nteminin modern LLM'lere entegre edildiÄŸi temel makale: [Language Models are Unsupervised Multitask Learners (GPT-2 Paper)](https://www.semanticscholar.org/paper/Language-Models-are-Unsupervised-Multitask-Learners-Radford-Wu/9405cc0d6169988371b2755e573cc28650d14dfe)
> * BPE'nin performans analizini iÃ§eren Ã§alÄ±ÅŸma: [RoBERTa: A Robustly Optimized BERT Pretraining Approach](https://arxiv.org/abs/1907.11692)

### **Veri Seti: Aziz Sancar ve DNA OnarÄ±mÄ±**

BPE algoritmasÄ±nÄ±n TÃ¼rkÃ§e karakterler (Unicode) ve teknik terimler Ã¼zerindeki byte tabanlÄ± birleÅŸtirme yeteneÄŸini somutlaÅŸtÄ±rmak amacÄ±yla, Prof. Dr. Aziz Sancar'Ä±n Nobel Kimya Ã–dÃ¼lÃ¼'ne uzanan baÅŸarÄ±sÄ±nÄ± konu alan aÅŸaÄŸÄ±daki metni eÄŸitim verisi (corpus) olarak kullanacaÄŸÄ±z.

> ğŸ”— **Kaynaklar:** Biyografik veriler [The Nobel Prize: Aziz Sancar](https://www.nobelprize.org/prizes/chemistry/2015/sancar/biographical/) ve [Wikipedia](https://tr.wikipedia.org/wiki/Aziz_Sancar) sayfalarÄ±ndan derlenmiÅŸtir.

<p align="center">
  <img src="https://github.com/omertarikyilmaz/byte-pair-encoding/blob/main/assets/aziz_sancar.jpg?raw=true" alt="Aziz Sancar" width="600">
</p>

In [None]:
dataset = "Prof. Dr. Aziz Sancar, hÃ¼crelerin hasar gÃ¶ren DNA'larÄ±nÄ± nasÄ±l onardÄ±ÄŸÄ±nÄ± ve genetik bilgisini koruduÄŸunu molekÃ¼ler dÃ¼zeyde haritalandÄ±ran Ã§alÄ±ÅŸmalarÄ± sayesinde 2015 Nobel Kimya Ã–dÃ¼lÃ¼'nÃ¼ kazanmÄ±ÅŸtÄ±r. Ã–zellikle morÃ¶tesi radyasyonun DNA'da oluÅŸturduÄŸu hasarÄ±n onarÄ±lmasÄ±nÄ± saÄŸlayan nÃ¼kleotit eksizyon onarÄ±mÄ± mekanizmasÄ±nÄ± aydÄ±nlatmasÄ± bilim dÃ¼nyasÄ±nda Ã§Ä±ÄŸÄ±r aÃ§mÄ±ÅŸtÄ±r. Bu keÅŸif, kanser tedavisinde kullanÄ±lan ilaÃ§larÄ±n potansiyel etkilerini artÄ±rmak ve hÃ¼crelerin kanserleÅŸme sÃ¼recini anlamak adÄ±na hayati bir Ã¶nem taÅŸÄ±maktadÄ±r. Mardin'in Savur ilÃ§esinden baÅŸlayÄ±p Kuzey Carolina Ãœniversitesi'ne uzanan bu baÅŸarÄ± Ã¶ykÃ¼sÃ¼, titiz bir Ã§alÄ±ÅŸmanÄ±n ve bilime adanmÄ±ÅŸlÄ±ÄŸÄ±n evrensel bir sembolÃ¼ haline gelmiÅŸtir."

### **Veri Analizi ve Ã–n Ä°nceleme**

AlgoritmayÄ± uygulamaya baÅŸlamadan Ã¶nce referans noktamÄ±zÄ± belirlemek adÄ±na veri setini analiz etmek kritiktir. Ä°ÅŸlem Ã¶ncesi ve sonrasÄ±nÄ± kÄ±yaslayabilmek, elde edilecek **sÄ±kÄ±ÅŸtÄ±rma oranÄ±nÄ± (compression ratio)** tespit edebilmek ve veri yapÄ±sÄ±na uygun bir yaklaÅŸÄ±m geliÅŸtirebilmek iÃ§in Ã¶ncelikle metnin mevcut uzunluÄŸunu, kelime sayÄ±sÄ±nÄ± ve bellekte kapladÄ±ÄŸÄ± ham byte boyutunu inceleyeceÄŸiz.

In [None]:
utf8_bytes = dataset.encode("utf-8")
utf8_tokens = list(utf8_bytes)

In [None]:
print(f"Veri Seti Uzunlugu: {len(dataset)}")
print("=================================")
print(f"Token Listesinin Uzunlugu: {len(utf8_tokens)}")

Veri Seti Uzunlugu: 701
Token Listesinin Uzunlugu: 784


### **Ä°statistik Analizi ve SÄ±klÄ±k Tespiti**

Bu adÄ±mda, BPE algoritmasÄ±nÄ±n veri sÄ±kÄ±ÅŸtÄ±rma stratejisi belirlenir: **"Hangi parÃ§alarÄ± birleÅŸtirmeliyim?"**

Bunu belirlemek iÃ§in mevcut token listesi baÅŸtan sona taranÄ±r ve yan yana gelen tÃ¼m **byte Ã§iftleri (pairs)** analiz edilir. SÃ¼reÃ§ ÅŸu mantÄ±kla iÅŸler:

1.  **Tarama:** Metin Ã¼zerinde kayan bir pencere gibi ilerleyerek ardÄ±ÅŸÄ±k gelen her ikiliyi tespit eder.
2.  **Sayma:** Her bir ikilinin metin genelinde kaÃ§ kez tekrarlandÄ±ÄŸÄ±nÄ± (frekansÄ±nÄ±) hesaplar.
3.  **SÄ±ralama:** SonuÃ§larÄ± en yÃ¼ksek frekanstan en dÃ¼ÅŸÃ¼ÄŸe doÄŸru sÄ±ralar.

Bu analizin sonucunda listenin en tepesinde yer alan Ã§ift, istatistiksel olarak en deÄŸerli adaydÄ±r ve bir sonraki adÄ±mda tek bir yeni tokena dÃ¶nÃ¼ÅŸtÃ¼rÃ¼lmek Ã¼zere seÃ§ilir.

In [None]:
def get_stats(ids):
    counts = {}
    for pair in zip(ids, ids[1:]):
        counts[pair] = counts.get(pair, 0) + 1
    return counts

stats = get_stats(utf8_tokens)

top_pair = max(stats, key=stats.get)
top_pairs = sorted(((v, k) for k, v in stats.items()), reverse=True)

In [None]:
print(f"En SÄ±k Ã‡ift (ID): {top_pair}")
print("=================================")
print(f"Karakter KarÅŸÄ±lÄ±ÄŸÄ±: {bytes(top_pair).decode('utf-8', errors='replace')!r}")
print("=================================")
print(f"Tekrar SayÄ±sÄ±: {stats[top_pair]}")
print("=================================")
print("Ä°lk 20 Ã‡ift:", top_pairs[:20])

En SÄ±k Ã‡ift (ID): (196, 177)
Karakter KarÅŸÄ±lÄ±ÄŸÄ±: 'Ä±'
Tekrar SayÄ±sÄ±: 39
Ä°lk 20 Ã‡ift: [(39, (196, 177)), (16, (97, 110)), (15, (110, 32)), (14, (97, 114)), (13, (195, 188)), (12, (197, 159)), (12, (105, 110)), (11, (177, 110)), (11, (108, 97)), (11, (101, 32)), (9, (115, 105)), (9, (32, 98)), (8, (177, 32)), (8, (114, 32)), (8, (109, 97)), (8, (108, 101)), (8, (97, 115)), (8, (32, 195)), (7, (114, 196)), (7, (110, 97))]


### **BirleÅŸtirme (Merge) ve SÄ±kÄ±ÅŸtÄ±rma**

Ä°statistik analizi sonucunda en sÄ±k tekrar ettiÄŸi tespit edilen byte Ã§iftinin (`top_pair`), tÃ¼m veri seti boyunca taranarak yeni atanan tek bir kimlik numarasÄ±yla (`idx`) deÄŸiÅŸtirilmesi iÅŸlemidir.



**ğŸ›  Algoritma MantÄ±ÄŸÄ±:**
1.  **Tarama:** Liste baÅŸtan sona kontrol edilir.
2.  **EÅŸleÅŸme KontrolÃ¼:** EÄŸer `i` ve `i+1` numaralÄ± elemanlar hedef Ã§ift ile eÅŸleÅŸiyorsa, bu iki eleman **tek bir yeni token** ile deÄŸiÅŸtirilir ve okuma imleci 2 adÄ±m atlar.
3.  **Kopyalama:** EÅŸleÅŸme yoksa, mevcut eleman olduÄŸu gibi yeni listeye aktarÄ±lÄ±r.

Bu iÅŸlem sonucunda metnin toplam token uzunluÄŸu kÄ±salÄ±r (sÄ±kÄ±ÅŸtÄ±rma) ve kelime daÄŸarcÄ±ÄŸÄ±na yeni bir "alt kelime" (subword) eklenmiÅŸ olur.

In [None]:
def merge(ids, pair, idx):
  newids = []
  i = 0
  while i < len(ids):
    if i < len(ids) - 1 and ids[i] == pair[0] and ids[i+1] == pair[1]:
      newids.append(idx)
      i += 2
    else:
      newids.append(ids[i])
      i += 1
  return newids

merged_tokens = merge(utf8_tokens, top_pair, 256)

In [None]:
print(merge([5, 6, 6, 7, 9, 1], (6, 7), 99))

[5, 6, 99, 9, 1]


In [None]:
print(merged_tokens)

[80, 114, 111, 102, 46, 32, 68, 114, 46, 32, 65, 122, 105, 122, 32, 83, 97, 110, 99, 97, 114, 44, 32, 104, 195, 188, 99, 114, 101, 108, 101, 114, 105, 110, 32, 104, 97, 115, 97, 114, 32, 103, 195, 182, 114, 101, 110, 32, 68, 78, 65, 39, 108, 97, 114, 256, 110, 256, 32, 110, 97, 115, 256, 108, 32, 111, 110, 97, 114, 100, 256, 196, 159, 256, 110, 256, 32, 118, 101, 32, 103, 101, 110, 101, 116, 105, 107, 32, 98, 105, 108, 103, 105, 115, 105, 110, 105, 32, 107, 111, 114, 117, 100, 117, 196, 159, 117, 110, 117, 32, 109, 111, 108, 101, 107, 195, 188, 108, 101, 114, 32, 100, 195, 188, 122, 101, 121, 100, 101, 32, 104, 97, 114, 105, 116, 97, 108, 97, 110, 100, 256, 114, 97, 110, 32, 195, 167, 97, 108, 256, 197, 159, 109, 97, 108, 97, 114, 256, 32, 115, 97, 121, 101, 115, 105, 110, 100, 101, 32, 50, 48, 49, 53, 32, 78, 111, 98, 101, 108, 32, 75, 105, 109, 121, 97, 32, 195, 150, 100, 195, 188, 108, 195, 188, 39, 110, 195, 188, 32, 107, 97, 122, 97, 110, 109, 256, 197, 159, 116, 256, 114, 46, 32,

###SÄ±kÄ±ÅŸtÄ±rma Analizi ve KarÅŸÄ±laÅŸtÄ±rma

Tek bir birleÅŸtirme (merge) adÄ±mÄ±nÄ±n veri seti Ã¼zerindeki etkisini gÃ¶zlemlemek iÃ§in orijinal liste ile iÅŸlem gÃ¶rmÃ¼ÅŸ listeyi kÄ±yaslÄ±yoruz. AlgoritmanÄ±n verimliliÄŸini Ã¶lÃ§en temel metrik **SÄ±kÄ±ÅŸtÄ±rma OranÄ±dÄ±r (Compression Ratio)**.

$$\text{SÄ±kÄ±ÅŸtÄ±rma OranÄ±} = \frac{\text{Orijinal Token SayÄ±sÄ±}}{\text{Yeni Token SayÄ±sÄ±}}$$

Bu deÄŸerin **1.0'dan bÃ¼yÃ¼k olmasÄ±**, verinin baÅŸarÄ±yla kÃ¼Ã§Ã¼ltÃ¼ldÃ¼ÄŸÃ¼nÃ¼ ve sÄ±k geÃ§en desenlerin daha az sayÄ±da sembolle temsil edildiÄŸini gÃ¶sterir.

In [None]:
print(f"Original Tokens: {utf8_tokens}")
print(f"Original Length: {len(utf8_tokens)}")
print("=================================")
print(f"Compressed Tokens: {merged_tokens}")
print(f"Compressed Length: {len(merged_tokens)}")
print("=================================")

compression_ratio = len(utf8_tokens) / len(merged_tokens)
print(f"Compression Ratio: {compression_ratio:.2f}X")

Original Tokens: [80, 114, 111, 102, 46, 32, 68, 114, 46, 32, 65, 122, 105, 122, 32, 83, 97, 110, 99, 97, 114, 44, 32, 104, 195, 188, 99, 114, 101, 108, 101, 114, 105, 110, 32, 104, 97, 115, 97, 114, 32, 103, 195, 182, 114, 101, 110, 32, 68, 78, 65, 39, 108, 97, 114, 196, 177, 110, 196, 177, 32, 110, 97, 115, 196, 177, 108, 32, 111, 110, 97, 114, 100, 196, 177, 196, 159, 196, 177, 110, 196, 177, 32, 118, 101, 32, 103, 101, 110, 101, 116, 105, 107, 32, 98, 105, 108, 103, 105, 115, 105, 110, 105, 32, 107, 111, 114, 117, 100, 117, 196, 159, 117, 110, 117, 32, 109, 111, 108, 101, 107, 195, 188, 108, 101, 114, 32, 100, 195, 188, 122, 101, 121, 100, 101, 32, 104, 97, 114, 105, 116, 97, 108, 97, 110, 100, 196, 177, 114, 97, 110, 32, 195, 167, 97, 108, 196, 177, 197, 159, 109, 97, 108, 97, 114, 196, 177, 32, 115, 97, 121, 101, 115, 105, 110, 100, 101, 32, 50, 48, 49, 53, 32, 78, 111, 98, 101, 108, 32, 75, 105, 109, 121, 97, 32, 195, 150, 100, 195, 188, 108, 195, 188, 39, 110, 195, 188, 32, 107