# **simpletoken**

Simple Token is Hesper Labs’ compact Byte Pair Encoding (BPE) tokenizer trainer. It takes you on a hands-on journey from raw UTF-8 text to a working vocabulary, making it a fun and practical way to explore how modern tokenizers actually work. Perfect for engineers, researchers, and students who want to learn the core ideas behind tokenization before building large-scale systems.

> [GitHub Repo](https://github.com/omertarikyilmaz/simpletoken)




##**Encoding**

Encoding is the process of converting characters in a text into numerical values that computers can store and process. For example, when a text contains the phrase “Aziz Sancar’ın,” the characters are not stored as letters in memory; instead, each one is transformed into a numerical representation defined by the chosen encoding method. Without this conversion, characters may appear incorrectly, become corrupted, or fail to display on different systems. Encoding ensures that text is stored accurately and transferred reliably across digital platforms.

> [What is encoding?](https://en.wikipedia.org/wiki/Character_encoding)

### **UNICODE Encoding**

Unicode encoding is a universal standard that assigns a unique “code point” to every character in every language. With this system, each character in the phrase “Aziz Sancar’ın” is represented by a single Unicode code point, regardless of the language it belongs to. For instance, the letter “A” corresponds to U+0041, while the Turkish letter “ı” corresponds to U+0131. This approach prevents character mismatches and ensures consistent representation across various systems and environments.

> [UNICODE Wikipedia](https://en.wikipedia.org/wiki/Unicode), [UNICODE Table](https://symbl.cc/en/unicode-table/)

In [14]:
print([ord(x) for x in "Aziz Sancar'ın"])

[65, 122, 105, 122, 32, 83, 97, 110, 99, 97, 114, 39, 305, 110]


In [15]:
print([ord(x) for x in "Hesper Labs 是一家非常优秀的初创公司。"])

[72, 101, 115, 112, 101, 114, 32, 76, 97, 98, 115, 32, 26159, 19968, 23478, 38750, 24120, 20248, 31168, 30340, 21021, 21019, 20844, 21496, 12290]


### **UTF-8 Encoding**

UTF-8 encoding is a variable-length byte format used to store Unicode code points in computer memory. While each character in “Aziz Sancar’ın” has a single Unicode code point, UTF-8 converts these code points into sequences of 1, 2, 3, or 4 bytes. For example, the letter “A” is stored as a single byte in UTF-8, while the Turkish letter “ı” requires a two-byte sequence. This flexible design allows UTF-8 to fully support Unicode while maintaining efficient storage.

> [UTF-8 Wikipedia](https://en.wikipedia.org/wiki/UTF-8), [UTF-8 Everywhere](https://utf8everywhere.org/)



In [16]:
print(list(("Aziz Sancar'ın").encode("utf-8")))

[65, 122, 105, 122, 32, 83, 97, 110, 99, 97, 114, 39, 196, 177, 110]


In [17]:
print(list(("Hesper Labs 是一家非常优秀的初创公司。").encode("utf-8")))

[72, 101, 115, 112, 101, 114, 32, 76, 97, 98, 115, 32, 230, 152, 175, 228, 184, 128, 229, 174, 182, 233, 157, 158, 229, 184, 184, 228, 188, 152, 231, 167, 128, 231, 154, 132, 229, 136, 157, 229, 136, 155, 229, 133, 172, 229, 143, 184, 227, 128, 130]


UTF-8 keeps all ASCII characters exactly the same and represents them with 1 byte. Characters that are not part of ASCII, such as Turkish letters or symbols from other languages, can take 2, 3, or 4 bytes in UTF-8. For example, the letter “A” has the Unicode code point U+0041 and is stored as a single byte with the value 65 in UTF-8. In contrast, the character “ı” has the code point U+0131 and is encoded in UTF-8 using two bytes with the values 196 and 177. This means that UTF-8 uses 1 byte for ASCII characters, but uses multiple bytes for characters outside the ASCII range.

> [ASCII Code](https://www.ascii-code.com/)

### **Byte-pair Encoding**

Byte Pair Encoding (BPE) is a tokenization method that builds on top of UTF-8 encoded text. After a sentence is first converted into bytes using UTF-8, BPE looks for the most frequent byte pairs and merges them step by step to form larger and more meaningful units. This way, the algorithm compresses repetitive patterns while preserving the text’s structure, turning raw UTF-8 bytes into efficient, learnable tokens that language models can understand.

> [BPE Wikipedia](https://en.wikipedia.org/wiki/Byte-pair_encoding), [Theoretical Analysis of BPE (Arxiv Paper)](https://arxiv.org/abs/2411.08671)

**Step-1 | Analyse**

The text used in this project is a brief summary of Aziz Sancar’s work on DNA repair, for which he was awarded the 2015 Nobel Prize in Chemistry. We will use this text as example content in our project.

[Who is Aziz Sancar?](https://www.nobelprize.org/prizes/chemistry/2015/sancar/facts/)

In [18]:
text = "Aziz Sancar’ın DNA onarım mekanizmaları üzerine yaptığı çalışmalar, özellikle nükleotid kesip çıkarma onarımı yani nucleotide excision repair NER sisteminin moleküler detaylarını ortaya koymuştur. DNA hasarları hücresel yaşamın en temel tehditlerinden biridir ve ultraviyole ışınları, oksidatif stres, alkilasyon ajanları ve kimyasal mutajenler DNA ipliklerinde baz modifikasyonlarına, çapraz bağlara ve çift zincir kırıklarına neden olur. Bu bozuklukların giderilmemesi mutasyon birikimine, transkripsiyon hatalarına ve genom kararsızlığına yol açar. Hücre, bu tehditlere karşı evrimsel olarak gelişmiş DNA repair ağlarını kullanır. Bunların başında base excision repair BER, nucleotide excision repair NER, mismatch repair MMR, homologous recombination HR ve non homologous end joining NHEJ sistemleri gelir. NER özellikle bulky adducts ve heliks distorsiyonuna yol açan UV kaynaklı lezyonlarda devreye girer. E. coli modelinde bu süreç UvrA UvrB ve UvrC proteinleri tarafından yürütülür. UvrA bir ATP dependent damage sensor olarak DNA’yı tarar, hasar bölgesini UvrB’ye aktarır. UvrB DNA’yı kısmen açarak konformasyonel bir bükülme oluşturur ve UvrC’nin bağlanması için platform sağlar. UvrC 3 prime ve 5 prime tarafında fosfodiester bağlarını keser, ardından UvrD helikaz hasarlı oligonükleotidi uzaklaştırır. DNA polimeraz I eksik kısmı doldurur, DNA ligaz LgA yeni sentezlenen parçayı orijinal zincire bağlar. İnsan hücrelerinde mekanizma daha karmaşıktır. Burada XPA XPC TFIIH XPB XPD RPA XPF ERCC1 ve XPG proteinleri koordineli çalışır. XPC hasarı tanır, XPA ve RPA doğrular, TFIIH kompleksi DNA’yı açar. XPG ve XPF ERCC1 endonükleazları lezyonun her iki tarafını keser. Boşluk DNA polimeraz δ veya ε tarafından doldurulur ve ligaz I tarafından kapatılır. Bu süreç transkripsiyonla da bağlantılıdır çünkü transkripsiyon coupled repair TCR mekanizması RNA polimerazın DNA üzerinde durmasıyla tetiklenir. Hasar RNA polimeraz II tarafından algılanır ve CSA CSB kompleksleri TFIIH’yi bölgeye çeker. Böylece onarım sadece genom genelinde değil transkripsiyonel olarak aktif genlerde daha hızlı gerçekleşir. NER sisteminde görev alan proteinlerin kusurları insanlarda üç ana sendromla ilişkilidir: Xeroderma Pigmentosum XP, Cockayne Sendromu CS ve Trichothiodystrophy TTD. XP hastalarında UV kaynaklı pirimidin dimerleri onarılamadığı için cilt hücreleri kısa sürede malign transformasyona uğrar. CS sendromunda ise transkripsiyonla eşgüdümlü onarım aksadığı için gelişme geriliği, sinir sistemi anomalileri ve fotosensitivite görülür. TTD vakalarında TFIIH alt birimlerinde mutasyonlar vardır, saç kırılganlığı, iskelet deformasyonları ve nörolojik defektler gözlenir. Aziz Sancar ve çalışma arkadaşları bakterilerden insanlara kadar bu mekanizmanın korunmuş olduğunu göstermiştir. Ayrıca DNA fotoliyaz enziminin fotoreaktivasyon adı verilen süreçte UV hasarını görünür ışık kullanarak tersine çevirdiğini tanımlamıştır. Bu enzim flavin adenine dinükleotid FADH ve metiltetrahidrofollat MTHF kofaktörlerini kullanarak 300–500 nm arası ışığı emer ve elektron transferiyle timin dimerlerini ayırır. Bu buluş daha sonra circadian clock proteinleriyle olan evrimsel ilişkilere kadar genişletilmiştir. DNA repair sürecinin biyokimyasal kinetiğinde ATP hidrolizi, protein protein etkileşimleri ve DNA bükülmesi kritik rol oynar. Sancar’ın laboratuvarı UvrABC excinuclease reaksiyonunu in vitro sistemlerde yeniden kurarak her aşamayı saf enzimlerle gözlemlemiştir. Bu deneylerde UV ile işaretlenmiş DNA substratları, radyoaktif izotoplarla etiketlenmiş nükleotidler ve jel elektroforezi gibi teknikler kullanılmıştır. Elde edilen sonuçlar DNA hasarının tanınması, kesilmesi ve onarımı süreçlerinin zamana bağlı olarak koordine edildiğini göstermiştir. İnsan NER kompleksinin çözünürlük ve kriyo elektron mikroskobu yapıları 1990’ların sonu ve 2000’lerde çözülmüştür. TFIIH kompleksi içindeki XPB ve XPD alt birimleri 3 prime ve 5 prime yönlü helikaz aktivitesi gösterirken, XPG ve XPF ERCC1 endonükleazları spesifik fosfodiester bağlarını keser. Bu reaksiyonlarda 27–29 bazlık oligonükleotid çıkarılır. Polimeraz δ ve RFC PCNA kompleksleri yeni nükleotidleri sentezler. Bu mekanizma sadece UV hasarı değil, kimyasal adüktler, oksidatif bazlar, platinyum çapraz bağları ve çevresel toksinler için de geçerlidir. Ayrıca cisplatin, mitomisin C ve psoralen gibi antitümör ilaçlarının DNA’ya bağlanma biçimi NER’in etkinliğini belirler. Onarım yeteneği yüksek hücreler bu ilaçlara direnç geliştirirken, eksik NER proteinleri ilaç hassasiyetini artırır. Bu nedenle NER inhibitörleri kanser terapilerinde hedeflenebilir moleküller olarak düşünülmektedir. Hücre döngüsünün G1 ve G2 fazlarındaki checkpoint proteinleri p53, p21, Gadd45 ve ATM kinazı NER ile etkileşim içindedir. DNA damage response DDR ağının bir parçası olarak NER, kromatin yeniden modelleme kompleksleriyle bağlantılıdır. Histon asetiltransferaz GCN5 ve deasetilaz HDAC1 aktivitesi onarım bölgesinde kromatin gevşemesini sağlar. Bu da erişimi kolaylaştırır. Ayrıca ubiquitin ligazlar XPC proteininin stabilitesini düzenler. Bu kadar karmaşık düzenlemeler NER’in yalnızca bir tamir mekanizması değil aynı zamanda hücresel stres yanıtının ana bileşeni olduğunu gösterir. Sancar bu çalışmalarda hem bakteriyel hem insan proteinlerinin kinetik özelliklerini karşılaştırarak evrimsel sürekliliği göstermiştir. UvrABC kompleksinin katalitik verimi saniyede yaklaşık 0.03 onarım döngüsüdür, insan sisteminde ise süreç çok daha yavaş ama çok daha seçicidir. Bu mekanizmalar DNA polimeraz β, δ, ε gibi enzimlerle ve ligaz I ile tamamlanır. Makalesinin sonunda Aziz Sancar DNA onarımının yaşlanma, mutasyon birikimi ve kanser gelişimiyle doğrudan ilişkili olduğunu vurgular. Ayrıca onarım yollarının farmakolojik olarak modülasyonu ile hem kanser tedavisinde hem de radyasyon hasarına karşı korumada yeni stratejiler geliştirilebileceğini belirtir. Bu çalışma Sancar’ın 1983 PNAS makalesiyle başlayan UvrABC excinuclease araştırmalarının devamıdır ve Nobel Ödülü’ne giden bilimsel temeli sağlamlaştırmıştır. DNA onarımı, hücre biyolojisi ve biyokimyanın kesiştiği bu alanda yapılan bu tür detaylı moleküler çalışmalar modern tıbbın genetik bütünlüğü koruma anlayışının temelini oluşturur."

In [19]:
text_chr_length = len(text)
text_word_length = len(text.split())

print(f"Length of word/characters in text: {text_word_length} / {text_chr_length}")

Length of word/characters in text: 785 / 6236


In [20]:
utf8_bytes = list(text.encode("utf-8"))
utf8_bytes_length = len(utf8_bytes)

utf8_unique_bytes = set(utf8_bytes)
utf8_unique_bytes_length = len(utf8_unique_bytes)

print(f"Bytes length: {utf8_bytes_length} | Unique Bytes Length: {utf8_unique_bytes_length}\n")

print(f"UTF-8 Bytes: {utf8_bytes}")
print("=========================================================")
print(f"UTF-8 Unique Bytes{utf8_unique_bytes}")

Bytes length: 6730 | Unique Bytes Length: 77

UTF-8 Bytes: [65, 122, 105, 122, 32, 83, 97, 110, 99, 97, 114, 226, 128, 153, 196, 177, 110, 32, 68, 78, 65, 32, 111, 110, 97, 114, 196, 177, 109, 32, 109, 101, 107, 97, 110, 105, 122, 109, 97, 108, 97, 114, 196, 177, 32, 195, 188, 122, 101, 114, 105, 110, 101, 32, 121, 97, 112, 116, 196, 177, 196, 159, 196, 177, 32, 195, 167, 97, 108, 196, 177, 197, 159, 109, 97, 108, 97, 114, 44, 32, 195, 182, 122, 101, 108, 108, 105, 107, 108, 101, 32, 110, 195, 188, 107, 108, 101, 111, 116, 105, 100, 32, 107, 101, 115, 105, 112, 32, 195, 167, 196, 177, 107, 97, 114, 109, 97, 32, 111, 110, 97, 114, 196, 177, 109, 196, 177, 32, 121, 97, 110, 105, 32, 110, 117, 99, 108, 101, 111, 116, 105, 100, 101, 32, 101, 120, 99, 105, 115, 105, 111, 110, 32, 114, 101, 112, 97, 105, 114, 32, 78, 69, 82, 32, 115, 105, 115, 116, 101, 109, 105, 110, 105, 110, 32, 109, 111, 108, 101, 107, 195, 188, 108, 101, 114, 32, 100, 101, 116, 97, 121, 108, 97, 114, 196, 177, 110, 196,

**Step-2 | Pairing**

Pairing is the process of converting a UTF-8 encoded text into a sequence of consecutive byte pairs to analyze repeating patterns within the data. After the text is encoded into its UTF-8 byte representation, each adjacent pair of bytes is extracted in order, forming a list such as (b0, b1), (b1, b2), (b2, b3) and so on. These byte pairs are then counted and sorted from most frequent to least frequent, allowing us to observe which patterns appear most often in the text. This simple frequency-based pairing approach provides a foundational step toward understanding byte-level structure and serves as a basis for more advanced token-merging algorithms such as those used in subword tokenization.

> [BPE Wikipedia](https://en.wikipedia.org/wiki/Byte-pair_encoding)

In [21]:
pairs = [
    (utf8_bytes[i], utf8_bytes[i + 1])
    for i in range(len(utf8_bytes) - 1)
]

pair_counts = {}
for p in pairs:
    if p not in pair_counts:
        pair_counts[p] = 0
    pair_counts[p] += 1

sorted_pairs = sorted(pair_counts.keys(), key=lambda x: pair_counts[x], reverse=True)

sorted_pair_with_counts = [
    {"pair": p, "count": pair_counts[p]}
    for p in sorted_pairs
]

print("\nPair Count Summary")
print("-------------------")
print("Total pairs:      ", len(pairs))
print("Unique pairs:     ", len(pair_counts))

print("\nTop 10 Most Frequent Pairs")
print("---------------------------")

for item in sorted_pair_with_counts[:10]:
    print(f"Pair: {item['pair']} | Count: {item['count']}")



Pair Count Summary
-------------------
Total pairs:       6729
Unique pairs:      621

Top 10 Most Frequent Pairs
---------------------------
Pair: (196, 177) | Count: 197
Pair: (97, 114) | Count: 123
Pair: (108, 101) | Count: 118
Pair: (101, 32) | Count: 110
Pair: (105, 110) | Count: 100
Pair: (108, 97) | Count: 98
Pair: (101, 114) | Count: 95
Pair: (110, 32) | Count: 93
Pair: (195, 188) | Count: 76
Pair: (97, 110) | Count: 71


**Step-3 | Merging**

In this step, we use `sorted_pairs` to start a merge process based on a chosen `vocab_size`. Starting from the most frequent byte pairs, we iteratively merge them and treat each merged pair as a new vocabulary unit. By repeating this for the top pairs until we reach the desired vocabulary size, we gradually build our own custom vocab made up of the most common consecutive byte pairs in the text.

In [None]:
vocab_size = 300

vocab = [(b,) for b in range(256)]

max_pair_add = max(vocab_size - len(vocab), 0)

selected_pairs = sorted_pairs[:max_pair_add]

vocab.extend(selected_pairs)

print("Target vocab size:", vocab_size)
print("Final vocab size :", len(vocab))

print("\nOur Vocab:")
print("------------------------")
for tok in vocab:
    print(tok)

Target vocab size: 300
Final vocab size : 300

Our Vocab:
------------------------
(0,)
(1,)
(2,)
(3,)
(4,)
(5,)
(6,)
(7,)
(8,)
(9,)
(10,)
(11,)
(12,)
(13,)
(14,)
(15,)
(16,)
(17,)
(18,)
(19,)
(20,)
(21,)
(22,)
(23,)
(24,)
(25,)
(26,)
(27,)
(28,)
(29,)
(30,)
(31,)
(32,)
(33,)
(34,)
(35,)
(36,)
(37,)
(38,)
(39,)
(40,)
(41,)
(42,)
(43,)
(44,)
(45,)
(46,)
(47,)
(48,)
(49,)
(50,)
(51,)
(52,)
(53,)
(54,)
(55,)
(56,)
(57,)
(58,)
(59,)
(60,)
(61,)
(62,)
(63,)
(64,)
(65,)
(66,)
(67,)
(68,)
(69,)
(70,)
(71,)
(72,)
(73,)
(74,)
(75,)
(76,)
(77,)
(78,)
(79,)
(80,)
(81,)
(82,)
(83,)
(84,)
(85,)
(86,)
(87,)
(88,)
(89,)
(90,)
(91,)
(92,)
(93,)
(94,)
(95,)
(96,)
(97,)
(98,)
(99,)
(100,)
(101,)
(102,)
(103,)
(104,)
(105,)
(106,)
(107,)
(108,)
(109,)
(110,)
(111,)
(112,)
(113,)
(114,)
(115,)
(116,)
(117,)
(118,)
(119,)
(120,)
(121,)
(122,)
(123,)
(124,)
(125,)
(126,)
(127,)
(128,)
(129,)
(130,)
(131,)
(132,)
(133,)
(134,)
(135,)
(136,)
(137,)
(138,)
(139,)
(140,)
(141,)
(142,)
(143,)
(144,)
(145,)
(146,

**Step-4 | Visualising**

Visualization allows us to examine and understand the vocabulary we've built. This step involves converting byte sequences back to readable strings and displaying token IDs alongside their byte representations and decoded text. By visualizing the vocabulary, we can verify that common patterns from the original text have been captured as meaningful tokens and understand how the BPE algorithm has organized byte-level information into a structured vocabulary.

In [27]:
def show_vocab(vocab, limit=400):
    print(f"Total vocab size: {len(vocab)}\n")
    print(f"Showing first {limit} tokens:\n")
    for i, tok in enumerate(vocab[:limit]):
        b = bytes(tok)
        s = b.decode("utf-8", errors="replace")
        print(f"{i:3d} | bytes: {list(b)!r:<15} | str: {s!r}")

show_vocab(vocab, limit=400)


Total vocab size: 300

Showing first 400 tokens:

  0 | bytes: [0]             | str: '\x00'
  1 | bytes: [1]             | str: '\x01'
  2 | bytes: [2]             | str: '\x02'
  3 | bytes: [3]             | str: '\x03'
  4 | bytes: [4]             | str: '\x04'
  5 | bytes: [5]             | str: '\x05'
  6 | bytes: [6]             | str: '\x06'
  7 | bytes: [7]             | str: '\x07'
  8 | bytes: [8]             | str: '\x08'
  9 | bytes: [9]             | str: '\t'
 10 | bytes: [10]            | str: '\n'
 11 | bytes: [11]            | str: '\x0b'
 12 | bytes: [12]            | str: '\x0c'
 13 | bytes: [13]            | str: '\r'
 14 | bytes: [14]            | str: '\x0e'
 15 | bytes: [15]            | str: '\x0f'
 16 | bytes: [16]            | str: '\x10'
 17 | bytes: [17]            | str: '\x11'
 18 | bytes: [18]            | str: '\x12'
 19 | bytes: [19]            | str: '\x13'
 20 | bytes: [20]            | str: '\x14'
 21 | bytes: [21]            | str: '\x15'
 22 | byte

**Step-5 | Formatting**

Formatting converts our vocabulary into structured file formats for easy use and integration. This step creates two output formats: JSON for programmatic access and a plain text file for human inspection. These formats make the vocabulary portable and ready for use in tokenization systems, research projects, or educational demonstrations.

In [24]:
token_id_to_bytes = [list(tok) for tok in vocab]

bytes_to_token_id = {
    " ".join(map(str, tok)): i
    for i, tok in enumerate(vocab)
}

1-) JSON Formatting

JSON formatting creates a structured, machine-readable representation of the vocabulary. This format stores each entry with its token ID, UTF-8 byte sequence, and decoded string. JSON is widely supported across programming languages, making it ideal for integration with applications, APIs, and production systems.

In [None]:
import json

vocab_json = []

for token_id, tok in enumerate(vocab):
    b = bytes(tok)
    try:
        s = b.decode("utf-8")
    except:
        s = "�"

    vocab_json.append({
        "token_id": token_id,
        "utf8_bytes": list(tok),
        "string": s
    })

with open("vocab.json", "w", encoding="utf-8") as f:
    json.dump(vocab_json, f, ensure_ascii=False, indent=2)


2-) Vocab Formatting

Vocab formatting creates a human-readable plain text file where each line contains the token ID, byte sequence, and decoded string. This format is immediately readable in any text editor, making it ideal for debugging, educational purposes, and quick manual verification of token mappings.

In [26]:
with open("tokens.vocab", "w", encoding="utf-8") as f:
    for token_id, tok in enumerate(vocab):
        b = bytes(tok)
        try:
            s = b.decode("utf-8")
        except:
            s = "�"

        line = f"{token_id:<4d} {str(list(tok)): <15} {s}\n"
        f.write(line)