In [23]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

In [24]:
# load gemma2 tokenizer from huggingface

from transformers import AutoTokenizer

gemma_tokenizer = AutoTokenizer.from_pretrained("google/gemma-2-2b-it")



In [25]:
gemma_tokenizer.save_pretrained("gemma_tokenizer")

('gemma_tokenizer/tokenizer_config.json',
 'gemma_tokenizer/special_tokens_map.json',
 'gemma_tokenizer/tokenizer.model',
 'gemma_tokenizer/added_tokens.json',
 'gemma_tokenizer/tokenizer.json')

In [26]:
import pandas as pd
# get string, int pairs from gemma_tokenizer.vocab

gemma_vocab = gemma_tokenizer.get_vocab()

vocab_df = pd.DataFrame(gemma_vocab.items(), columns=['token', 'id'])
vocab_df = vocab_df.sort_values('id')
vocab_df[1000:1040]

Unnamed: 0,token,id
49676,ew,1000
181737,bu,1001
56237,ark,1002
125164,}),1003
90590,▁res,1004
216240,▁ag,1005
139812,▁tra,1006
16916,▁cont,1007
24901,▁et,1008
228666,▁some,1009


In [27]:
gemma_tokenizer.vocab_size

256000

In [28]:
vocab = {}

unk_token = '<unk>'
spl_tokens = ['<bos>', '<eos>', '<unk>', '<pad>', '<start_of_turn>', '<end_of_turn>']

vocab['<pad>'] = 0
vocab['<bos>'] = 1
vocab['<eos>'] = 2
vocab['<unk>'] = 3
vocab['<mask>'] = 4
vocab['<2mass>'] = 5
vocab['[@BOS@]'] = 6
for i in range(50):
    vocab[f'<unused{i}>'] = i + 7
vocab['<start_of_turn>'] = 57
vocab['<end_of_turn>'] = 58

vocab

#spl_tokens

{'<pad>': 0,
 '<bos>': 1,
 '<eos>': 2,
 '<unk>': 3,
 '<mask>': 4,
 '<2mass>': 5,
 '[@BOS@]': 6,
 '<unused0>': 7,
 '<unused1>': 8,
 '<unused2>': 9,
 '<unused3>': 10,
 '<unused4>': 11,
 '<unused5>': 12,
 '<unused6>': 13,
 '<unused7>': 14,
 '<unused8>': 15,
 '<unused9>': 16,
 '<unused10>': 17,
 '<unused11>': 18,
 '<unused12>': 19,
 '<unused13>': 20,
 '<unused14>': 21,
 '<unused15>': 22,
 '<unused16>': 23,
 '<unused17>': 24,
 '<unused18>': 25,
 '<unused19>': 26,
 '<unused20>': 27,
 '<unused21>': 28,
 '<unused22>': 29,
 '<unused23>': 30,
 '<unused24>': 31,
 '<unused25>': 32,
 '<unused26>': 33,
 '<unused27>': 34,
 '<unused28>': 35,
 '<unused29>': 36,
 '<unused30>': 37,
 '<unused31>': 38,
 '<unused32>': 39,
 '<unused33>': 40,
 '<unused34>': 41,
 '<unused35>': 42,
 '<unused36>': 43,
 '<unused37>': 44,
 '<unused38>': 45,
 '<unused39>': 46,
 '<unused40>': 47,
 '<unused41>': 48,
 '<unused42>': 49,
 '<unused43>': 50,
 '<unused44>': 51,
 '<unused45>': 52,
 '<unused46>': 53,
 '<unused47>': 54,
 '<un

In [29]:
predefined_words = []
with open("veri/tum_kokler.txt") as f:
    for line in f:
        # remove newline character
        if line.strip() != "":
          predefined_words.append(line.strip())
predefined_words[:10]

['a',
 'ab',
 'aba',
 'abadi',
 'abajur',
 'abaküs',
 'aban',
 'abandone',
 'abani',
 'abanoz']

In [30]:
ekler = [
    "lık", "lik", "luk", "lük",
    "lı", "li", "lu", "lü",
    "sız", "siz", "suz", "süz",
    "cı", "ci", "cu", "cü",
    "çı", "çi", "çu", "çü",
    "cık", "cik", "cuk", "cük",
    "çık", "çik", "çuk", "çük",
    "ca", "ce",
    "ça", "çe",
    "daş", "deş",
    "taş", "teş",
    "ncı", "nci", "ncu", "ncü",
    "ar", "er",
    "şar", "şer",
    "sal", "sel",
    "tı", "ti", "tu", "tü",
    "aç", "eç",
    "ak", "ek",
    "an", "en",
    "cıl", "cil", "cul", "cül",
    "çıl", "çil", "çul",
    "cileyin",
    "ç",
    "gil", "gül", "kıl", "kil",
    "ge", "ka",
    "kan", "ken",
    "kek",
    "man", "men",
    "la",
    "lak", "lek",
    "layın", "leyin",
    "msı", "msi", "msu",
    "mtırak",
    "rak", "rek",
    "sak", "sek",
    "sı", "si", "su", "sü",
    "şın", "şin",
    "t",
    "z",
    "la", "le",
    "al", "el",
    "l",
    "a", "e",
    "ar", "er",
    "da", "de",
    "k",
    "kır", "kir", "kur", "kür",
    "msa", "mse",
    "r",
    "sa", "se",
    "l",
    "ma", "me",
    "n",
    "r",
    "t",
    "ş",
    "dır", "dir", "dur", "dür",
    "tır", "tir", "tur", "tür",
    "a", "e",
    "ala", "ele",
    "ar", "er",
    "ı", "ü",
    "k",
    "k",
    "p",
    "a", "e",
    "ağan", "eğen",
    "ak", "ek",
    "alak", "elek",
    "amak", "emek",
    "anak", "enek",
    "ca", "ce",
    "ç",
    "aç", "eç",
    "dı", "di", "du", "dü",
    "tı", "ti", "tu", "tü",
    "ga", "ge",
    "gaç", "geç", "kaç",
    "gıç", "giç", "guç",
    "maca", "mece",
    "maç", "meç",
    "man", "men",
    "mık", "mik", "muk",
    "n",
    "t",
    "a", "e",
    "ga", "ge",
    "gıç", "giç", "guç",
    "n",
    "t",
    "lar", "ler", # Çokluk eki
    "mı", "mi", "mu", "mü", # Soru eki
    "m", "n", "ı", "i", "u", "ü", "sı", "si", "su", "sü", # İyelik ekleri
    "da", "de", "ta", "te", # Bulunma hali eki
    "dan", "den", "tan", "ten", # Ayrılma hali eki
    "ın", "in", "un", "ün", "nın", "nin", "nun", "nün", # İlgi hali eki
    "y", # Koruyucu ünsüz
    "n", # Koruyucu ünsüz
    "ki", # Aitlik eki
    "yor", "makta", "mede", # Şimdiki zaman ekleri
    "acak", "ecek", "acağ", "eceğ", # Gelecek zaman ekleri
    "r", "ar", "er", # Geniş zaman ekleri
    "malı", "meli", # Gereklilik kipi eki
    "sa", "se", # Dilek-şart kipi eki
    "a", "e", # İstek kipi eki
    "dı", "di", "du", "dü", "tı", "ti", "tu", "tü", # Görülen geçmiş zaman eki
    "mış", "miş", "muş", "müş", # Öğrenilen geçmiş zaman eki
    "im", "sin", "dir", "iz", "siniz", "dirler", # Ek-fiilin şimdiki/geniş zaman eki
    "dı", "di", "du", "dü", "tı", "ti", "tu", "tü", # Ek-fiilin görülen geçmiş zaman eki
    "mış", "miş", "muş", "müş", # Ek-fiilin öğrenilen geçmiş zaman eki
    "sa", "se", # Ek-fiilin şart eki
    "yacak", "yecek", # Katmerli birleşik çekim eki
    "miş", "miş", "muş", "müş", # Katmerli birleşik çekim eki
    "dı", "di", "du", "dü", "tı", "ti", "tu", "tü" # Katmerli birleşik çekim eki
]

print(len(set(ekler)))

203


In [35]:
edatlar = ["gibi", "için", "kadar", "ile", "üzere", "sanki", "den", "dolayı", "doğru", "önce", "sonra", "karşı", "göre", "rağmen", "beri", "üzere", "yönelik", "ait"]
bağlaçlar = ["ve", "ama", "ile", "de", "çünkü", "eğer", "fakat", "lakin", "ki", "ya", "yahut", "ya da", "veya", "hem", "oysa", "oysa ki", "nitekim", "sanki", "zira", "öyle ki", "şu var ki", "lâkin", "üstelik", "ne ... ne", "hem ... hem", "ister ... ister", "gerek ... gerek(se)", "ancak", "bari"]
ünlemler = ["ah", "ey", "oha", "öf", "hah", "ya", "aman", "hey", "hadi", "vah", "eyvah", "uff", "of", "oh", "heyecanla", "tamam", "çüş"]
cekim_ekleri = ["ler", "lar", "i", "e", "den", "de", "im", "in", "i", "imiz", "iniz", "leri", "ın", "in", "un", "ün", "ca", "ce", "le", "la", "r", "yor", "mekte", "di", "miş", "ecek", "meli", "malı", "se", "sa", "ayım", "ydi", "ymiş", "yse", "dir", "m", "n", "k", "iz", "siniz", "ler", "mak", "mek"]
yapim_ekleri = ["lık", "li", "sız", "ci", "ce", "daş", "üncü", "msı", "cık", "tı", "cıl", "deki", "la", "al", "l", "a", "ar", "da", "ık", "ımsa", "laş", "sa", "ca", "acak", "ak", "ge", "gı", "ı", "ıcı", "ık", "ım", "nç", "ıntı", "ır", "ış", "ma", "dır", "l", "n", "t"]

# doldurulacaklar = predefined_words + edatlar + bağlaçlar + ünlemler + cekim_ekleri + yapim_ekleri
# TypeError: can only concatenate list (not "tuple") to list
doldurulacaklar = set()
doldurulacaklar.update(predefined_words)
print(len(doldurulacaklar))
doldurulacaklar.update(edatlar)
doldurulacaklar.update(bağlaçlar)
doldurulacaklar.update(ünlemler)
doldurulacaklar.update(cekim_ekleri)
doldurulacaklar.update(yapim_ekleri)
doldurulacaklar.update(ekler)
doldurulacaklar = list(doldurulacaklar)
len(doldurulacaklar)

24619


24744

In [32]:
tokenizer = Tokenizer(BPE(unk_token=unk_token))
tokenizer.pre_tokenizer = Whitespace()
tokenizer.add_tokens(list(doldurulacaklar))
tokenizer

Tokenizer(version="1.0", truncation=None, padding=None, added_tokens=[{"id":0, "content":"stronsiyum", "single_word":False, "lstrip":False, "rstrip":False, "normalized":True, "special":False}, {"id":1, "content":"garaip", "single_word":False, "lstrip":False, "rstrip":False, "normalized":True, "special":False}, {"id":2, "content":"neticelen", "single_word":False, "lstrip":False, "rstrip":False, "normalized":True, "special":False}, {"id":3, "content":"süreç", "single_word":False, "lstrip":False, "rstrip":False, "normalized":True, "special":False}, {"id":4, "content":"başkomutan", "single_word":False, "lstrip":False, "rstrip":False, "normalized":True, "special":False}, {"id":5, "content":"yafa", "single_word":False, "lstrip":False, "rstrip":False, "normalized":True, "special":False}, {"id":6, "content":"yapakçı", "single_word":False, "lstrip":False, "rstrip":False, "normalized":True, "special":False}, {"id":7, "content":"şeffaf", "single_word":False, "lstrip":False, "rstrip":False, "norma

In [36]:
trainer = BpeTrainer(special_tokens=spl_tokens, vocab_size=39256, limit_alphabet=1200, min_frequency=16)

trainer

BpeTrainer(BpeTrainer(min_frequency=16, vocab_size=39256, show_progress=True, special_tokens=[AddedToken(content="<bos>", single_word=False, lstrip=False, rstrip=False, normalized=False, special=True), AddedToken(content="<eos>", single_word=False, lstrip=False, rstrip=False, normalized=False, special=True), AddedToken(content="<unk>", single_word=False, lstrip=False, rstrip=False, normalized=False, special=True), AddedToken(content="<pad>", single_word=False, lstrip=False, rstrip=False, normalized=False, special=True), AddedToken(content="<start_of_turn>", single_word=False, lstrip=False, rstrip=False, normalized=False, special=True), AddedToken(content="<end_of_turn>", single_word=False, lstrip=False, rstrip=False, normalized=False, special=True)], limit_alphabet=1200, initial_alphabet=[], continuing_subword_prefix=None, end_of_word_suffix=None, max_token_length=None, words={}))

In [37]:
trainer.special_tokens

[AddedToken("<bos>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
 AddedToken("<eos>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
 AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
 AddedToken("<pad>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
 AddedToken("<start_of_turn>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True),
 AddedToken("<end_of_turn>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True)]

In [40]:
from datasets import load_dataset

ds = load_dataset("umarigan/turkish_corpus_small")
df = ds['train'].to_pandas()
df

Downloading data: 100%|██████████| 183M/183M [00:41<00:00, 4.45MB/s]
Downloading data: 100%|██████████| 146M/146M [00:30<00:00, 4.85MB/s]
Downloading data: 100%|██████████| 117M/117M [00:22<00:00, 5.15MB/s]
Downloading data: 100%|██████████| 109M/109M [00:25<00:00, 4.22MB/s]
Downloading data: 100%|██████████| 101M/101M [00:21<00:00, 4.76MB/s]
Downloading data: 100%|██████████| 324M/324M [01:03<00:00, 5.12MB/s]
Downloading data: 100%|██████████| 328M/328M [01:03<00:00, 5.17MB/s]
Downloading data: 100%|██████████| 328M/328M [01:05<00:00, 5.00MB/s]
Downloading data: 100%|██████████| 325M/325M [01:04<00:00, 5.00MB/s]
Downloading data: 100%|██████████| 324M/324M [01:05<00:00, 4.93MB/s]
Downloading data: 100%|██████████| 324M/324M [01:04<00:00, 4.99MB/s]
Downloading data: 100%|██████████| 321M/321M [01:04<00:00, 4.96MB/s]
Downloading data: 100%|██████████| 323M/323M [01:07<00:00, 4.81MB/s]
Downloading data: 100%|██████████| 323M/323M [01:07<00:00, 4.79MB/s]
Generating train split: 100%|█████

Unnamed: 0,id,text
0,16,Film şu anlamlara gelebilir: * Camlara yapıştı...
1,30,"Bolşevik, çoğunluktan yana anlamına gelen Rusç..."
2,39,küçükresim|200px|Cinepaint ekran yakalama görü...
3,24,Linux (telaffuz: Lin-uks); Linux çekirdeğine d...
4,10,"Cengiz Han (doğum adıyla Temuçin, – 18 Ağustos..."
...,...,...
1499995,975394,Çağımızın en önemli hastaığı olan sigara tirya...
1499996,975395,Blog gönderisinin içine ne gider? Faydalı ve s...
1499997,975396,İnternet tarayıcınızda JavaScript aktif edilme...
1499998,975397,Çikolatalı kek tarifi hazırlanışı. Fırını 175 ...


In [41]:
texts_with_title = df['text']
texts = texts_with_title.to_list()
len(texts)

1500000

In [42]:
tokenizer.train_from_iterator(texts, trainer=trainer)
tokenizer.save("custom_tokenizer.json")
tokenizer.get_vocab_size()







58232

In [44]:
from transformers import PreTrainedTokenizerFast

fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="custom_tokenizer.json")


In [46]:
encoded = tokenizer.encode("akademi akademisyen akademisyenler ve aileleri ile birlikte aktif çalışıyorlar")
print(tokenizer.decode(encoded.ids))
print(fast_tokenizer.tokenize("akademi akademisyen akademisyenler ve aileleri ile birlikte aktif çalışıyorlar"))

akademi akademisyen akademisyen ler ve aile leri ile birlikte aktif çalış ı yor lar
['akademi', 'akademisyen', 'akademisyen', 'ler', 've', 'aile', 'leri', 'ile', 'birlikte', 'aktif', 'çalış', 'ı', 'yor', 'lar']


In [None]:
""" 
akademisyen Ada er ve aile Ada er ad il e birlikte aktif çalış Ahize yor la Adalet
['akademisyen', 'l', 'er', 've', 'aile', 'l', 'er', 'i', 'il', 'e', 'birlikte', 'aktif', 'çalış', 'ı', 'yor', 'la', 'r']

akade mi akademisyen akademisyenler ve aileleri ile birlikte aktif çalışıyor lar
['akade', 'mi', 'akademisyen', 'akademisyenler', 've', 'aileleri', 'ile', 'birlikte', 'aktif', 'çalışıyor', 'lar']
 """

In [56]:
fast_tokenizer.push_to_hub("alibayram/tr_tokenizer")

CommitInfo(commit_url='https://huggingface.co/alibayram/tr_tokenizer/commit/9c11d1b0ebe5e4b44604caff7ea7a9b1d831a42b', commit_message='Upload tokenizer', commit_description='', oid='9c11d1b0ebe5e4b44604caff7ea7a9b1d831a42b', pr_url=None, pr_revision=None, pr_num=None)

In [57]:
fast_tokenizer.tokenize(texts[0])

['C',
 'en',
 'giz',
 'Han',
 'C',
 'en',
 'giz',
 'Han',
 '(',
 'doğum',
 'ad',
 'ı',
 'y',
 'la',
 'Tem',
 'uç',
 'in',
 ',',
 '–',
 '18',
 'Ağustos',
 '12',
 '27',
 '),',
 'M',
 'o',
 'ğ',
 'ol',
 'İ',
 'm',
 'para',
 'tor',
 'lu',
 'ğ',
 'u',
 "'",
 'nun',
 'kur',
 'u',
 'cu',
 'su',
 've',
 'ilk',
 'Kağan',
 'ı',
 'ol',
 'an',
 'M',
 'o',
 'ğ',
 'ol',
 'komutan',
 've',
 'hükümdar',
 'dır',
 '.',
 'Hükümdar',
 'lı',
 'ğ',
 'ı',
 'dönem',
 'in',
 'de',
 'gerçekleş',
 'tir',
 'di',
 'ğ',
 'i',
 'hiçbir',
 'savaş',
 'ı',
 'kaybet',
 'mey',
 'en',
 'C',
 'en',
 'giz',
 'Han',
 ',',
 'dünya',
 'tarihi',
 'nin',
 'en',
 'büyük',
 'askeri',
 'lider',
 'leri',
 'n',
 'den',
 'biri',
 'si',
 'ol',
 'arak',
 'kabul',
 'e',
 'dil',
 'mekte',
 'dir',
 '.',
 '13',
 '.',
 'yüzyıl',
 'ın',
 'baş',
 'ın',
 'da',
 'Orta',
 'As',
 'ya',
 "'",
 'da',
 'ki',
 'tüm',
 'göçebe',
 'bozkır',
 'kavim',
 'leri',
 'n',
 'i',
 'birleş',
 'tir',
 'ip',
 'bir',
 'ulus',
 'hâ',
 'li',
 'ne',
 'getir',
 'erek',


In [4]:
# Load model directly
from transformers import AutoTokenizer

a_tokenizer = AutoTokenizer.from_pretrained("alibayram/tr_tokenizer", use_fast=True)

In [None]:
a_tokenizer.tokenize("Akademisyenler ve aileleri ile birlikte aktif çalışıyorlar")

['akademisyen',
 'ler',
 've',
 'aile',
 'leri',
 'ile',
 'birlikte',
 'aktif',
 'çalış',
 'ı',
 'yor',
 'lar']