In [1]:
from tokenizers import SentencePieceBPETokenizer
from datasets import load_dataset

  from .autonotebook import tqdm as notebook_tqdm


In [3]:
ds = load_dataset("wikimedia/wikipedia", "20231101.az")

Resolving data files:   0%|          | 0/20 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/41 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/17 [00:00<?, ?it/s]

Resolving data files:   0%|          | 0/21 [00:00<?, ?it/s]

In [None]:
tokenizer = SentencePieceBPETokenizer()
tokenizer.train_from_iterator(
    ds["train"]["text"], vocab_size=30000, min_frequency=2, special_tokens=["<s>", "</s>", "<unk>"]
)

In [32]:
tokenizer.save_model(directory="tokenizer")

['tokenizer/vocab.json', 'tokenizer/merges.txt']

In [34]:
data = [
    "Bakı Azərbaycanın paytaxtı və ən böyük şəhəridir. Şəhər, zəngin tarixi və memarlıq baxımından zəngindir.",
    "Azərbaycanın məşhur milli yeməkləri arasında plov, dolma, dushbara və lavash yer alır.",
    'Nizami Gəncəvi Azərbaycanın ən böyük şairlərindən biridir. Əsas əsərləri arasında "Xosrov və Şirin", "Leyli və Məcnun" və "Əskər-Nāme" yer alır.',
    "Azərbaycan Respublikasının prezidenti 2022-ci ildə İlham Əliyevdir.",
    "Sumqayıt şəhəri Azərbaycanın şimal-qərbində, Bakıya yaxın bir əraziyə yerləşir.",
    "Azərbaycanın rəsmi dili Azərbaycan dilidir.",
    "İlham Əliyev 24 dekabr 1961-ci ildə anadan olub.",
    "Azərbaycanın pul vahidi manatdır.",
    "Azərbaycanın ən böyük gölü Göygöl gölüdür.",
    "UNESCO-nun Azərbaycandakı dünya irsi obyektlərindən biri Şəki Sarayıdır.",
]

for sent in data:
    print(tokenizer.encode(sent).tokens)

['▁Bakı', '▁Azərbaycanın', '▁paytaxtı', '▁və', '▁ən', '▁böyük', '▁şəhəridir.', '▁Şəhər', ',', '▁zəngin', '▁tarixi', '▁və', '▁memarlıq', '▁baxımından', '▁zəngindir.']
['▁Azərbaycanın', '▁məşhur', '▁milli', '▁yemək', 'ləri', '▁arasında', '▁pl', 'ov,', '▁dol', 'ma,', '▁d', 'us', 'h', 'b', 'ara', '▁və', '▁l', 'av', 'ash', '▁yer', '▁alır.']
['▁Nizami', '▁Gəncəvi', '▁Azərbaycanın', '▁ən', '▁böyük', '▁şair', 'lərindən', '▁biridir.', '▁Əsas', '▁əsərləri', '▁arasında', '▁"X', 'osrov', '▁və', '▁Şirin', '",', '▁"Leyli', '▁və', '▁Məcnun"', '▁və', '▁"Ə', 'sk', 'ər', '-N', 'ā', 'm', 'e"', '▁yer', '▁alır.']
['▁Azərbaycan', '▁Respublikasının', '▁prezidenti', '▁2022-ci', '▁ildə', '▁İlham', '▁Əliyev', 'dir.']
['▁Sumqayıt', '▁şəhəri', '▁Azərbaycanın', '▁şimal-qərb', 'ində,', '▁Bakıya', '▁yaxın', '▁bir', '▁əraziyə', '▁yerləşir.']
['▁Azərbaycanın', '▁rəsmi', '▁dili', '▁Azərbaycan', '▁dili', 'dir.']
['▁İlham', '▁Əliyev', '▁24', '▁dekabr', '▁1961-ci', '▁ildə', '▁anadan', '▁olub.']
['▁Azərbaycanın', '▁pul', '

In [38]:
tokenizer.decode(tokenizer.encode(sent).ids)

'UNESCO-nun Azərbaycandakı dünya irsi obyektlərindən biri Şəki Sarayıdır.'

In [30]:
sorted(tokenizer.get_vocab().items(), key=lambda x: x[1], reverse=True)

[('▁nəfər\n', 29999),
 ('▁hissəli', 29998),
 ('▁Çat', 29997),
 ('▁kəndlərinə', 29996),
 ('▁Uor', 29995),
 ('▁Gor', 29994),
 ('▁Əliy', 29993),
 ('ovlu', 29992),
 ('eyra', 29991),
 ('▁dr', 29990),
 ('▁ilg', 29989),
 ('▁kredi', 29988),
 ('\n\nTürkiyə', 29987),
 ('ille', 29986),
 ('к.', 29985),
 ('ƏM', 29984),
 ('uary', 29983),
 ('naz', 29982),
 ('kis', 29981),
 ('finin', 29980),
 ('cil', 29979),
 ('Təsviri', 29978),
 ('-W', 29977),
 ('▁Qovanlı-Qacar', 29976),
 ('▁Benjamin', 29975),
 ('▁Fərzəliyev', 29974),
 ('▁sürgündə', 29973),
 ('asionar', 29972),
 ('▁təqaüdü', 29971),
 ('▁nəğməsi', 29970),
 ('▁macəraları', 29969),
 ('▁Ülya,', 29968),
 ('urğunun', 29967),
 ('▁küləklər', 29966),
 ('▁Xorvatiyanın', 29965),
 ('▁məhsuldarlığı', 29964),
 ('▁İyunun', 29963),
 ('▁çəkilişlər', 29962),
 ('▁daral', 29961),
 ('▁təbiətə', 29960),
 ('▁ardıcıllıqla', 29959),
 ('▁Vener', 29958),
 ('▁parlamentlərarası', 29957),
 ('▁fransızlar', 29956),
 ('▁tutulub', 29955),
 ('-kimya', 29954),
 ('▁Qalil', 29953),
 ('▁u

In [10]:
text = """Məhəmməd Rəşid Riza misirli dini və ictimai xadim. Əsli Liviyadan olmuş Riza 1898-ci ildə Misirə gəlib Qahirədə tanınmış Əl-Mənar jurnalında çalışmışdır. Rəşid Rıza, Cəmaləddin Əfqanini və Məhəmməd Əbdunun fikirlərini inkişaf etdirmiş, Qərb müstəmləkəçiliyinə qarşı çıxmış, Xilafətin bərpa olunmasının tərəfdarı kimi tanınmışdır. 13401924-cü ildə Türkiyədə respublikaçılar Osmanlı xilafətinə son qoyduqdan sonra M. R. Riza Xilafətin dirçəldilməsi istəklərinin reallaşmayacağını anlamışdır. Buna görə o, öz fikirlərinə dəyişikliklər etməli oldu. Xilafətin alternativi kimi İslam ölkəsi ideyasını səsləndirdi. Bu ideya müasir zamanımızda həyata keçmişdir. Pakistan, İran kimi ölkələrdə İslam dövlətləri yaranmışdır. Bundan başqa bu ideyalar müxtəlif müsəlman icmaları tərəfindən çox bəyənilmişdir. M. R. Riza bir çox kitabların müəllifi olmuşdur. O, təfsirə aid bir kitab yazmışdır. Onun əsərlərinin çoxu məqalələr kimi Əl-Mənar jurnalında çap olunmuşdur."""

print(len(text.split()))

119


In [49]:
print(len(tokenizer.encode(text).tokens))

168


In [51]:
119 * 4 / 3

158.66666666666666

## Tokenize from LLaMA2 tokenizer

In [4]:
from transformers import AutoTokenizer
from datasets import load_dataset

old_tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-13b-hf")

In [5]:
raw_datasets = load_dataset("wikimedia/wikipedia", "20231101.az")

Downloading readme: 100%|██████████| 131k/131k [00:00<00:00, 643kB/s] 
Downloading data: 100%|██████████| 230M/230M [06:43<00:00, 570kB/s] 
Generating train split: 100%|██████████| 196158/196158 [00:00<00:00, 375114.74 examples/s]


In [6]:
def get_training_corpus():
    dataset = raw_datasets["train"]
    for start_idx in range(0, len(dataset), 1000):
        samples = dataset[start_idx : start_idx + 1000]
        yield samples["text"]

training_corpus = get_training_corpus()

In [7]:
tokenizer = old_tokenizer.train_new_from_iterator(training_corpus, 32000)






In [8]:
tokenizer.save_pretrained("azGPT-LLaMA-tokenizer")

('azGPT-LLaMA-tokenizer/tokenizer_config.json',
 'azGPT-LLaMA-tokenizer/special_tokens_map.json',
 'azGPT-LLaMA-tokenizer/tokenizer.model',
 'azGPT-LLaMA-tokenizer/added_tokens.json',
 'azGPT-LLaMA-tokenizer/tokenizer.json')

In [9]:
tokenizer.push_to_hub("azGPT")

tokenizer.model: 100%|██████████| 500k/500k [00:01<00:00, 277kB/s]  


CommitInfo(commit_url='https://huggingface.co/eljanmahammadli/azGPT/commit/3d1de805d43bc82bf85a9cf150e9a4f5cdf2c01d', commit_message='Upload tokenizer', commit_description='', oid='3d1de805d43bc82bf85a9cf150e9a4f5cdf2c01d', pr_url=None, pr_revision=None, pr_num=None)

In [12]:
text1 = "Hello, my name is Eljan and I am from Azerbaijan. I am Machine Learning Engineer."
text2 = "Salam mənim adım Elcandır və mən Azərbaycandanam. Mən maşın öyrənməsi mühəndisiyəm"

In [17]:
tokenizer.tokenize(text2)

['▁S',
 'alam',
 '▁mənim',
 '▁ad',
 'ım',
 '▁El',
 'can',
 'dır▁və▁',
 'mən▁',
 'Azərbayc',
 'and',
 'an',
 'am',
 '.▁Mən▁',
 'maşın▁',
 'öyrən',
 'məsi▁',
 'mühəndis',
 'iy',
 'əm']

In [20]:
tokenizer.encode(text)

[1,
 13438,
 16771,
 6001,
 25757,
 9133,
 22784,
 8341,
 5285,
 23767,
 5267,
 6567,
 5375,
 10134,
 9680,
 7724,
 6001,
 25757,
 28823,
 31251,
 24874,
 5934,
 11355,
 5598,
 11006,
 10026,
 17,
 6329,
 5631,
 22564,
 13973,
 16771,
 6001,
 5487,
 5441,
 8191,
 5266,
 7835,
 11425,
 11087,
 8242,
 7512,
 72,
 5523,
 26625,
 10214,
 7484,
 8914,
 14210,
 12589,
 8235,
 6989,
 14923,
 5653,
 8124,
 60,
 17074,
 6890,
 12897,
 7932,
 12336,
 14743,
 6814,
 6014,
 5994,
 7014,
 19266,
 11976,
 8547,
 20708,
 6876,
 29195,
 9088,
 18317,
 11755,
 49,
 8789,
 8789,
 25757,
 60,
 17074,
 6890,
 25717,
 72,
 6573,
 21385,
 5717,
 24936,
 5724,
 11597,
 5263,
 6595,
 7728,
 7665,
 6071,
 5489,
 16242,
 5990,
 20670,
 29935,
 9440,
 60,
 17074,
 6890,
 19281,
 9048,
 7171,
 9941,
 5407,
 29598,
 14662,
 7801,
 27841,
 9776,
 21175,
 9690,
 5292,
 6038,
 13188,
 5596,
 10950,
 14998,
 7495,
 5692,
 11921,
 7171,
 7431,
 5430,
 6364,
 6948,
 22033,
 5504,
 9010,
 5422,
 12115,
 28778,
 5376,
 10