In [None]:
from tokenizers import Tokenizer, models, trainers, pre_tokenizers, Encoding, decoders
from pathlib import Path

tokenizer = Tokenizer(models.BPE(unk_token="<UNK>", ignore_merges=False))
tokenizer.pre_tokenizer = pre_tokenizers.Metaspace()

language_tags = [
    "<ug>", "</ug>",
    "<en>", "</en>",
    "<jp>", "</jp>",
    "<zh>", "</zh>",
    "<uz>", "</uz>",
    "<kk>", "</kk>",
    "<ky>", "</ky>",
    "<tr>", "</tr>",
    "<ru>", "</ru>",
]
trainer = trainers.BpeTrainer(special_tokens=["<PAD>", "<SOS>", "<EOS>", "<UNK>"] + language_tags, vocab_size=30000)

files = [str(i.absolute().resolve()) for i in Path("../../.data/text").iterdir() if i.is_file() and i.name.endswith(".json")]
# files = ["/home/dream-lab/project/translator_nn/.data/tokens.tsv"]
print(f"files to be included: {files}")
tokenizer.train(files, trainer)

tokenizer.save("../../config/output_tokenizer.json")
print("Done.")


files to be included: ['/home/dream-lab/project/translator_nn/.data/tokens.tsv']



Done.


In [1]:
from tokenizers import Tokenizer, decoders, Encoding

tokenizer: Tokenizer = Tokenizer.from_file("../../config/output_tokenizer.json")
tokenizer.decoder = decoders.Metaspace()

example_text = "<ug></ug><ru></ru><PAD><UNK>؛ شىنجاڭ ئۇيغۇر ئاپتونۇم رايۇنى؛ شارچە باكتېرىيە يۇقۇمى ۋە بۇنىڭدىن كېلىپ چىققان ئۆسمە بالىلارنىڭ ھاياتىغا خەۋپ يەتكۈزىدۇ؛ ئىنسانلار ئادەملەر بىلەن ئادەم، قاسىم ھاشىمغا ‹ياخشىمۇسىز» دىدى. ھاشىم: مەن ياخشى، ئۆزىڭىزچۇ؟ دېدى. يەنە باشقا مىساللاردىن گۈزەللىك، ياخشىلىق، ئەسكىلىك،  Sharing and Collaboration: Excel files are widely used and easily shareable, making collaboration smoother. They also offer additional features like adding comments or track changes which are useful during collaborative translation projects."
tokenized: Encoding = tokenizer.encode(example_text)
print(tokenized.tokens)
print(tokenized.ids)
print(f"char length: {len(example_text)} vs token ids: {len(tokenized.ids)}")
decoded: str = tokenizer.decode(tokenized.ids, skip_special_tokens=True)
print("Source versus decoded:")
print(example_text)
print(decoded)

['▁', '<', 'u', 'g', '>', '<', '/', 'u', 'g', '>', '<', 'r', 'u', '>', '<', '/', 'r', 'u', '>', '<PAD>', '<UNK>', '▁', '؛', '▁شىنجاڭ', '▁ئۇي', 'غۇر', '▁ئاپت', 'ون', 'ۇم', '▁راي', 'ۇنى', '؛', '▁شار', 'چە', '▁باكتېرىيە', '▁يۇق', 'ۇ', 'مى', '▁ۋە', '▁بۇنىڭدىن', '▁كېلىپ', '▁چىققان', '▁ئۆس', 'مە', '▁بالىلارنىڭ', '▁ھاياتى', 'غا', '▁خەۋپ', '▁يەتكۈزى', 'دۇ؛', '▁ئىنسانلار', '▁ئادەم', 'لەر', '▁بىلەن', '▁ئادەم', '،', '▁ق', 'اسى', 'م', '▁ھا', 'شى', 'م', 'غا', '▁', '‹', 'يا', 'خشى', 'مۇ', 'سىز', '»', '▁دى', 'دى.', '▁ھا', 'شى', 'م', ':', '▁مەن', '▁ياخشى،', '▁ئۆزىڭىز', 'چۇ', '؟', '▁دې', 'دى.', '▁يەنە', '▁باشقا', '▁مى', 'سال', 'لاردىن', '▁گۈزەل', 'لىك', '،', '▁ياخشى', 'لىق،', '▁ئەس', 'كى', 'لىك', '،', '▁', '▁', '<UNK>', 'h', 'ar', 'in', 'g', '▁a', 'n', 'd', '▁', '<UNK>', 'o', 'l', 'la', 'b', 'o', 'ra', 't', 'i', 'on', ':', '▁', '<UNK>', 'x', 'c', 'el', '▁', 'f', 'i', 'l', 'e', 's', '▁a', 'r', 'e', '▁', 'w', 'i', 'd', 'el', 'y', '▁u', 's', 'e', 'd', '▁a', 'n', 'd', '▁e', 'a', 's', 'i', 'l', 'y', '▁', 's