In [125]:
from transformers import PreTrainedTokenizerFast

xlm_roberta_tokenizer = PreTrainedTokenizerFast.from_pretrained(
    "FacebookAI/xlm-roberta-base")

bert_multilingual_tokenizer = PreTrainedTokenizerFast.from_pretrained("google-bert/bert-base-multilingual-cased")

azerbaijani_bpe_tokenizer = PreTrainedTokenizerFast.from_pretrained(
    "hikmatazimzade/azerbaijani-bpe-tokenizer")


azerbaijani_unigram_tokenizer = PreTrainedTokenizerFast.from_pretrained(
    "hikmatazimzade/azerbaijani-unigram-tokenizer")

TOKENIZERS = {
    "Xlm Roberta Tokenizer": xlm_roberta_tokenizer,
    "Bert Multilingual Tokenizer": bert_multilingual_tokenizer,
    "Azerbaijani Bpe Tokenizer": azerbaijani_bpe_tokenizer,
    "Azerbaijani Unigram Tokenizer": azerbaijani_unigram_tokenizer
}

print("All tokenizers loaded successfully!")

The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'XLMRobertaTokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.
The tokenizer class you load from this checkpoint is not the same type as the class this function is called from. It may result in unexpected tokenization. 
The tokenizer class you load from this checkpoint is 'BertTokenizer'. 
The class this function is called from is 'PreTrainedTokenizerFast'.


All tokenizers loaded successfully!


In [126]:
from utils.config import ROOT_DIR

FILE_PATH = f"{ROOT_DIR}/data/azerbaijani_data.txt"

In [127]:
from random import choices

def get_random_sentences(file_path: str=FILE_PATH,
                        total_sentence_number: int=10_000,
                         random_sentence_number: int=100):
    sentences = []
    with open(file_path, "r", encoding="utf-8") as file:
        for idx, line in enumerate(file):
            if idx == total_sentence_number:
                break
            sentences.append(line)

    return choices(sentences, k=random_sentence_number)

In [128]:
RANDOM_SENTENCES = get_random_sentences()
print(f"Randomly selected sentences: {RANDOM_SENTENCES}")

Randomly selected sentences: ['Formula-1" Qran-pri siyahısı — 1950-ci ildən FİA Dünya Çempionatına daxil olan bütün mərhələlərin siyahısı.\n', 'Filmin üzərində işləyənlər Ssenari müəllifi: Cəmil Fərəcov Rejissor: Cəmil Fərəcov Operator: Sərdar Vəliyev Həmçinin bax Azərbaycan filmlərinin siyahısı1984-cü ilin Azərbaycan filmləri1980-ci illər Azərbaycan filmlərinin siyahısı Azərbaycan"da dəniz səyahəti — qısametrajlı sənədli film.\n', 'Fövqəladə hallar orqanlarında qüsursuz xidmətə görə" Azərbaycan Respublikasının medalı döşün sol tərəfinə, Azərbaycan Respublikasının digər orden və medalları olduqda onlardan sonra taxılır.\n', 'Open Door Policy) — 1899-cu ildə ABŞ böyük dövlətlərdən tələb etdi ki, Çindəki nüfuz dairələrində Amerika mallarının gətirilməsi və satışına şərait yaratsınlar.\n', 'Medalın arxa tərəfində xarici və daxili çevrələrlə konturlanmış lövhənin üzərində qövs boyunca "ZƏNGİLANIN AZAD OLUNMASINA GÖRƏ" sözləri yazılmışdır.\n', 'Dövlət başçısı İlham Əliyevin iştirakı ilə 200

In [129]:
from time import perf_counter
from typing import Dict, List

def get_tokenizer_performance(model,
                            sentences: List[str]) -> Dict[str, int | float]:
    token_count, start = 0, perf_counter()
    for sentence in sentences:
        tokens = model.tokenize(sentence)
        token_count += len(tokens)

    perform_time = perf_counter() - start
    return {
        "token_count": token_count,
        "perform_time": perform_time
    }

In [131]:
print(f"Tokenizers performance with {len(RANDOM_SENTENCES)} sentences:")

for name, model in TOKENIZERS.items():
    tokenizer_performance = get_tokenizer_performance(model, RANDOM_SENTENCES)
    print(f"{name} tokenizer performance: {tokenizer_performance}")

Tokenizers performance with 100 sentences:
Xlm Roberta Tokenizer tokenizer performance: {'token_count': 4613, 'perform_time': 0.012914700026158243}
Bert Multilingual Tokenizer tokenizer performance: {'token_count': 6030, 'perform_time': 0.0117459999746643}
Azerbaijani Bpe Tokenizer tokenizer performance: {'token_count': 4189, 'perform_time': 0.007832000032067299}
Azerbaijani Unigram Tokenizer tokenizer performance: {'token_count': 4129, 'perform_time': 0.007791400013957173}
