In [1]:
from _tiktoken import TikTokenTokenizer
from tqdm.auto import tqdm

def llama3_tokenizer(path: str) -> TikTokenTokenizer:
    """
    Tokenizer for Llama3.

    Args:
        path (str): path to the tokenizer

    Returns:
        TikTokenTokenizer: Instantiation of the Llama3 tokenizer
    """
    tiktoken = TikTokenTokenizer(path)
    tiktoken.pad_id = 0
    return tiktoken




  from .autonotebook import tqdm as notebook_tqdm


In [2]:
tokenizer_1=llama3_tokenizer("/home/sk_nahin/token/llama_tokenizer/tokenizer.model")
tokenizer_2=llama3_tokenizer("/home/sk_nahin/token/tokenizer_llama_plus_48K/tokenizer.model")
tokenizer_3=llama3_tokenizer("/home/sk_nahin/token/tokenizer_llama_plus_62K/tokenizer.model")
tokenizer_4=llama3_tokenizer("/home/sk_nahin/token/tokenizer_llama_plus_32K/tokenizer.model")
tokenizer_5=llama3_tokenizer("/home/sk_nahin/token/tokenizer_llama_plus_80K/tokenizer.model")
tokenizer_6=llama3_tokenizer("/home/sk_nahin/token/tokenizer_llama_plus_96K/tokenizer.model")


In [None]:
from transformers import AutoTokenizer, AutoModelForCausalLM
gemma = AutoTokenizer.from_pretrained("google/gemma-2-9b")

In [4]:
sen = "সরকারি চাকরিতে কোটাব্যবস্থা বাতিল করে ২০১৮ সালে সরকারের জারি করা পরিপত্র পুনর্বহালসহ কয়েকটি দাবিতে শিক্ষার্থী ও চাকরিপ্রত্যাশীরা আন্দোলন করছেন। এই আন্দোলন এখন দেশের বিভিন্ন এলাকায় ছড়িয়ে পড়ছে। এমন পরিপ্রেক্ষিতে খোঁজ নিয়ে জানা গেল, সরকারি চাকরিতে কোটাপদ্ধতি চালুর ইতিহাসটি বেশ দীর্ঘ। স্বাধীনতার পর থেকেই বিভিন্ন শ্রেণির চাকরিতে কোটাব্যবস্থা চলে আসছিল। একপর্যায়ে কোটা সংস্কারের দাবিতে শিক্ষার্থী ও চাকরিপ্রার্থীদের আন্দোলনের মুখে ২০১৮ সালের অক্টোবরে নবম থেকে ১৩তম গ্রেডের (প্রথম ও দ্বিতীয় শ্রেণি) সরকারি চাকরিতে কোটা বাতিল করে পরিপত্র জারি করেছিল জনপ্রশাসন মন্ত্রণালয়।"
sen = "রংপুরে বেগম রোকেয়া বিশ্ববিদ্যালয়ের শিক্ষার্থী আবু সাঈদের বুক ও পেট পুলিশের গুলিতে ঝাঁঝরা হয়ে গিয়েছিল। তাঁর গলা থেকে ঊরু পর্যন্ত ছিল ছররা গুলির আঘাত। অথচ পুলিশের করা মামলার প্রাথমিক তথ্য বিবরণীতে (এফআইআর) বলা হয়েছে, আন্দোলনকারীদের ছোড়া গুলি ও ইটপাটকেল নিক্ষেপের এক পর্যায়ে আবু সাঈদের মৃত্যু হয়।"
# pip install protobuf==3.20.3

In [5]:
print("total words: ",len(sen.split()))

tokens_1 = [tokenizer_1.decode([i]) for i in tokenizer_1.encode(sen,add_bos=False,add_eos=False)]
print("llama: ", len(tokens_1), "tokens: ", tokens_1)
tokens_4 = [tokenizer_4.decode([i]) for i in tokenizer_4.encode(sen,add_bos=False,add_eos=False)]
print("llama+32K: ", len(tokens_4), "tokens: ", tokens_4)
tokens_2 = [tokenizer_2.decode([i]) for i in tokenizer_2.encode(sen,add_bos=False,add_eos=False)]
print("llama+48K: ", len(tokens_2), "tokens: ", tokens_2)
tokens_3 = [tokenizer_3.decode([i]) for i in tokenizer_3.encode(sen,add_bos=False,add_eos=False)]
print("llama+62K: ", len(tokens_3), "tokens: ", tokens_3)

tokens_5 = [tokenizer_5.decode([i]) for i in tokenizer_5.encode(sen,add_bos=False,add_eos=False)]
print("llama+80K: ", len(tokens_5), "tokens: ", tokens_5)

tokens_6 = [tokenizer_6.decode([i]) for i in tokenizer_6.encode(sen,add_bos=False,add_eos=False)]
print("llama+96K: ", len(tokens_6), "tokens: ", tokens_6)


tokens_gemma = gemma.tokenize(sen)
print("gemma: ", len(tokens_gemma), "tokens: ", tokens_gemma)



total words:  46
llama:  364 tokens:  ['র', '�', '�', '�', '�', '�', '�', 'র', 'ে', ' �', '�', 'ে', '�', '�', '�', '�', ' �', '�', '�', '�', '�', '�', 'ে', '�', '�', 'া', ' �', '�', 'ি�', '�', '্�', '�', '�', '�', 'ি�', '�', '্�', '�', 'া�', '�', '�', '�', 'ে', 'র', ' �', '�', 'ি�', '�', '্�', '�', 'া�', '�', '্�', '�', '�', '�', ' �', '�', '�', '�', '�', '�', ' �', '�', 'া�', '�', '�', '�', 'ে', 'র', ' �', '�', '�', '�', '�', '�', ' �', '�', ' �', '�', 'ে', '�', '�', ' �', '�', '�', '�', '�', '�', 'ি�', '�', 'ে', 'র', ' �', '�', '�', '�', '�', '�', 'ি�', '�', 'ে', ' �', '�', 'া�', '�', '�', '�', 'র', 'া', ' �', '�', '�', '�', 'ে', ' �', '�', 'ি', '�', '�', 'ে', '�', '�', 'ি�', '�', '।', ' �', '�', 'া�', '�', 'র', ' �', '�', '�', '�', 'া', ' �', '�', 'ে', '�', '�', 'ে', ' �', '�', 'র', '�', '�', ' �', '�', 'র', '্�', '�', 'ন', '্�', '�', ' �', '�', 'ি�', '�', ' �', '�', 'র', 'র', 'া', ' �', '�', '�', '�', '�', '�', 'ি', 'র', ' �', '�', '�', '�', 'া�', '�', '।', ' �', '�', '�', '�', '�'

In [13]:
import glob

def load_text(files):
    texts = ""
    for file in tqdm(files):
        with open(file, 'r', encoding='utf-8') as f:
            text = f.read()
            texts += text + '\n'
    return texts

all_files = glob.glob("/home/sk_nahin/token/test_data/*")[:1]

all_text = load_text(all_files)[:1000000]

total_words = len(all_text.split())



100%|██████████| 1/1 [00:00<00:00, 37.21it/s]


In [14]:
print("total_words: ",total_words,"\n")
print("-------------token per word--------------\n")
tokens_1 = [tokenizer_1.decode([i]) for i in tokenizer_1.encode(all_text,add_bos=False,add_eos=False)]
print("llama: ", len(tokens_1)/total_words)
tokens_4 = [tokenizer_4.decode([i]) for i in tokenizer_4.encode(all_text,add_bos=False,add_eos=False)]
print("llama+32K: ", len(tokens_4)/total_words)
tokens_2 = [tokenizer_2.decode([i]) for i in tokenizer_2.encode(all_text,add_bos=False,add_eos=False)]
print("llama+48K: ", len(tokens_2)/total_words)
tokens_3 = [tokenizer_3.decode([i]) for i in tokenizer_3.encode(all_text,add_bos=False,add_eos=False)]
print("llama+62K: ", len(tokens_3)/total_words)

tokens_5 = [tokenizer_5.decode([i]) for i in tokenizer_5.encode(all_text,add_bos=False,add_eos=False)]
print("llama+80K: ", len(tokens_5)/total_words)

tokens_6 = [tokenizer_6.decode([i]) for i in tokenizer_6.encode(all_text,add_bos=False,add_eos=False)]
print("llama+96K: ", len(tokens_6)/total_words)


tokens_gemma = gemma.tokenize(all_text)
print("llama+62K: ", len(tokens_gemma)/total_words)

total_words:  152269 

-------------token per word--------------



llama:  7.839717867720942
llama+32K:  2.134636728421412
llama+48K:  1.902882398912451
llama+62K:  1.7945872107914282
llama+80K:  1.7369786364919977
llama+96K:  1.7034327407417136
llama+62K:  3.8186104853909857
