# Comparting Trained LLM Tokenizers

In [1]:
import warnings
warnings.filterwarnings('ignore')

## Tokenizing Text

In [2]:
pip install transformers

Note: you may need to restart the kernel to use updated packages.


In [3]:
from transformers import AutoTokenizer

In [4]:
sentence = "Hello World!"

In [6]:
tokenizer = AutoTokenizer.from_pretrained('bert-base-cased')



In [8]:
token_ids = tokenizer(sentence).input_ids

In [9]:
print(token_ids)

[101, 8667, 1291, 106, 102]


In [10]:
for id in token_ids:
    print(tokenizer.decode(id))

[CLS]
Hello
World
!
[SEP]


## Visualizing Tokenization

In [11]:
colors = [
    '102;194;165', '252;141;98', '141;160;203',
    '231;138;195', '166;216;84', '255;217;47'
]

In [27]:
def show_tokens(sentence: str, tokenizer_name: str):
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
    token_ids = tokenizer(sentence).input_ids

    print(f'Vocab length: {len(tokenizer)}')

    for idx, t in enumerate(token_ids):
        print(
            f'\x1b[0;30;48;2;{colors[idx % len(colors)]}m' +
            tokenizer.decode(t) +
            '\x1b[0m',
            end=' '
        )

In [28]:
text= """
English and CAPITALIZATION
ðŸŽµ é¸Ÿ
show_tokens False None elif == >= else: two tabs:"    " Three tabs: "       "
12.0*50=600
"""

In [29]:
show_tokens(text, 'bert-base-cased')

Vocab length: 28996
[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203mand[0m [0;30;48;2;231;138;195mCA[0m [0;30;48;2;166;216;84m##PI[0m [0;30;48;2;255;217;47m##TA[0m [0;30;48;2;102;194;165m##L[0m [0;30;48;2;252;141;98m##I[0m [0;30;48;2;141;160;203m##Z[0m [0;30;48;2;231;138;195m##AT[0m [0;30;48;2;166;216;84m##ION[0m [0;30;48;2;255;217;47m[UNK][0m [0;30;48;2;102;194;165m[UNK][0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_[0m [0;30;48;2;231;138;195mtoken[0m [0;30;48;2;166;216;84m##s[0m [0;30;48;2;255;217;47mF[0m [0;30;48;2;102;194;165m##als[0m [0;30;48;2;252;141;98m##e[0m [0;30;48;2;141;160;203mNone[0m [0;30;48;2;231;138;195mel[0m [0;30;48;2;166;216;84m##if[0m [0;30;48;2;255;217;47m=[0m [0;30;48;2;102;194;165m=[0m [0;30;48;2;252;141;98m>[0m [0;30;48;2;141;160;203m=[0m [0;30;48;2;231;138;195melse[0m [0;30;48;2;166;216;84m:[0m [0;30;48;2;255;217;47mtwo[0m [0;30;48;2;102;194;165mta[

In [32]:
show_tokens(text, "Xenova/gpt-4")

Vocab length: 100263
[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAPITAL[0m [0;30;48;2;166;216;84mIZATION[0m [0;30;48;2;255;217;47m
[0m [0;30;48;2;102;194;165mï¿½[0m [0;30;48;2;252;141;98mï¿½[0m [0;30;48;2;141;160;203mï¿½[0m [0;30;48;2;231;138;195m ï¿½[0m [0;30;48;2;166;216;84mï¿½[0m [0;30;48;2;255;217;47mï¿½[0m [0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_[0m [0;30;48;2;231;138;195mtokens[0m [0;30;48;2;166;216;84m False[0m [0;30;48;2;255;217;47m None[0m [0;30;48;2;102;194;165m elif[0m [0;30;48;2;252;141;98m ==[0m [0;30;48;2;141;160;203m >=[0m [0;30;48;2;231;138;195m else[0m [0;30;48;2;166;216;84m:[0m [0;30;48;2;255;217;47m two[0m [0;30;48;2;102;194;165m tabs[0m [0;30;48;2;252;141;98m:"[0m [0;30;48;2;141;160;203m   [0m [0;30;48;2;231;138;195m "[0m [0;30;48;2;166;216;84m Three[0m [0;30;48;2;255;217;47m tabs[0m [0;30;48;

#### gpt2

In [34]:
show_tokens(text, "gpt2")

Vocab length: 50257
[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAP[0m [0;30;48;2;166;216;84mITAL[0m [0;30;48;2;255;217;47mIZ[0m [0;30;48;2;102;194;165mATION[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mï¿½[0m [0;30;48;2;231;138;195mï¿½[0m [0;30;48;2;166;216;84mï¿½[0m [0;30;48;2;255;217;47m ï¿½[0m [0;30;48;2;102;194;165mï¿½[0m [0;30;48;2;252;141;98mï¿½[0m [0;30;48;2;141;160;203m
[0m [0;30;48;2;231;138;195mshow[0m [0;30;48;2;166;216;84m_[0m [0;30;48;2;255;217;47mt[0m [0;30;48;2;102;194;165mok[0m [0;30;48;2;252;141;98mens[0m [0;30;48;2;141;160;203m False[0m [0;30;48;2;231;138;195m None[0m [0;30;48;2;166;216;84m el[0m [0;30;48;2;255;217;47mif[0m [0;30;48;2;102;194;165m ==[0m [0;30;48;2;252;141;98m >=[0m [0;30;48;2;141;160;203m else[0m [0;30;48;2;231;138;195m:[0m [0;30;48;2;166;216;84m two[0m [0;30;48;2;255;217;47m tabs[0m [0;30;48;2;102;194;165m:"[0

#### Flan-T5-small

In [35]:
show_tokens(text, 'google/flan-t5-small')

Vocab length: 32100
[0;30;48;2;102;194;165mEnglish[0m [0;30;48;2;252;141;98mand[0m [0;30;48;2;141;160;203mCA[0m [0;30;48;2;231;138;195mPI[0m [0;30;48;2;166;216;84mTAL[0m [0;30;48;2;255;217;47mIZ[0m [0;30;48;2;102;194;165mATION[0m [0;30;48;2;252;141;98m[0m [0;30;48;2;141;160;203m<unk>[0m [0;30;48;2;231;138;195m[0m [0;30;48;2;166;216;84m<unk>[0m [0;30;48;2;255;217;47mshow[0m [0;30;48;2;102;194;165m_[0m [0;30;48;2;252;141;98mto[0m [0;30;48;2;141;160;203mken[0m [0;30;48;2;231;138;195ms[0m [0;30;48;2;166;216;84mFal[0m [0;30;48;2;255;217;47ms[0m [0;30;48;2;102;194;165me[0m [0;30;48;2;252;141;98mNone[0m [0;30;48;2;141;160;203m[0m [0;30;48;2;231;138;195me[0m [0;30;48;2;166;216;84ml[0m [0;30;48;2;255;217;47mif[0m [0;30;48;2;102;194;165m=[0m [0;30;48;2;252;141;98m=[0m [0;30;48;2;141;160;203m>[0m [0;30;48;2;231;138;195m=[0m [0;30;48;2;166;216;84melse[0m [0;30;48;2;255;217;47m:[0m [0;30;48;2;102;194;165mtwo[0m [0;30;48;2;252;141;98mtab

#### Starcoder 2 - 15B

In [38]:
show_tokens(text, "bigcode/starcoder2-15b")

Vocab length: 49152
[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAPITAL[0m [0;30;48;2;166;216;84mIZATION[0m [0;30;48;2;255;217;47m
[0m [0;30;48;2;102;194;165mï¿½[0m [0;30;48;2;252;141;98mï¿½[0m [0;30;48;2;141;160;203mï¿½[0m [0;30;48;2;231;138;195m [0m [0;30;48;2;166;216;84mï¿½[0m [0;30;48;2;255;217;47mï¿½[0m [0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_[0m [0;30;48;2;231;138;195mtokens[0m [0;30;48;2;166;216;84m False[0m [0;30;48;2;255;217;47m None[0m [0;30;48;2;102;194;165m elif[0m [0;30;48;2;252;141;98m ==[0m [0;30;48;2;141;160;203m >=[0m [0;30;48;2;231;138;195m else[0m [0;30;48;2;166;216;84m:[0m [0;30;48;2;255;217;47m two[0m [0;30;48;2;102;194;165m tabs[0m [0;30;48;2;252;141;98m:"[0m [0;30;48;2;141;160;203m   [0m [0;30;48;2;231;138;195m "[0m [0;30;48;2;166;216;84m Three[0m [0;30;48;2;255;217;47m tabs[0m [0;30;48;2;10

#### Phi-3

In [39]:
show_tokens(text, "microsoft/Phi-3-mini-4k-instruct")

Vocab length: 32011
[0;30;48;2;102;194;165m[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mEnglish[0m [0;30;48;2;231;138;195mand[0m [0;30;48;2;166;216;84mC[0m [0;30;48;2;255;217;47mAP[0m [0;30;48;2;102;194;165mIT[0m [0;30;48;2;252;141;98mAL[0m [0;30;48;2;141;160;203mIZ[0m [0;30;48;2;231;138;195mATION[0m [0;30;48;2;166;216;84m
[0m [0;30;48;2;255;217;47mï¿½[0m [0;30;48;2;102;194;165mï¿½[0m [0;30;48;2;252;141;98mï¿½[0m [0;30;48;2;141;160;203mï¿½[0m [0;30;48;2;231;138;195m[0m [0;30;48;2;166;216;84mï¿½[0m [0;30;48;2;255;217;47mï¿½[0m [0;30;48;2;102;194;165mï¿½[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mshow[0m [0;30;48;2;231;138;195m_[0m [0;30;48;2;166;216;84mto[0m [0;30;48;2;255;217;47mkens[0m [0;30;48;2;102;194;165mFalse[0m [0;30;48;2;252;141;98mNone[0m [0;30;48;2;141;160;203melif[0m [0;30;48;2;231;138;195m==[0m [0;30;48;2;166;216;84m>=[0m [0;30;48;2;255;217;47melse[0m [0;30;48;2;102;194;165m:[0m [0;30;48;2;252

#### Qwen2 - Vision-Language Model

In [41]:
show_tokens(text, "Qwen/Qwen2-VL-7B-Instruct")

Vocab length: 151657
[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAPITAL[0m [0;30;48;2;166;216;84mIZATION[0m [0;30;48;2;255;217;47m
[0m [0;30;48;2;102;194;165mðŸŽµ[0m [0;30;48;2;252;141;98m ï¿½[0m [0;30;48;2;141;160;203mï¿½[0m [0;30;48;2;231;138;195mï¿½[0m [0;30;48;2;166;216;84m
[0m [0;30;48;2;255;217;47mshow[0m [0;30;48;2;102;194;165m_tokens[0m [0;30;48;2;252;141;98m False[0m [0;30;48;2;141;160;203m None[0m [0;30;48;2;231;138;195m elif[0m [0;30;48;2;166;216;84m ==[0m [0;30;48;2;255;217;47m >=[0m [0;30;48;2;102;194;165m else[0m [0;30;48;2;252;141;98m:[0m [0;30;48;2;141;160;203m two[0m [0;30;48;2;231;138;195m tabs[0m [0;30;48;2;166;216;84m:"[0m [0;30;48;2;255;217;47m   [0m [0;30;48;2;102;194;165m "[0m [0;30;48;2;252;141;98m Three[0m [0;30;48;2;141;160;203m tabs[0m [0;30;48;2;231;138;195m:[0m [0;30;48;2;166;216;84m "[0m [0;30;48;2;255;217;47m      [0m [0;30

In [42]:
show_tokens('Asish Jose Kakkattil', 'Xenova/gpt-4')

Vocab length: 100263
[0;30;48;2;102;194;165mAs[0m [0;30;48;2;252;141;98mish[0m [0;30;48;2;141;160;203m Jose[0m [0;30;48;2;231;138;195m K[0m [0;30;48;2;166;216;84makk[0m [0;30;48;2;255;217;47matt[0m [0;30;48;2;102;194;165mil[0m 

In [43]:
show_tokens('My Name is Asish Jose Kakkattil', 'Xenova/gpt-4')

Vocab length: 100263
[0;30;48;2;102;194;165mMy[0m [0;30;48;2;252;141;98m Name[0m [0;30;48;2;141;160;203m is[0m [0;30;48;2;231;138;195m As[0m [0;30;48;2;166;216;84mish[0m [0;30;48;2;255;217;47m Jose[0m [0;30;48;2;102;194;165m K[0m [0;30;48;2;252;141;98makk[0m [0;30;48;2;141;160;203matt[0m [0;30;48;2;231;138;195mil[0m 

In [44]:
show_tokens('John Joseph', 'Xenova/gpt-4')

Vocab length: 100263
[0;30;48;2;102;194;165mJohn[0m [0;30;48;2;252;141;98m Joseph[0m 