#Comparing the LLM Tokenizers#
This will show us that newer toeknizers have changed their behaviourto improve model performance. And speciallized models need specialized charachgters.

In [2]:
from transformers import AutoModelForCausalLM, AutoTokenizer

colors_list = [
    '102;194;165', '252;141;98', '141;160;203',
    '231;138;195', '166;216;84', '255;217;47'
]

def show_tokens(sentence, tokenizer_name):
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
    token_ids = tokenizer(sentence).input_ids
    for idx, t in enumerate(token_ids):
        print(
            f'\x1b[0;30;48;2;{colors_list[idx % len(colors_list)]}m' +
            tokenizer.decode(t) +
            '\x1b[0m',
            end=' '
        )

This will allow us to see how each tokenizer deals with a number of different kinds of tokens:
* Capitalization.
* Languages other than English.
* Emojis.
* Programming code with keywords and whitespaces often used for indentation (in languages like Python for example).
* Numbers and digits.
* Special tokens. These are unique tokens that have a role other than representing text. They include tokens that indicate the beginning of the text, or the end of the text (which is the way the model signals to the system that it has completed this generation), or other functions as we'll see.

In [4]:
text = """
English and CAPITALIZATION
🎵 鸟 هاااااای
show_tokens False None elif == >= else: two tabs:"    " Three tabs: "       "
12.0*50=600
"""

#BERT uncased

In [5]:
show_tokens(text, "bert-base-uncased")

[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98menglish[0m [0;30;48;2;141;160;203mand[0m [0;30;48;2;231;138;195mcapital[0m [0;30;48;2;166;216;84m##ization[0m [0;30;48;2;255;217;47m[UNK][0m [0;30;48;2;102;194;165m[UNK][0m [0;30;48;2;252;141;98mه[0m [0;30;48;2;141;160;203m##ا[0m [0;30;48;2;231;138;195m##ا[0m [0;30;48;2;166;216;84m##ا[0m [0;30;48;2;255;217;47m##ا[0m [0;30;48;2;102;194;165m##ا[0m [0;30;48;2;252;141;98m##ا[0m [0;30;48;2;141;160;203m##ی[0m [0;30;48;2;231;138;195mshow[0m [0;30;48;2;166;216;84m_[0m [0;30;48;2;255;217;47mtoken[0m [0;30;48;2;102;194;165m##s[0m [0;30;48;2;252;141;98mfalse[0m [0;30;48;2;141;160;203mnone[0m [0;30;48;2;231;138;195meli[0m [0;30;48;2;166;216;84m##f[0m [0;30;48;2;255;217;47m=[0m [0;30;48;2;102;194;165m=[0m [0;30;48;2;252;141;98m>[0m [0;30;48;2;141;160;203m=[0m [0;30;48;2;231;138;195melse[0m [0;30;48;2;166;216;84m:[0m [0;30;48;2;255;217;47mtwo[0m [0;30;48;2;102;194;165mtab[0m [0;30;48;

We noticed that:
* The newline breaks are gone, which makes the model blind to information encoded in newlines (e.g., a chat log when each turn is in a new line).
* All the text is in lowercase.
* The word "capitalization" is encoded as two subtokens: capital ##ization.
* The ## characters are used to indicate this token is a partial token connected to the token that precedes it. This is also a method to indicate where the spaces are, as it is assumed tokens without ## in front have a space before them.
* The emoji and Chinese characters are gone and replaced with the [UNK] special token indicating an "unknown token."

#BERT cased

In [7]:
show_tokens(text, "bert-base-cased")

[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203mand[0m [0;30;48;2;231;138;195mCA[0m [0;30;48;2;166;216;84m##PI[0m [0;30;48;2;255;217;47m##TA[0m [0;30;48;2;102;194;165m##L[0m [0;30;48;2;252;141;98m##I[0m [0;30;48;2;141;160;203m##Z[0m [0;30;48;2;231;138;195m##AT[0m [0;30;48;2;166;216;84m##ION[0m [0;30;48;2;255;217;47m[UNK][0m [0;30;48;2;102;194;165m[UNK][0m [0;30;48;2;252;141;98mه[0m [0;30;48;2;141;160;203m##ا[0m [0;30;48;2;231;138;195m##ا[0m [0;30;48;2;166;216;84m##ا[0m [0;30;48;2;255;217;47m##ا[0m [0;30;48;2;102;194;165m##ا[0m [0;30;48;2;252;141;98m##ا[0m [0;30;48;2;141;160;203m##ی[0m [0;30;48;2;231;138;195mshow[0m [0;30;48;2;166;216;84m_[0m [0;30;48;2;255;217;47mtoken[0m [0;30;48;2;102;194;165m##s[0m [0;30;48;2;252;141;98mF[0m [0;30;48;2;141;160;203m##als[0m [0;30;48;2;231;138;195m##e[0m [0;30;48;2;166;216;84mNone[0m [0;30;48;2;255;217;47mel[0m [0;30;48;2;102;194;165m##if[0m [0;30;48

Notice how "CAPITALIZATION" is now represented as eight tokens: CA ##PI ##TA ##L ##I ##Z ##AT ##ION.

Both BERT tokenizers wrap the input within a starting [CLS] token and a closing [SEP] token. [CLS] and [SEP] are utility tokens used to wrap the input text and they serve their own purposes. [CLS] stands for classification as it's a token used at times for sentence classification. [SEP] stands for separator, as it's used to separate sentences in some applications that require passing two sentences to a model.

#GPT-2

In [9]:
show_tokens(text, "gpt2")

[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAP[0m [0;30;48;2;166;216;84mITAL[0m [0;30;48;2;255;217;47mIZ[0m [0;30;48;2;102;194;165mATION[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203m�[0m [0;30;48;2;231;138;195m�[0m [0;30;48;2;166;216;84m�[0m [0;30;48;2;255;217;47m �[0m [0;30;48;2;102;194;165m�[0m [0;30;48;2;252;141;98m�[0m [0;30;48;2;141;160;203m �[0m [0;30;48;2;231;138;195m�[0m [0;30;48;2;166;216;84mا[0m [0;30;48;2;255;217;47mا[0m [0;30;48;2;102;194;165mا[0m [0;30;48;2;252;141;98mا[0m [0;30;48;2;141;160;203mا[0m [0;30;48;2;231;138;195mا[0m [0;30;48;2;166;216;84m�[0m [0;30;48;2;255;217;47m�[0m [0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_[0m [0;30;48;2;231;138;195mt[0m [0;30;48;2;166;216;84mok[0m [0;30;48;2;255;217;47mens[0m [0;30;48;2;102;194;165m False[0m [0;30;48;2;252;141;98m None[0m [0;30;48;2;141;160

* The newline breaks are represented in the tokenizer.
* Capitalization is preserved, and the word "CAPITALIZATION" is represented in four tokens.
* The鸟 characters are now represented by multiple tokens each. While we see these tokens printed as the character, they actually stand for different tokens. For example, the emoji is broken down into the tokens with token IDs 8582, 236, and 113. The tokenizer is successful in reconstructing the original character from these tokens. We can see that by printing tokenizer.decode([8582, 236, 113]), which prints out.
* The two tabs are represented as two tokens (token number 197 in that vocabu-lary) and the four spaces are represented as three tokens (number 220) with the final space being a part of the token for the closing quote character.

In [27]:
tokenizer = AutoTokenizer.from_pretrained('gpt2')
token_ids = tokenizer("🎵").input_ids
print('🎵')
print(token_ids)
show_tokens("🎵", "gpt2")
print('\n')
print('鸟')
token_ids = tokenizer("鸟").input_ids
print(token_ids)
show_tokens("鸟", "gpt2")
print('\n')
print('Printing two tabs')
token_ids = tokenizer("   ").input_ids
print(token_ids)
show_tokens("   ", "gpt2")
print('\n')
print('Printing four spaces')
token_ids = tokenizer("    ").input_ids
print(token_ids)
show_tokens("    ", "gpt2")

🎵
[8582, 236, 113]
[0;30;48;2;102;194;165m�[0m [0;30;48;2;252;141;98m�[0m [0;30;48;2;141;160;203m�[0m 

鸟
[165, 116, 253]
[0;30;48;2;102;194;165m�[0m [0;30;48;2;252;141;98m�[0m [0;30;48;2;141;160;203m�[0m 

Printing two tabs
[220, 220, 220]
[0;30;48;2;102;194;165m [0m [0;30;48;2;252;141;98m [0m [0;30;48;2;141;160;203m [0m 

Printing four spaces
[220, 220, 220, 220]
[0;30;48;2;102;194;165m [0m [0;30;48;2;252;141;98m [0m [0;30;48;2;141;160;203m [0m [0;30;48;2;231;138;195m [0m 

#Flan-T5

In [29]:
show_tokens(text, "google/flan-t5-small")

[0;30;48;2;102;194;165mEnglish[0m [0;30;48;2;252;141;98mand[0m [0;30;48;2;141;160;203mCA[0m [0;30;48;2;231;138;195mPI[0m [0;30;48;2;166;216;84mTAL[0m [0;30;48;2;255;217;47mIZ[0m [0;30;48;2;102;194;165mATION[0m [0;30;48;2;252;141;98m[0m [0;30;48;2;141;160;203m<unk>[0m [0;30;48;2;231;138;195m[0m [0;30;48;2;166;216;84m<unk>[0m [0;30;48;2;255;217;47m[0m [0;30;48;2;102;194;165m<unk>[0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_[0m [0;30;48;2;231;138;195mto[0m [0;30;48;2;166;216;84mken[0m [0;30;48;2;255;217;47ms[0m [0;30;48;2;102;194;165mFal[0m [0;30;48;2;252;141;98ms[0m [0;30;48;2;141;160;203me[0m [0;30;48;2;231;138;195mNone[0m [0;30;48;2;166;216;84m[0m [0;30;48;2;255;217;47me[0m [0;30;48;2;102;194;165ml[0m [0;30;48;2;252;141;98mif[0m [0;30;48;2;141;160;203m=[0m [0;30;48;2;231;138;195m=[0m [0;30;48;2;166;216;84m>[0m [0;30;48;2;255;217;47m=[0m [0;30;48;2;102;194;165melse[0m [0;30;48;2;252;141;98m:[0m [0;30;48;2;141;

The Flan-T5 family of models use the SentencePiece method. We notice the following:
* No newline or whitespace tokens; this would make it challenging for the model to work with code.
* The emoji and Chinese characters are both replaced by the <unk> token, making the model completely blind to them

#GPT4

In [32]:
# The official is `tiktoken` but this the same tokenizer on the HF platform
show_tokens(text, "Xenova/gpt-4")

[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAPITAL[0m [0;30;48;2;166;216;84mIZATION[0m [0;30;48;2;255;217;47m
[0m [0;30;48;2;102;194;165m�[0m [0;30;48;2;252;141;98m�[0m [0;30;48;2;141;160;203m�[0m [0;30;48;2;231;138;195m �[0m [0;30;48;2;166;216;84m�[0m [0;30;48;2;255;217;47m�[0m [0;30;48;2;102;194;165m ه[0m [0;30;48;2;252;141;98mا[0m [0;30;48;2;141;160;203mا[0m [0;30;48;2;231;138;195mا[0m [0;30;48;2;166;216;84mا[0m [0;30;48;2;255;217;47mا[0m [0;30;48;2;102;194;165mای[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mshow[0m [0;30;48;2;231;138;195m_tokens[0m [0;30;48;2;166;216;84m False[0m [0;30;48;2;255;217;47m None[0m [0;30;48;2;102;194;165m elif[0m [0;30;48;2;252;141;98m ==[0m [0;30;48;2;141;160;203m >=[0m [0;30;48;2;231;138;195m else[0m [0;30;48;2;166;216;84m:[0m [0;30;48;2;255;217;47m two[0m [0;30;48;2;102;194;165m tabs[0m [0;30;48;2;252;141;98m

* Fill in the middle tokens. These three tokens enable the LLM to generate a completion given not only the text before it but also considering the text after it.
* The GPT-4 tokenizer behaves similarly to its ancestor, the GPT-2 tokenizer. Some differences are:
* It tokenizer represents the four spaces as a single token. In fact, it has a specific token for every sequence of whitespaces up to a list of 83 whitespaces.
* The Python keyword elif has its own token in GPT-4. Both this and the previ-ous point stem from the model's focus on code in addition to natural language.
* The GPT-4 tokenizer uses fewer tokens to represent most words. Examples here include "CAPITALIZATION" (two tokens versus four) and "tokens" (one token versus three).

#StarCode
Focouses on generating code

In [34]:
# You need to request access before being able to use this tokenizer
show_tokens(text, "bigcode/starcoder2-15b")

[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAPITAL[0m [0;30;48;2;166;216;84mIZATION[0m [0;30;48;2;255;217;47m
[0m [0;30;48;2;102;194;165m�[0m [0;30;48;2;252;141;98m�[0m [0;30;48;2;141;160;203m�[0m [0;30;48;2;231;138;195m [0m [0;30;48;2;166;216;84m�[0m [0;30;48;2;255;217;47m�[0m [0;30;48;2;102;194;165m ه[0m [0;30;48;2;252;141;98mا[0m [0;30;48;2;141;160;203mا[0m [0;30;48;2;231;138;195mا[0m [0;30;48;2;166;216;84mا[0m [0;30;48;2;255;217;47mا[0m [0;30;48;2;102;194;165mای[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mshow[0m [0;30;48;2;231;138;195m_[0m [0;30;48;2;166;216;84mtokens[0m [0;30;48;2;255;217;47m False[0m [0;30;48;2;102;194;165m None[0m [0;30;48;2;252;141;98m elif[0m [0;30;48;2;141;160;203m ==[0m [0;30;48;2;231;138;195m >=[0m [0;30;48;2;166;216;84m else[0m [0;30;48;2;255;217;47m:[0m [0;30;48;2;102;194;165m two[0m [0;30;48;2;252;141;98m tabs

* A major difference here to everything we've seen so far is that each digit is assigned its own token (so 600 becomes 600). The hypothesis here is that this would lead to better representation of numbers and mathematics. In GPT-2, for example, the number 870 is represented as a single token. But 871 is represented as two tokens (8 and 71). You can intuitively see how that might be confusing to the model and how it represents numbers



* When representing code, managing the context is important. One file might make a function call to a function that is defined in a different file. So the model needs some way of being able to identify code that is in different files in the same code repository, while making a distinction between code in different repos.

#Galactica
An LLM for science

In [7]:
show_tokens(text, "facebook/galactica-1.3b")

[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAP[0m [0;30;48;2;166;216;84mITAL[0m [0;30;48;2;255;217;47mIZATION[0m [0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98m�[0m [0;30;48;2;141;160;203m�[0m [0;30;48;2;231;138;195m�[0m [0;30;48;2;166;216;84m�[0m [0;30;48;2;255;217;47m �[0m [0;30;48;2;102;194;165m�[0m [0;30;48;2;252;141;98m�[0m [0;30;48;2;141;160;203m [0m [0;30;48;2;231;138;195mه[0m [0;30;48;2;166;216;84mا[0m [0;30;48;2;255;217;47mا[0m [0;30;48;2;102;194;165mا[0m [0;30;48;2;252;141;98mا[0m [0;30;48;2;141;160;203mا[0m [0;30;48;2;231;138;195mا[0m [0;30;48;2;166;216;84mی[0m [0;30;48;2;255;217;47m
[0m [0;30;48;2;102;194;165mshow[0m [0;30;48;2;252;141;98m_[0m [0;30;48;2;141;160;203mtokens[0m [0;30;48;2;231;138;195m False[0m [0;30;48;2;166;216;84m None[0m [0;30;48;2;255;217;47m elif[0m [0;30;48;2;102;194;165m [0m [0;30;48;2;252;141;98m==[0m [0;30;48;2;

The Galactica tokenizer behaves similar to StarCoder2 in that it has code in mind. It also encodes whitespaces in the same way: assigning a single token to sequences of whitespace of different lengths. It differs in that it also does that for tabs, though. So from all the tokenizers we've seen so far, it's the only one that assigns a single token to the string made up of two tabs ('\t\t').

In [9]:
show_tokens(text, "microsoft/Phi-3-mini-4k-instruct")

[0;30;48;2;102;194;165m[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mEnglish[0m [0;30;48;2;231;138;195mand[0m [0;30;48;2;166;216;84mC[0m [0;30;48;2;255;217;47mAP[0m [0;30;48;2;102;194;165mIT[0m [0;30;48;2;252;141;98mAL[0m [0;30;48;2;141;160;203mIZ[0m [0;30;48;2;231;138;195mATION[0m [0;30;48;2;166;216;84m
[0m [0;30;48;2;255;217;47m�[0m [0;30;48;2;102;194;165m�[0m [0;30;48;2;252;141;98m�[0m [0;30;48;2;141;160;203m�[0m [0;30;48;2;231;138;195m[0m [0;30;48;2;166;216;84m�[0m [0;30;48;2;255;217;47m�[0m [0;30;48;2;102;194;165m�[0m [0;30;48;2;252;141;98m[0m [0;30;48;2;141;160;203mه[0m [0;30;48;2;231;138;195mا[0m [0;30;48;2;166;216;84mا[0m [0;30;48;2;255;217;47mا[0m [0;30;48;2;102;194;165mا[0m [0;30;48;2;252;141;98mا[0m [0;30;48;2;141;160;203mا[0m [0;30;48;2;231;138;195mی[0m [0;30;48;2;166;216;84m
[0m [0;30;48;2;255;217;47mshow[0m [0;30;48;2;102;194;165m_[0m [0;30;48;2;252;141;98mto[0m [0;30;48;2;141;160;203mkens[0m [0;30