# **Tokenizer**s

In [1]:
from transformers import AutoModelForCausalLM, AutoTokenizer

colors_list = [
'102;194;165', '252;141;98', '141;160;203',
'231;138;195', '166;216;84', '255;217;47'
]

def show_tokens(sentence, tokenizer_name):
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
    token_ids = tokenizer(sentence).input_ids
    for idx, t in enumerate(token_ids):
        print(
            f'\x1b[0;30;48;2;{colors_list[idx % len(colors_list)]}m' +
            tokenizer.decode(t) +
            '\x1b[0m',
            end=' '
        )

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
text = """
English and CAPITALIZATION
üéµ È∏ü
show_tokens False None elif == >= else: two tabs:"    " Three tabs: "       "
12.0*50=600
"""

## **BERT base model (cased) (2018)**
> * Tokenization method: WordPiece
> * Vocabulary size: 28,996
> * Special tokens: Same as the uncased version

In [3]:
show_tokens(text, "bert-base-uncased")

[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98menglish[0m [0;30;48;2;141;160;203mand[0m [0;30;48;2;231;138;195mcapital[0m [0;30;48;2;166;216;84m##ization[0m [0;30;48;2;255;217;47m[UNK][0m [0;30;48;2;102;194;165m[UNK][0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_[0m [0;30;48;2;231;138;195mtoken[0m [0;30;48;2;166;216;84m##s[0m [0;30;48;2;255;217;47mfalse[0m [0;30;48;2;102;194;165mnone[0m [0;30;48;2;252;141;98meli[0m [0;30;48;2;141;160;203m##f[0m [0;30;48;2;231;138;195m=[0m [0;30;48;2;166;216;84m=[0m [0;30;48;2;255;217;47m>[0m [0;30;48;2;102;194;165m=[0m [0;30;48;2;252;141;98melse[0m [0;30;48;2;141;160;203m:[0m [0;30;48;2;231;138;195mtwo[0m [0;30;48;2;166;216;84mtab[0m [0;30;48;2;255;217;47m##s[0m [0;30;48;2;102;194;165m:[0m [0;30;48;2;252;141;98m"[0m [0;30;48;2;141;160;203m"[0m [0;30;48;2;231;138;195mthree[0m [0;30;48;2;166;216;84mtab[0m [0;30;48;2;255;217;47m##s[0m [0;30;48;2;102;194;165m:[0m [0;30;48;2;25

## **GPT-2 (2019)**
> * Tokenization method: Byte pair encoding (BPE), introduced in ‚ÄúNeural machine translation of rare words with subword units‚Äù.
> * Vocabulary size: 50,257

In [5]:
show_tokens(text, "gpt2")

[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAP[0m [0;30;48;2;166;216;84mITAL[0m [0;30;48;2;255;217;47mIZ[0m [0;30;48;2;102;194;165mATION[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mÔøΩ[0m [0;30;48;2;231;138;195mÔøΩ[0m [0;30;48;2;166;216;84mÔøΩ[0m [0;30;48;2;255;217;47m ÔøΩ[0m [0;30;48;2;102;194;165mÔøΩ[0m [0;30;48;2;252;141;98mÔøΩ[0m [0;30;48;2;141;160;203m
[0m [0;30;48;2;231;138;195mshow[0m [0;30;48;2;166;216;84m_[0m [0;30;48;2;255;217;47mt[0m [0;30;48;2;102;194;165mok[0m [0;30;48;2;252;141;98mens[0m [0;30;48;2;141;160;203m False[0m [0;30;48;2;231;138;195m None[0m [0;30;48;2;166;216;84m el[0m [0;30;48;2;255;217;47mif[0m [0;30;48;2;102;194;165m ==[0m [0;30;48;2;252;141;98m >=[0m [0;30;48;2;141;160;203m else[0m [0;30;48;2;231;138;195m:[0m [0;30;48;2;166;216;84m two[0m [0;30;48;2;255;217;47m tabs[0m [0;30;48;2;102;194;165m:"[0m [0;30;48;2;252;14

## **Flan-T5 (2022)**
Tokenization method: Flan-T5 uses a tokenizer implementation called SentencePiece, introduced in ‚ÄúSentencePiece: A simple and language independent subword tokenizer and detokenizer for neural text processing‚Äù, which supports BPE and the unigram language model (described in ‚ÄúSubword regularization:
* Improving neural network translation models with multiple subword candidates‚Äù).
* Vocabulary size: 32,100
* Special tokens:
    - unk_token <unk>
    - pad_token <pad>

In [6]:
show_tokens(text, "google/flan-t5-small")

[0;30;48;2;102;194;165mEnglish[0m [0;30;48;2;252;141;98mand[0m [0;30;48;2;141;160;203mCA[0m [0;30;48;2;231;138;195mPI[0m [0;30;48;2;166;216;84mTAL[0m [0;30;48;2;255;217;47mIZ[0m [0;30;48;2;102;194;165mATION[0m [0;30;48;2;252;141;98m[0m [0;30;48;2;141;160;203m<unk>[0m [0;30;48;2;231;138;195m[0m [0;30;48;2;166;216;84m<unk>[0m [0;30;48;2;255;217;47mshow[0m [0;30;48;2;102;194;165m_[0m [0;30;48;2;252;141;98mto[0m [0;30;48;2;141;160;203mken[0m [0;30;48;2;231;138;195ms[0m [0;30;48;2;166;216;84mFal[0m [0;30;48;2;255;217;47ms[0m [0;30;48;2;102;194;165me[0m [0;30;48;2;252;141;98mNone[0m [0;30;48;2;141;160;203m[0m [0;30;48;2;231;138;195me[0m [0;30;48;2;166;216;84ml[0m [0;30;48;2;255;217;47mif[0m [0;30;48;2;102;194;165m=[0m [0;30;48;2;252;141;98m=[0m [0;30;48;2;141;160;203m>[0m [0;30;48;2;231;138;195m=[0m [0;30;48;2;166;216;84melse[0m [0;30;48;2;255;217;47m:[0m [0;30;48;2;102;194;165mtwo[0m [0;30;48;2;252;141;98mtab[0m [0;30;48;2;141

## **GPT-4 (2023)**
* Tokenization method: BPE
* Vocabulary size: A little over 100,000
* Special tokens:
    - <|endoftext|>

In [7]:
# The official is `tiktoken` but this the same tokenizer on the HF platform
show_tokens(text, "Xenova/gpt-4")

[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAPITAL[0m [0;30;48;2;166;216;84mIZATION[0m [0;30;48;2;255;217;47m
[0m [0;30;48;2;102;194;165mÔøΩ[0m [0;30;48;2;252;141;98mÔøΩ[0m [0;30;48;2;141;160;203mÔøΩ[0m [0;30;48;2;231;138;195m ÔøΩ[0m [0;30;48;2;166;216;84mÔøΩ[0m [0;30;48;2;255;217;47mÔøΩ[0m [0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_tokens[0m [0;30;48;2;231;138;195m False[0m [0;30;48;2;166;216;84m None[0m [0;30;48;2;255;217;47m elif[0m [0;30;48;2;102;194;165m ==[0m [0;30;48;2;252;141;98m >=[0m [0;30;48;2;141;160;203m else[0m [0;30;48;2;231;138;195m:[0m [0;30;48;2;166;216;84m two[0m [0;30;48;2;255;217;47m tabs[0m [0;30;48;2;102;194;165m:"[0m [0;30;48;2;252;141;98m   [0m [0;30;48;2;141;160;203m "[0m [0;30;48;2;231;138;195m Three[0m [0;30;48;2;166;216;84m tabs[0m [0;30;48;2;255;217;47m:[0m [0;30;48;2;102;194;165m "[0m

## **StarCoder2 (2024)**
StarCoder2 is a 15-billion parameter model focused on generating code described in the paper ‚ÄúStarCoder 2 and the stack v2: The next generation‚Äù, which continues the work from the original StarCoder described in ‚ÄúStarCoder:
May the source be with you!‚Äù.
* Tokenization method: Byte pair encoding (BPE)
* Vocabulary size: 49,152
* Example special tokens:
    - <|endoftext|>
* Fill in the middle tokens:
    - <fim_prefix>
    - <fim_middle>
    - <fim_suffix>
    - <fim_pad>

In [8]:
# You need to request access before being able to use this tokenizer
show_tokens(text, "bigcode/starcoder2-15b")

[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAPITAL[0m [0;30;48;2;166;216;84mIZATION[0m [0;30;48;2;255;217;47m
[0m [0;30;48;2;102;194;165mÔøΩ[0m [0;30;48;2;252;141;98mÔøΩ[0m [0;30;48;2;141;160;203mÔøΩ[0m [0;30;48;2;231;138;195m [0m [0;30;48;2;166;216;84mÔøΩ[0m [0;30;48;2;255;217;47mÔøΩ[0m [0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_[0m [0;30;48;2;231;138;195mtokens[0m [0;30;48;2;166;216;84m False[0m [0;30;48;2;255;217;47m None[0m [0;30;48;2;102;194;165m elif[0m [0;30;48;2;252;141;98m ==[0m [0;30;48;2;141;160;203m >=[0m [0;30;48;2;231;138;195m else[0m [0;30;48;2;166;216;84m:[0m [0;30;48;2;255;217;47m two[0m [0;30;48;2;102;194;165m tabs[0m [0;30;48;2;252;141;98m:"[0m [0;30;48;2;141;160;203m   [0m [0;30;48;2;231;138;195m "[0m [0;30;48;2;166;216;84m Three[0m [0;30;48;2;255;217;47m tabs[0m [0;30;48;2;102;194;165m:[0m [0;

## **Galactica**
The Galactica model described in ‚ÄúGalactica: A large language model for science‚Äù is focused on scientific knowledge and is trained on many scientific papers, reference materials, and knowledge bases. It pays extra attention to tokenization that makes it more sensitive to the nuances of the dataset it‚Äôs representing. For example, it includes special tokens for citations, reasoning, mathematics, amino acid sequences, and DNA sequences.
* Tokenization method: Byte pair encoding (BPE)
* Vocabulary size: 50,000
* Special tokens:
    - Inicio: `<s>`
    - Padding: `<pad>`
    - Fin: `</s>`
    - Desconocido: `<unk>`
* References: Citations are wrapped within the two
* special tokens:
    - [START_REF]
    - [END_REF]
    - One example of usage from the paper is:Recurrent neural networks, long short-term memory [START_REF]Long Short-Term Memory, Hochreiter[END_REF]
* Step-by-step reasoning:
    - <work> is an interesting token that the model uses for chain-of-thought reasoning.

In [9]:
show_tokens(text, "facebook/galactica-1.3b")

[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAP[0m [0;30;48;2;166;216;84mITAL[0m [0;30;48;2;255;217;47mIZATION[0m [0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mÔøΩ[0m [0;30;48;2;141;160;203mÔøΩ[0m [0;30;48;2;231;138;195mÔøΩ[0m [0;30;48;2;166;216;84mÔøΩ[0m [0;30;48;2;255;217;47m ÔøΩ[0m [0;30;48;2;102;194;165mÔøΩ[0m [0;30;48;2;252;141;98mÔøΩ[0m [0;30;48;2;141;160;203m
[0m [0;30;48;2;231;138;195mshow[0m [0;30;48;2;166;216;84m_[0m [0;30;48;2;255;217;47mtokens[0m [0;30;48;2;102;194;165m False[0m [0;30;48;2;252;141;98m None[0m [0;30;48;2;141;160;203m elif[0m [0;30;48;2;231;138;195m [0m [0;30;48;2;166;216;84m==[0m [0;30;48;2;255;217;47m [0m [0;30;48;2;102;194;165m>[0m [0;30;48;2;252;141;98m=[0m [0;30;48;2;141;160;203m else[0m [0;30;48;2;231;138;195m:[0m [0;30;48;2;166;216;84m two[0m [0;30;48;2;255;217;47m t[0m [0;30;48;2;102;194;165mabs[0m [0;30;48;2;252;1

## **Phi-3 (and Llama 2)**
The Phi-3 model reuses the tokenizer of Llama 2 yet adds a number of special tokens.
* Tokenization method: Byte pair encoding (BPE)
* Vocabulary size: 32,000
* Special tokens:
    - `<|endoftext|>`
* Chat tokens: As chat LLMs rose to popularity in 2023, the conversational nature of LLMs started to be a leading use case. Tokenizers have been adapted to this direction by the addition of tokens that
indicate the turns in a conversation and the roles of each speaker. These special tokens include:
    - `<|user|>`
    - `<|assistant|>`
    - `<|system|>`

In [10]:
show_tokens(text, "microsoft/Phi-3-mini-4k-instruct")

[0;30;48;2;102;194;165m[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mEnglish[0m [0;30;48;2;231;138;195mand[0m [0;30;48;2;166;216;84mC[0m [0;30;48;2;255;217;47mAP[0m [0;30;48;2;102;194;165mIT[0m [0;30;48;2;252;141;98mAL[0m [0;30;48;2;141;160;203mIZ[0m [0;30;48;2;231;138;195mATION[0m [0;30;48;2;166;216;84m
[0m [0;30;48;2;255;217;47mÔøΩ[0m [0;30;48;2;102;194;165mÔøΩ[0m [0;30;48;2;252;141;98mÔøΩ[0m [0;30;48;2;141;160;203mÔøΩ[0m [0;30;48;2;231;138;195m[0m [0;30;48;2;166;216;84mÔøΩ[0m [0;30;48;2;255;217;47mÔøΩ[0m [0;30;48;2;102;194;165mÔøΩ[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mshow[0m [0;30;48;2;231;138;195m_[0m [0;30;48;2;166;216;84mto[0m [0;30;48;2;255;217;47mkens[0m [0;30;48;2;102;194;165mFalse[0m [0;30;48;2;252;141;98mNone[0m [0;30;48;2;141;160;203melif[0m [0;30;48;2;231;138;195m==[0m [0;30;48;2;166;216;84m>=[0m [0;30;48;2;255;217;47melse[0m [0;30;48;2;102;194;165m:[0m [0;30;48;2;252;141;98mtwo[0m [0;

Summary Tokenizer [HuggingFace](!https://huggingface.co/docs/transformers/tokenizer_summary)

# **Embeddings**

In [31]:
from transformers import AutoModel, AutoTokenizer

# Load a tokenizer
tokenizer = AutoTokenizer.from_pretrained("microsoft/deberta-base")

# Load a language model
model = AutoModel.from_pretrained("microsoft/deberta-v3-xsmall")

# Tokenize the sentence
tokens = tokenizer('Hello world', return_tensors='pt')

# Process the tokens
output = model(**tokens)[0]

In [12]:
output.shape

torch.Size([1, 4, 384])

In [13]:
for token in tokens['input_ids'][0]:
    print(tokenizer.decode(token))

[CLS]
Hello
 world
[SEP]


In [16]:
output

tensor([[[-3.4816,  0.0861, -0.1819,  ..., -0.0612, -0.3911,  0.3017],
         [ 0.1898,  0.3208, -0.2315,  ...,  0.3714,  0.2478,  0.8048],
         [ 0.2071,  0.5036, -0.0485,  ...,  1.2175, -0.2292,  0.8582],
         [-3.4278,  0.0645, -0.1427,  ...,  0.0658, -0.4367,  0.3834]]],
       grad_fn=<NativeLayerNormBackward0>)

In [22]:
len(output[0][0])

384

In [35]:
from sentence_transformers import SentenceTransformer

# Load model
model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

# Convert text to text embeddings
vector = model.encode("Best movie ever!")

In [37]:
vector.shape

(768,)

In [38]:
import gensim.downloader as api

# Download embeddings (66MB, glove, trained on wikipedia, vector size: 50)
# Other options include "word2vec-google-news-300"
# More options at https://github.com/RaRe-Technologies/gensim-data
model = api.load("glove-wiki-gigaword-50")



In [40]:
model.most_similar([model['king']], topn=11)

[('king', 1.0000001192092896),
 ('prince', 0.8236179351806641),
 ('queen', 0.7839043140411377),
 ('ii', 0.7746229767799377),
 ('emperor', 0.7736247777938843),
 ('son', 0.7667193412780762),
 ('uncle', 0.7627150416374207),
 ('kingdom', 0.754216194152832),
 ('throne', 0.7539914846420288),
 ('brother', 0.7492412328720093),
 ('ruler', 0.7434253692626953)]