In [1]:
%pip install transformers

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting transformers
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/a9/b6/5257d04ae327b44db31f15cce39e6020cc986333c715660b1315a9724d82/transformers-4.51.3-py3-none-any.whl (10.4 MB)
     ---------------------------------------- 0.0/10.4 MB ? eta -:--:--
      --------------------------------------- 0.1/10.4 MB 4.3 MB/s eta 0:00:03
      --------------------------------------- 0.2/10.4 MB 3.1 MB/s eta 0:00:04
      --------------------------------------- 0.2/10.4 MB 2.0 MB/s eta 0:00:06
     - -------------------------------------- 0.4/10.4 MB 2.0 MB/s eta 0:00:05
     - -------------------------------------- 0.4/10.4 MB 1.8 MB/s eta 0:00:06
     -- ------------------------------------- 0.6/10.4 MB 2.2 MB/s eta 0:00:05
     --- ------------------------------------ 0.8/10.4 MB 2.5 MB/s eta 0:00:04
     --- ------------------------------------ 1.0/10.4 MB 2.5 MB/s eta 0:00:04
     ---- ------------------------------

In [1]:
from transformers import AutoTokenizer

None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.


In [2]:
sentence = "Hello World!"

In [3]:
# bert-based-cased is a pre-trained encoder model
# tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="google-bert/bert-base-cased")
tokenizer = AutoTokenizer.from_pretrained(pretrained_model_name_or_path="bert-base-cased", local_files_only=True)

In [4]:
# process input sentence and extract token ids
token_ids = tokenizer(sentence).input_ids

In [5]:
token_ids

[101, 8667, 1291, 106, 102]

In [6]:
# these token ids represents tokens
# to get these tokens we need to decode token ids
for ti in token_ids:
    print(tokenizer.decode(ti))

[CLS]
Hello
World
!
[SEP]


CLS -> classification token represents the entire input

SEP -> token signifies the end of a sentence

Visualize tokens

In [7]:
# Use colors to differentiate tokens
colors = ["102;194;165","252;141;98", "141;160;203", "231;138;195", "166;216;84", "255;217;47"]

def show_tokens(sentence: str, tokenizer_name: str):
    """ Show the tokens, each separated by a different color """

    # Load the tokenizer and tokenize the input
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
    token_ids = tokenizer(sentence).input_ids

    # Extract vocabulary length
    print(f"Vocab length: {len(tokenizer)}")

    # Print a colored list of tokens
    for idx, t in enumerate(token_ids):
        print(
            f'\x1b[0;30;48;2;{colors[idx % len(colors)]}m' +
            tokenizer.decode(t) +
            '\x1b[0m',
            end=' '
        )

In [8]:
text = """
English and CAPITALIZATION
🎵 鸟
show_tokens False None elif == >= else: two tabs:"    " Three tabs: "       "
12.0*50=600
"""

In [10]:
# https://huggingface.co/google-bert/bert-base-cased
show_tokens(text, "bert-base-cased")

Vocab length: 28996
[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203mand[0m [0;30;48;2;231;138;195mCA[0m [0;30;48;2;166;216;84m##PI[0m [0;30;48;2;255;217;47m##TA[0m [0;30;48;2;102;194;165m##L[0m [0;30;48;2;252;141;98m##I[0m [0;30;48;2;141;160;203m##Z[0m [0;30;48;2;231;138;195m##AT[0m [0;30;48;2;166;216;84m##ION[0m [0;30;48;2;255;217;47m[UNK][0m [0;30;48;2;102;194;165m[UNK][0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_[0m [0;30;48;2;231;138;195mtoken[0m [0;30;48;2;166;216;84m##s[0m [0;30;48;2;255;217;47mF[0m [0;30;48;2;102;194;165m##als[0m [0;30;48;2;252;141;98m##e[0m [0;30;48;2;141;160;203mNone[0m [0;30;48;2;231;138;195mel[0m [0;30;48;2;166;216;84m##if[0m [0;30;48;2;255;217;47m=[0m [0;30;48;2;102;194;165m=[0m [0;30;48;2;252;141;98m>[0m [0;30;48;2;141;160;203m=[0m [0;30;48;2;231;138;195melse[0m [0;30;48;2;166;216;84m:[0m [0;30;48;2;255;217;47mtwo[0m [0;30;48;2;102;194;165mta[

CAPITALIZATION is represented by many tokens. "##" in front of token characters represents that it is part of the previous token.
UNK token represents an unknown word

In [21]:
# https://huggingface.co/Xenova/gpt-4/
# gpt-4 tokenizer is called tiktoken, and we can't access its model because it is a proprietary model
show_tokens(text, "gpt-4")

Vocab length: 100263
[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAPITAL[0m [0;30;48;2;166;216;84mIZATION[0m [0;30;48;2;255;217;47m
[0m [0;30;48;2;102;194;165m�[0m [0;30;48;2;252;141;98m�[0m [0;30;48;2;141;160;203m�[0m [0;30;48;2;231;138;195m �[0m [0;30;48;2;166;216;84m�[0m [0;30;48;2;255;217;47m�[0m [0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mshow[0m [0;30;48;2;141;160;203m_tokens[0m [0;30;48;2;231;138;195m False[0m [0;30;48;2;166;216;84m None[0m [0;30;48;2;255;217;47m elif[0m [0;30;48;2;102;194;165m ==[0m [0;30;48;2;252;141;98m >=[0m [0;30;48;2;141;160;203m else[0m [0;30;48;2;231;138;195m:[0m [0;30;48;2;166;216;84m two[0m [0;30;48;2;255;217;47m tabs[0m [0;30;48;2;102;194;165m:"[0m [0;30;48;2;252;141;98m   [0m [0;30;48;2;141;160;203m "[0m [0;30;48;2;231;138;195m Three[0m [0;30;48;2;166;216;84m tabs[0m [0;30;48;2;255;217;47m:[0m [0;30;48;2;102;194;1

GPT-4 Tokenizer uses less tokens to represent input sentence. It doesn't include CLS token becuase this tokenizer is for generation purpose.

There is a trade-off in choosing tokenizer. A tokenizer like GPT-4 with more vocabulary will need less tokens to represent a sentence but it will also need to calculate more embeddings for each tokens.

More tokenizers can be found on Hugging face if want to taste other tokenizers.

In [22]:
# https://huggingface.co/Xenova/gpt-4o/
show_tokens(text, "gpt-4o")

Vocab length: 200000
[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mEnglish[0m [0;30;48;2;141;160;203m and[0m [0;30;48;2;231;138;195m CAPITAL[0m [0;30;48;2;166;216;84mIZATION[0m [0;30;48;2;255;217;47m
[0m [0;30;48;2;102;194;165m�[0m [0;30;48;2;252;141;98m�[0m [0;30;48;2;141;160;203m �[0m [0;30;48;2;231;138;195m�[0m [0;30;48;2;166;216;84m
[0m [0;30;48;2;255;217;47mshow[0m [0;30;48;2;102;194;165m_tokens[0m [0;30;48;2;252;141;98m False[0m [0;30;48;2;141;160;203m None[0m [0;30;48;2;231;138;195m elif[0m [0;30;48;2;166;216;84m ==[0m [0;30;48;2;255;217;47m >=[0m [0;30;48;2;102;194;165m else[0m [0;30;48;2;252;141;98m:[0m [0;30;48;2;141;160;203m two[0m [0;30;48;2;231;138;195m tabs[0m [0;30;48;2;166;216;84m:"[0m [0;30;48;2;255;217;47m   [0m [0;30;48;2;102;194;165m "[0m [0;30;48;2;252;141;98m Three[0m [0;30;48;2;141;160;203m tabs[0m [0;30;48;2;231;138;195m:[0m [0;30;48;2;166;216;84m "[0m [0;30;48;2;255;217;47m      [0m [0;30;48;2;102