In [1]:
print("Hello tokens")

Hello tokens


In [2]:
# Tokenization is a task of breaking down the text into smaller pieces
# Embeddings. Turn tokens into numeric representations
# Contextualized Embeddings. Where each token considers other tokens in text

# Subword tokens are used for represiinting words in LLM
# Example: doing => do, ###ing

In [4]:
!pip install transformers



In [33]:
# Tokenizing Text
from transformers import AutoTokenizer

sentence = "what does capital means?"

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")



In [34]:
token_ids = tokenizer(sentence).input_ids

In [35]:
token_ids

[101, 1184, 1674, 2364, 2086, 136, 102]

In [36]:
for token_id in token_ids:
    print(token_id,tokenizer.decode(token_id))

101 [CLS]
1184 what
1674 does
2364 capital
2086 means
136 ?
102 [SEP]


In [37]:
sentence2 = "what does CaPiTal MeaN$?"
for token_id in tokenizer(sentence2)["input_ids"]:
    print(token_id,tokenizer.decode(token_id))

101 [CLS]
1184 what
1674 does
140 C
1161 ##a
2101 ##P
1182 ##i
1942 ##T
1348 ##al
2508 Me
1161 ##a
2249 ##N
109 $
136 ?
102 [SEP]


In [38]:
# A list of colors in RGB for representing the tokens
colors = [
    '102;194;165', '252;141;98', '141;160;203',
    '231;138;195', '166;216;84', '255;217;47'
]

In [39]:
def show_tokens(sentence: str, tokenizer_name: str):
    """ Show the tokens each separated by a different color """

    # Load the tokenizer and tokenize the input
    tokenizer = AutoTokenizer.from_pretrained(tokenizer_name)
    token_ids = tokenizer(sentence).input_ids

    # Extract vocabulary length
    print(f"Vocab length: {len(tokenizer)}")

    # Print a colored list of tokens
    for idx, token in enumerate(token_ids):
        print(
            f'\x1b[0;30;48;2;{colors[idx % len(colors)]}m' +
            tokenizer.decode(token) +
            '\x1b[0m',
            end=' '
        )


In [40]:
show_tokens(sentence, "bert-base-cased")

Vocab length: 28996
[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98mwhat[0m [0;30;48;2;141;160;203mdoes[0m [0;30;48;2;231;138;195mcapital[0m [0;30;48;2;166;216;84mmeans[0m [0;30;48;2;255;217;47m?[0m [0;30;48;2;102;194;165m[SEP][0m 

In [41]:
show_tokens(sentence2, "bert-base-cased")

Vocab length: 28996
[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98mwhat[0m [0;30;48;2;141;160;203mdoes[0m [0;30;48;2;231;138;195mC[0m [0;30;48;2;166;216;84m##a[0m [0;30;48;2;255;217;47m##P[0m [0;30;48;2;102;194;165m##i[0m [0;30;48;2;252;141;98m##T[0m [0;30;48;2;141;160;203m##al[0m [0;30;48;2;231;138;195mMe[0m [0;30;48;2;166;216;84m##a[0m [0;30;48;2;255;217;47m##N[0m [0;30;48;2;102;194;165m$[0m [0;30;48;2;252;141;98m?[0m [0;30;48;2;141;160;203m[SEP][0m 

In [42]:
show_tokens(sentence2, "bert-base-uncased")

Vocab length: 30522
[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98mwhat[0m [0;30;48;2;141;160;203mdoes[0m [0;30;48;2;231;138;195mcapital[0m [0;30;48;2;166;216;84mmean[0m [0;30;48;2;255;217;47m$[0m [0;30;48;2;102;194;165m?[0m [0;30;48;2;252;141;98m[SEP][0m 

In [43]:
show_tokens(sentence, "bert-base-uncased")

Vocab length: 30522
[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98mwhat[0m [0;30;48;2;141;160;203mdoes[0m [0;30;48;2;231;138;195mcapital[0m [0;30;48;2;166;216;84mmeans[0m [0;30;48;2;255;217;47m?[0m [0;30;48;2;102;194;165m[SEP][0m 

In [44]:
side_by_side = [sentence,sentence2]

for sentence in side_by_side:
    show_tokens(sentence, "deepseek-ai/DeepSeek-R1-Distill-Llama-70B")

Vocab length: 128256
[0;30;48;2;102;194;165m<｜begin▁of▁sentence｜>[0m [0;30;48;2;252;141;98mwhat[0m [0;30;48;2;141;160;203m does[0m [0;30;48;2;231;138;195m capital[0m [0;30;48;2;166;216;84m means[0m [0;30;48;2;255;217;47m?[0m Vocab length: 128256
[0;30;48;2;102;194;165m<｜begin▁of▁sentence｜>[0m [0;30;48;2;252;141;98mwhat[0m [0;30;48;2;141;160;203m does[0m [0;30;48;2;231;138;195m Ca[0m [0;30;48;2;166;216;84mPi[0m [0;30;48;2;255;217;47mT[0m [0;30;48;2;102;194;165mal[0m [0;30;48;2;252;141;98m Me[0m [0;30;48;2;141;160;203maN[0m [0;30;48;2;231;138;195m$[0m [0;30;48;2;166;216;84m?[0m 

In [45]:
for sentence in side_by_side:
    show_tokens(sentence, "Qwen/Qwen2-VL-7B-Instruct")

Vocab length: 151657
[0;30;48;2;102;194;165mwhat[0m [0;30;48;2;252;141;98m does[0m [0;30;48;2;141;160;203m capital[0m [0;30;48;2;231;138;195m means[0m [0;30;48;2;166;216;84m?[0m Vocab length: 151657
[0;30;48;2;102;194;165mwhat[0m [0;30;48;2;252;141;98m does[0m [0;30;48;2;141;160;203m Ca[0m [0;30;48;2;231;138;195mPi[0m [0;30;48;2;166;216;84mT[0m [0;30;48;2;255;217;47mal[0m [0;30;48;2;102;194;165m Me[0m [0;30;48;2;252;141;98maN[0m [0;30;48;2;141;160;203m$[0m [0;30;48;2;231;138;195m?[0m 