# Tokenizers

Please can I bring you back to the wonderful Google Colab where we'll look at different Tokenizers:

https://colab.research.google.com/drive/1WD6Y2N7ctQi1X9wa6rpkg8UfyA4iSVuz?usp=sharing

In [1]:
from google.colab import userdata
from huggingface_hub import login
from transformers import AutoTokenizer

In [2]:
hf_token = userdata.get('HUGGINGFACE_API_KEY')
# Remove 'Bearer ' prefix if present, as login expects the raw token
if hf_token and hf_token.startswith('Bearer '):
    hf_token = hf_token.replace('Bearer ', '')
# Strip any leading/trailing whitespace that might have been accidentally included
if hf_token:
    hf_token = hf_token.strip()
#login(hf_token, add_to_git_credential_=True)

In [3]:
login(hf_token, add_to_git_credential=True)

In [63]:
tokenizer = AutoTokenizer.from_pretrained('meta-llama/Meta-Llama-3.1-8B', trust_remote_code=True)

In [65]:
text = "Estoy entusiasmado por mostrarles a mis ingenieros de LLM los tokenizadores en accion"
tokens = tokenizer.encode(text)

for token in tokens:
  print(f"{token} = {tokenizer.decode(token)}")

128000 = <|begin_of_text|>
14101 = Est
2303 = oy
1218 =  ent
355 = us
33990 = iasm
2172 = ado
4247 =  por
44108 =  mostrar
645 = les
264 =  a
5906 =  mis
46492 =  ingen
1291 = ier
437 = os
409 =  de
445 =  L
11237 = LM
2537 =  los
4037 =  token
450 = iz
18745 = adores
665 =  en
1046 =  acc
290 = ion


In [6]:
len(tokens)

25

In [7]:
tokenizer.decode(tokens)

'<|begin_of_text|>Estoy entusiasmado por mostrarles a mis ingenieros de LLM los tokenizadores en accion'

In [8]:
tokenizer.batch_decode(tokens)

['<|begin_of_text|>',
 'Est',
 'oy',
 ' ent',
 'us',
 'iasm',
 'ado',
 ' por',
 ' mostrar',
 'les',
 ' a',
 ' mis',
 ' ingen',
 'ier',
 'os',
 ' de',
 ' L',
 'LM',
 ' los',
 ' token',
 'iz',
 'adores',
 ' en',
 ' acc',
 'ion']

In [None]:
tokenizer.get_added_vocab()

**Instruir variantes de modelos.**

Muchos modelos tienen una variante que ha sido entrenada para su uso de chats. Normalmente, estas variantes estan etiquetadas con la palabra "Instruir" al final. Han sudo entrenadas para esperar indicaciones con un formato particular que incluye indicaciones del sistema, del usuario y del asistente.

Hay un método de utilidad **apply_chat_template** que convertira el formato de lista de mensajes con el que estamos familiarizados en la indicación de entrada correcta para este modelo.

In [66]:
tokenizer = AutoTokenizer.from_pretrained('meta-llama/Meta-Llama-3.1-8B-Instruct', trust_remote_code=True)

In [67]:
mensaje = [
    {"role": "system", "content": "Eres un útil asistente"},
    {"role": "user", "content": "Cuente un chiste divertido para una sale llena de cientificos de datos"}
]

mensaje_starcoder2 = [
    {"role": "user", "content": "Cuente un chiste divertido para una sala llena de científicos de datos"}
]

In [68]:
prompt = tokenizer.apply_chat_template(mensaje, tokenize=False, add_generation_prompt=True)
print(prompt)

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 26 Jul 2024

Eres un útil asistente<|eot_id|><|start_header_id|>user<|end_header_id|>

Cuente un chiste divertido para una sale llena de cientificos de datos<|eot_id|><|start_header_id|>assistant<|end_header_id|>




**Probando Nuevos modelos.**

Trabajando ahora con :

1. Phi3 de Microsoft
2. Qwen2 de Alibaba
3. Cloud Starcoder2 de BigCode (servicenow + Hugginface + NVidia)

In [69]:
PHI4_MODEL_NAME = "microsoft/Phi-4-mini-instruct"
QWEN2_MODEL_NAME = "Qwen/Qwen2.5-Coder-7B-Instruct"
STARCODER2_MODEL_NAME = "bigcode/starcoder2-15b-instruct-v0.1"

In [70]:

phi4_tokenizer = AutoTokenizer.from_pretrained(PHI4_MODEL_NAME)
qwen2_tokenizer = AutoTokenizer.from_pretrained(QWEN2_MODEL_NAME)
starcoder2_tokenizer = AutoTokenizer.from_pretrained(STARCODER2_MODEL_NAME, trust_remote_code=True)


In [21]:

text = "Estoy entusiasmado por mostrarles a mis ingenieros de LLM los tokenizadores en accion"

code = """
def hello_world(person):
  print("Hola", person)
  """


In [41]:

tokens_phi4 = phi4_tokenizer.encode(text)
tokens_qwen2 = qwen2_tokenizer.encode(text)
tokens_starcoder2 = starcoder2_tokenizer.encode(code)

In [72]:

print(tokens_phi4)
print(tokens_qwen2)
print(tokens_starcoder2)

[164749, 1121, 47308, 1064, 1382, 35989, 1032, 261, 4694, 30430, 196196, 334, 451, 19641, 1403, 6602, 170058, 469, 119285]
[13782, 2253, 1197, 355, 32890, 2123, 4154, 43008, 642, 264, 5786, 45392, 1268, 436, 409, 444, 10994, 2478, 3950, 449, 18244, 662, 1029, 290]
[222, 610, 17966, 100, 5879, 45, 6427, 731, 353, 1489, 459, 77, 14042, 411, 4944, 46, 682]


In [73]:
print('--------------------------------------')
print(phi4_tokenizer.apply_chat_template(mensaje, tokenize=False, add_generation_prompt=True))
print('--------------------------------------')
print(qwen2_tokenizer.apply_chat_template(mensaje, tokenize=False, add_generation_prompt=True))
print('--------------------------------------')
print(starcoder2_tokenizer.apply_chat_template(mensaje_starcoder2, tokenize=False, add_generation_prompt=True))
print('--------------------------------------')

--------------------------------------
<|system|>Eres un útil asistente<|end|><|user|>Cuente un chiste divertido para una sale llena de cientificos de datos<|end|><|assistant|>
--------------------------------------
<|im_start|>system
Eres un útil asistente<|im_end|>
<|im_start|>user
Cuente un chiste divertido para una sale llena de cientificos de datos<|im_end|>
<|im_start|>assistant

--------------------------------------
<|endoftext|>You are an exceptionally intelligent coding assistant that consistently delivers accurate and reliable responses to user instructions.

### Instruction
Cuente un chiste divertido para una sala llena de científicos de datos

### Response

--------------------------------------


In [74]:
for token in tokens_phi4:
  print(f"{token} = {phi4_tokenizer.decode(token)}")

164749 = Estoy
1121 =  ent
47308 = usiasm
1064 = ado
1382 =  por
35989 =  mostrar
1032 = les
261 =  a
4694 =  mis
30430 =  ingen
196196 = ieros
334 =  de
451 =  L
19641 = LM
1403 =  los
6602 =  token
170058 = izadores
469 =  en
119285 =  accion


In [75]:
for token in tokens_qwen2:
  print(f"{token} = {qwen2_tokenizer.decode(token)}")

13782 = Est
2253 = oy
1197 =  ent
355 = us
32890 = iasm
2123 = ado
4154 =  por
43008 =  mostrar
642 = les
264 =  a
5786 =  mis
45392 =  ingen
1268 = ier
436 = os
409 =  de
444 =  L
10994 = LM
2478 =  los
3950 =  token
449 = iz
18244 = adores
662 =  en
1029 =  acc
290 = ion


In [62]:
for token in tokens_starcoder2:
  print(f"{token} = {starcoder2_tokenizer.decode(token)}")

222 = 

610 = def
17966 =  hello
100 = _
5879 = world
45 = (
6427 = person
731 = ):
353 = 
 
1489 =  print
459 = ("
77 = H
14042 = ola
411 = ",
4944 =  person
46 = )
682 = 
  
