# Tokenizadores

En esta sesión de Colab, exploraremos el mundo de los tokenizadores.

Puedes ejecutar este cuaderno en una CPU libre o de forma local en tu equipo si lo prefieres.

In [1]:
from google.colab import userdata
from huggingface_hub import login
from transformers import AutoTokenizer

# Inicia sesión en Hugging Face

1. Si aún no lo has hecho, crea una cuenta gratuita de HuggingFace en https://huggingface.co y ve a Configuración, luego Crea un nuevo token de API, otorgándote permisos de escritura

2. Presiona el ícono de la "llave" en el panel lateral de la izquierda y agrega un nuevo secreto:
`HF_TOKEN = tu_token`

3. Ejecuta la celda a continuación para iniciar sesión.

In [2]:
hf_token = userdata.get('HF_TOKEN')
login(hf_token, add_to_git_credential=True)

# Acceder a Llama 3.1 desde Meta

Para poder usar la fantástica Llama 3.1, Meta requiere que firmes sus términos de servicio.

Visita la página de instrucciones del modelo en Hugging Face:
https://huggingface.co/meta-llama/Meta-Llama-3.1-8B

En la parte superior de la página hay instrucciones sobre cómo aceptar sus términos. Si es posible, debes usar el mismo correo electrónico que tu cuenta de huggingface.

En mi experiencia, la aprobación llega en un par de minutos. Una vez que hayas sido aprobado para cualquier modelo 3.1, se aplica a toda la familia de modelos.

In [4]:
tokenizer = AutoTokenizer.from_pretrained('meta-llama/Meta-Llama-3.1-8B', trust_remote_code=True)

tokenizer_config.json:   0%|          | 0.00/50.5k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/73.0 [00:00<?, ?B/s]

In [5]:
text = "Estoy entusiasmado por mostrarles a mis ingenieros de LLM los Tokenizadores en acción."
tokens = tokenizer.encode(text)
tokens

[128000,
 14101,
 2303,
 1218,
 355,
 33990,
 2172,
 4247,
 44108,
 645,
 264,
 5906,
 46492,
 1291,
 437,
 409,
 445,
 11237,
 2537,
 9857,
 450,
 18745,
 665,
 90164,
 13]

In [8]:
len(tokens)

25

In [9]:
tokenizer.decode(tokens)

'<|begin_of_text|>Estoy entusiasmado por mostrarles a mis ingenieros de LLM los Tokenizadores en acción.'

In [10]:
tokenizer.batch_decode(tokens)

['<|begin_of_text|>',
 'Est',
 'oy',
 ' ent',
 'us',
 'iasm',
 'ado',
 ' por',
 ' mostrar',
 'les',
 ' a',
 ' mis',
 ' ingen',
 'ier',
 'os',
 ' de',
 ' L',
 'LM',
 ' los',
 ' Token',
 'iz',
 'adores',
 ' en',
 ' acción',
 '.']

In [12]:
# tokenizer.vocab
tokenizer.get_added_vocab()

{'<|begin_of_text|>': 128000,
 '<|end_of_text|>': 128001,
 '<|reserved_special_token_0|>': 128002,
 '<|reserved_special_token_1|>': 128003,
 '<|finetune_right_pad_id|>': 128004,
 '<|reserved_special_token_2|>': 128005,
 '<|start_header_id|>': 128006,
 '<|end_header_id|>': 128007,
 '<|eom_id|>': 128008,
 '<|eot_id|>': 128009,
 '<|python_tag|>': 128010,
 '<|reserved_special_token_3|>': 128011,
 '<|reserved_special_token_4|>': 128012,
 '<|reserved_special_token_5|>': 128013,
 '<|reserved_special_token_6|>': 128014,
 '<|reserved_special_token_7|>': 128015,
 '<|reserved_special_token_8|>': 128016,
 '<|reserved_special_token_9|>': 128017,
 '<|reserved_special_token_10|>': 128018,
 '<|reserved_special_token_11|>': 128019,
 '<|reserved_special_token_12|>': 128020,
 '<|reserved_special_token_13|>': 128021,
 '<|reserved_special_token_14|>': 128022,
 '<|reserved_special_token_15|>': 128023,
 '<|reserved_special_token_16|>': 128024,
 '<|reserved_special_token_17|>': 128025,
 '<|reserved_special_to

# Instruir variantes de modelos

Muchos modelos tienen una variante que ha sido entrenada para su uso en Chats.
Normalmente, estas variantes están etiquetadas con la palabra "Instruir" al final.
Han sido entrenadas para esperar indicaciones con un formato particular que incluye indicaciones del sistema, del usuario y del asistente.

Hay un método de utilidad `apply_chat_template` que convertirá el formato de lista de mensajes con el que estamos familiarizados en la indicación de entrada correcta para este modelo.

In [13]:
tokenizer = AutoTokenizer.from_pretrained('meta-llama/Meta-Llama-3.1-8B-Instruct', trust_remote_code=True)

tokenizer_config.json:   0%|          | 0.00/55.4k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.09M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

In [14]:

messages = [
    {"role": "system", "content": "Eres un útil asistente"},
    {"role": "user", "content": "Cuenta un chiste divertido para una sala llena de científicos de datos."}
  ]

prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
print(prompt)

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 26 Jul 2024

Eres un útil asistente<|eot_id|><|start_header_id|>user<|end_header_id|>

Cuenta un chiste divertido para una sala llena de científicos de datos.<|eot_id|><|start_header_id|>assistant<|end_header_id|>




# Probando nuevos modelos

Trabajaremos ahora con 3 modelos:

Phi3 de Microsoft
Qwen2 de Alibaba Cloud
Starcoder2 de BigCode (ServiceNow + HuggingFace + NVidia)

In [15]:
PHI3_MODEL_NAME = "microsoft/Phi-3-mini-4k-instruct"
QWEN2_MODEL_NAME = "Qwen/Qwen2-7B-Instruct"
STARCODER2_MODEL_NAME = "bigcode/starcoder2-3b"

In [19]:
phi3_tokenizer = AutoTokenizer.from_pretrained(PHI3_MODEL_NAME)

text = "Estoy entusiasmado por mostrarles a mis ingenieros de LLM los Tokenizadores en acción."
print(phi3_tokenizer.encode(text))
print()
tokens = phi3_tokenizer.encode(text)
print(phi3_tokenizer.batch_decode(tokens))


[2661, 12602, 875, 375, 3173, 29885, 912, 1277, 1556, 13678, 793, 263, 3984, 24386, 631, 359, 316, 365, 26369, 1232, 25159, 466, 7447, 427, 1274, 1290, 29889]

['Est', 'oy', 'ent', 'us', 'ias', 'm', 'ado', 'por', 'most', 'rar', 'les', 'a', 'mis', 'ingen', 'ier', 'os', 'de', 'L', 'LM', 'los', 'Token', 'iz', 'adores', 'en', 'ac', 'ción', '.']


In [20]:
print(tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True))
print()
print(phi3_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True))

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 26 Jul 2024

Eres un útil asistente<|eot_id|><|start_header_id|>user<|end_header_id|>

Cuenta un chiste divertido para una sala llena de científicos de datos.<|eot_id|><|start_header_id|>assistant<|end_header_id|>



<|system|>
Eres un útil asistente<|end|>
<|user|>
Cuenta un chiste divertido para una sala llena de científicos de datos.<|end|>
<|assistant|>



In [21]:
qwen2_tokenizer = AutoTokenizer.from_pretrained(QWEN2_MODEL_NAME)

text = "Estoy entusiasmado por mostrarles a mis ingenieros de LLM los Tokenizadores en acción."
print(tokenizer.encode(text))
print()
print(phi3_tokenizer.encode(text))
print()
print(qwen2_tokenizer.encode(text))

tokenizer_config.json:   0%|          | 0.00/1.29k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/2.78M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/1.67M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/7.03M [00:00<?, ?B/s]

[128000, 14101, 2303, 1218, 355, 33990, 2172, 4247, 44108, 645, 264, 5906, 46492, 1291, 437, 409, 445, 11237, 2537, 9857, 450, 18745, 665, 90164, 13]

[2661, 12602, 875, 375, 3173, 29885, 912, 1277, 1556, 13678, 793, 263, 3984, 24386, 631, 359, 316, 365, 26369, 1232, 25159, 466, 7447, 427, 1274, 1290, 29889]

[13782, 2253, 1197, 355, 32890, 2123, 4154, 43008, 642, 264, 5786, 45392, 1268, 436, 409, 444, 10994, 2478, 9660, 449, 18244, 662, 89064, 13]


In [22]:
print(tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True))
print()
print(phi3_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True))
print()
print(qwen2_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True))

<|begin_of_text|><|start_header_id|>system<|end_header_id|>

Cutting Knowledge Date: December 2023
Today Date: 26 Jul 2024

Eres un útil asistente<|eot_id|><|start_header_id|>user<|end_header_id|>

Cuenta un chiste divertido para una sala llena de científicos de datos.<|eot_id|><|start_header_id|>assistant<|end_header_id|>



<|system|>
Eres un útil asistente<|end|>
<|user|>
Cuenta un chiste divertido para una sala llena de científicos de datos.<|end|>
<|assistant|>


<|im_start|>system
Eres un útil asistente<|im_end|>
<|im_start|>user
Cuenta un chiste divertido para una sala llena de científicos de datos.<|im_end|>
<|im_start|>assistant



In [23]:
starcoder2_tokenizer = AutoTokenizer.from_pretrained(STARCODER2_MODEL_NAME, trust_remote_code=True)
code = """
def hello_world(person):
  print("Hola", person)
"""
tokens = starcoder2_tokenizer.encode(code)
for token in tokens:
  print(f"{token}={starcoder2_tokenizer.decode(token)}")

tokenizer_config.json:   0%|          | 0.00/7.88k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/777k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/442k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.06M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/958 [00:00<?, ?B/s]

222=

610=def
17966= hello
100=_
5879=world
45=(
6427=person
731=):
353=
 
1489= print
459=("
77=H
14042=ola
411=",
4944= person
46=)
222=

