# Curso de IA Generativa - Entrenamiento de Tokenizer Propio


En este notebook, vamos a entrenar un tokenizer desde cero utilizando la biblioteca de Hugging Face `tokenizers`, guardarlo en un archivo `.json`, y luego evaluarlo con un archivo de prueba que contiene caracteres y estructuras únicas.
    

In [20]:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace
from transformers import AutoTokenizer

## Entrenamiento de un Tokenizer Propio


Vamos a entrenar un tokenizer utilizando un pequeño corpus personalizado para adaptarlo a nuestras necesidades. Posteriormente, guardaremos este tokenizer en un archivo `.json` para su uso futuro.
    

Puedes usar el conjunto de datos que desees.

In [21]:
corpus1 = [
    "Artificial intelligence and machine learning are evolving fields.",
    "Natural language processing enables machines to understand human language.",
    "Tokenizers are crucial for preparing text data for machine learning models."
]
corpus2 = [
    "Este es un ejemplo de entrenamiento \n\n\n de tokenizer personalizado.",
    "Incluimos palabras y caracteres especiales como: 😃, 🚀, ü, ø, π, θ, λ.",
    "El objetivo es comprobar cómo maneja caracteres únicos."
]

tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
#tokenizer.pre_tokenizer = Whitespace()
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

tokenizer.train_from_iterator(corpus2, trainer=trainer)

#### Guardamos el tokenizer

In [22]:
tokenizer.save("archivos/CursoGenAI_UAL_01_myTokenizer.json") 

## Ejecución del Tokenizer sobre el Archivo de Prueba


Ahora vamos a descargar el archivo de prueba que contiene caracteres y estructuras únicas, y lo procesaremos con el tokenizer que acabamos de entrenar. 
El objetivo es examinar si el tokenizer es capaz de codificar todos los caracteres presentes en el archivo.
    

In [23]:
# Descargar el archivo de prueba
test_file_path = "archivos/CursoGenAI_UAL_01_testFile.py"

# Leer el contenido del archivo de prueba
with open(test_file_path, 'r', encoding='utf-8') as file:
    test_file_content = file.read()

# Ejecutar el tokenizer sobre el archivo de prueba
encoded_test = tokenizer.encode(test_file_content)
print("Tokens:", encoded_test.tokens)
print("Token IDs:", encoded_test.ids)   

Tokens: ['\n', '[UNK]', ' ', '[UNK]', 'r', 'c', '[UNK]', 'iv', 'o ', 'de ', 'p', 'r', 'u', 'e', 'b', 'a', ' c', 'o', 'n', ' caracteres ', 'y', ' ', 'es', 't', 'r', 'u', 'c', 't', 'u', 'ras ', 'ú', 'n', 'i', 'c', 'a', 's', '\n\n', 'd', 'e', '[UNK]', ' ', '[UNK]', 'u', 'n', 'ci', 'ó', 'n', '[UNK]', 'ú', 'n', 'i', 'c', 'a', '[UNK]', '[UNK]', ':', '\n ', ' ', ' ', ' ', '[UNK]', ' ', '[UNK]', 's', 'o ', 'de ', 'e', 'mo', 'j', 'i', 's ', 'y caracteres especi', 'al', 'es ', '[UNK]', 'u', 'e ', 'n', 'o ', 'es', 't', '[UNK]', 'n', ' ', 'en', ' ', 'e', 'l', ' ', 'd', 'a', 't', 'a', 's', 'et', ' ', 'de ', '[UNK]', 'er', 'v', 'an', 't', 'es', '\n ', ' ', ' ', ' ', 'v', 'ar', 'i', 'ab', 'l', 'e ', '[UNK]', ' ', '[UNK]', '😃', '🚀', '[UNK]', '[UNK]', '[UNK]', ' ', '[UNK]', ' caracteres ', 'único', 's', ':', ' ', '[UNK]', ', ', 'ø, ', 'ü, ', '[UNK]', ', ', 'π, ', 'θ, ', 'λ', ', ', '[UNK]', '[UNK]', '[UNK]', '\n ', ' ', ' ', ' p', 'r', 'i', 'n', 't', '[UNK]', 'v', 'ar', 'i', 'ab', 'l', 'e', '[UNK]', '\n

In [24]:
res = tokenizer.decode(encoded_test.ids)
print(res)


   r c iv o  de  p r u e b a  c o n  caracteres  y   es t r u c t u ras  ú n i c a s 

 d e   u n ci ó n ú n i c a : 
          s o  de  e mo j i s  y caracteres especi al es  u e  n o  es t n   en   e l   d a t a s et   de  er v an t es 
        v ar i ab l e    😃 🚀    caracteres  único s :   ,  ø,  ü,  ,  π,  θ,  λ ,  
       p r i n t v ar i ab l e 

   l am ad a   a   l a   u n ci ó n 
 u n ci ó n ú n i c a


PREGUNTA: ¿Por qué sale todo en 1 línea al decodificar?

Porque no se incorporan saltos de línea en el entrenamiento del tokenizer

## Evaluación de la Salida del Tokenizer


Analizaremos la salida para verificar si todos los caracteres y estructuras presentes en el archivo de prueba han sido correctamente codificados con nuestros tokens personalizados.
    

# Ejercicios

### Ejercicio 1 
- Cambia los datos de entrenamiento, incorporando un archivo que contenga datos similares al archivo "CursoGenAI_UAL_01_testFile.py". 
- Además, estudia los diferentes parámetros que se pueden incorporar en el "tokenizer" y el "trainer" para hacer que entienda todos los caracteres, respete los espacios y no divida todo el contenido en caracteres.

In [27]:
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
#tokenizer.pre_tokenizer = Whitespace()
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

test_file_path = "archivos/mergeSort.py"

# Leer el contenido del archivo de prueba
with open(test_file_path, 'r', encoding='utf-8') as file:
    test_content = file.read()

tokenizer.train_from_iterator(test_content, trainer=trainer)

In [28]:
encoded_test = tokenizer.encode(test_content)
res = tokenizer.decode(encoded_test.ids)
print(res)

#   - * -   c o d i n g :   u t f - 8   - * - 
 
 f r o m   t i m e   i m p o r t   t i m e 
 
 d e f   m e r g e S o r t ( l i s t a ) : 
         i f   l e n ( l i s t a )   < =   1 : 
                 r e t u r n   l i s t a 
 
         m e d i o   =   l e n ( l i s t a )   /   2 
         i z q u i e r d a   =   l i s t a [ : m e d i o ] 
         d e r e c h a   =   l i s t a [ m e d i o : ] 
 
         i z q u i e r d a   =   m e r g e S o r t ( i z q u i e r d a ) 
         d e r e c h a   =   m e r g e S o r t ( d e r e c h a ) 
 
         r e t u r n   m e r g e ( i z q u i e r d a ,   d e r e c h a ) 
 
 d e f   m e r g e ( l i s t a A ,   l i s t a B ) : 
         g l o b a l   c o m p a r a c i o n e s 
         l i s t a _ n u e v a   =   [ ] 
         a   =   0 
         b   =   0 
 
         w h i l e   a   <   l e n ( l i s t a A )   a n d   b   <   l e n ( l i s t a B ) : 
                 c o m p a r a c i o n e s   + =   1 
 
                 i f   l i s t a A [ a ] 

### Ejercicio 2
Ejecuta el tokenizer anterior sobre el archivo "quijote.txt". ¿Qué observas?

In [29]:
# Descargar el archivo de prueba
test_file_quijote = "archivos/quijote.txt"

# Leer el contenido del archivo de prueba
with open(test_file_quijote, 'r', encoding='utf-8') as file:
    test_file_content_quijote = file.read()

In [30]:
encoded_test = tokenizer.encode(test_file_content_quijote)
res = tokenizer.decode(encoded_test.ids)
print(res[0:100])

l   i n g e n i o s o   h i d a l g o   d o n   u i o t e   d e   l a   a n c h a 
 
 
 T A S A 
 
 


### Ejercicio 3
Ejecuta un tokenizer pre-entrenado sobre el archivo "quijote.txt" y "CursoGenAI_UAL_01_testFile"

In [None]:
# Cargar el tokenizer preentrenado GPT-2
tokenizer = AutoTokenizer.from_pretrained("gpt2")

In [32]:
# Tokenización: obtener tokens e IDs
encoded_input = tokenizer(test_content)
print(encoded_input)
# Mostrar los tokens
tokens = encoded_input.tokens()
print("Tokens:", tokens)

# Mostrar los IDs
token_ids = encoded_input['input_ids']
print("Token IDs:", token_ids)

# Decodificación: reconstruir la secuencia original a partir de los IDs
reconstructed_sequence = tokenizer.decode(token_ids)
print("Secuencia reconstruida:", reconstructed_sequence)

{'input_ids': [2, 532, 9, 12, 19617, 25, 3384, 69, 12, 23, 532, 9, 12, 198, 198, 6738, 640, 1330, 640, 198, 198, 4299, 20121, 42758, 7, 4868, 64, 2599, 198, 220, 220, 220, 611, 18896, 7, 4868, 64, 8, 19841, 352, 25, 198, 220, 220, 220, 220, 220, 220, 220, 1441, 1351, 64, 628, 220, 220, 220, 1117, 952, 796, 18896, 7, 4868, 64, 8, 1220, 362, 198, 220, 220, 220, 220, 528, 421, 959, 6814, 796, 1351, 64, 58, 25, 1150, 952, 60, 198, 220, 220, 220, 49408, 11693, 796, 1351, 64, 58, 1150, 952, 47715, 628, 220, 220, 220, 220, 528, 421, 959, 6814, 796, 20121, 42758, 7, 528, 421, 959, 6814, 8, 198, 220, 220, 220, 49408, 11693, 796, 20121, 42758, 7, 67, 567, 11693, 8, 628, 220, 220, 220, 1441, 20121, 7, 528, 421, 959, 6814, 11, 49408, 11693, 8, 198, 198, 4299, 20121, 7, 4868, 64, 32, 11, 1351, 64, 33, 2599, 198, 220, 220, 220, 3298, 4616, 49443, 274, 198, 220, 220, 220, 1351, 64, 62, 77, 518, 6862, 796, 17635, 198, 220, 220, 220, 257, 796, 657, 198, 220, 220, 220, 275, 796, 657, 628, 220, 220, 220,

In [33]:
# Tokenización: obtener tokens e IDs
encoded_input = tokenizer(test_file_content_quijote[0:2000])
print(encoded_input)
# Mostrar los tokens
tokens = encoded_input.tokens()
print("Tokens:", tokens)

# Mostrar los IDs
token_ids = encoded_input['input_ids']
print("Token IDs:", token_ids)

# Decodificación: reconstruir la secuencia original a partir de los IDs
reconstructed_sequence = tokenizer.decode(token_ids)
print("Secuencia reconstruida:", reconstructed_sequence)

{'input_ids': [9527, 27016, 4267, 78, 289, 11624, 2188, 836, 2264, 2926, 1258, 390, 8591, 1869, 11693, 628, 198, 51, 1921, 32, 198, 198, 38101, 11, 16852, 7096, 78, 390, 843, 81, 4763, 11, 3671, 822, 5733, 390, 327, 6557, 76, 3301, 1619, 24448, 14364, 47692, 384, 12654, 273, 11, 390, 198, 33280, 8358, 581, 14029, 551, 424, 1482, 325, 7639, 11, 8700, 78, 331, 466, 88, 730, 8358, 11, 387, 8482, 31110, 410, 396, 78, 16964, 198, 33280, 384, 12654, 2850, 39073, 75, 555, 9195, 305, 493, 270, 377, 4533, 2574, 27016, 4267, 78, 289, 11624, 2188, 390, 8591, 1869, 11693, 11, 198, 5589, 84, 395, 78, 16964, 29825, 390, 327, 712, 39781, 10318, 9586, 430, 11, 256, 292, 8045, 269, 4763, 458, 494, 2188, 1619, 36638, 78, 198, 8019, 305, 257, 256, 411, 1667, 9586, 41200, 331, 1117, 952, 26, 1288, 269, 723, 46668, 1734, 267, 2395, 429, 64, 331, 256, 411, 458, 15702, 418, 11, 8358, 198, 282, 36638, 78, 3718, 952, 40689, 64, 1288, 36638, 78, 9195, 305, 2205, 1153, 418, 331, 645, 1151, 64, 1667, 9586, 41200,