# Curso de IA Generativa - Tokenizers
### Uso de Tokenizers preentrenados y creación de uno desde cero


En este notebook, exploraremos cómo utilizar un tokenizer preentrenado para codificar una frase, visualizaremos los IDs y tokens asociados, y finalmente entrenaremos un tokenizer desde cero.
Vamos a utilizar las herramientas proporcionadas por la biblioteca de Hugging Face `transformers`.
    

## Uso de un Tokenizer Preentrenado


Primero, vamos a utilizar un tokenizer preentrenado de Hugging Face para tokenizar una frase. Utilizaremos el modelo `bert-base-uncased` para este ejemplo.
    

In [1]:
from transformers import AutoTokenizer
import pandas as pd
from tokenizers import Tokenizer
from tokenizers.models import WordPiece
from tokenizers.trainers import WordPieceTrainer
from tokenizers.pre_tokenizers import Whitespace

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Cargamos el tokenizer preentrenado
tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")

# Frase de ejemplo
text = "Artificial Intelligence is transforming the world."

# Tokenización de la frase
tokens = tokenizer.tokenize(text)
token_ids = tokenizer.convert_tokens_to_ids(tokens)

# Mostrar tokens y sus IDs
print("Tokens:", tokens)
print("Token IDs:", token_ids)  

Tokens: ['artificial', 'intelligence', 'is', 'transforming', 'the', 'world', '.']
Token IDs: [7976, 4454, 2003, 17903, 1996, 2088, 1012]




## Visualización de los Tokens y sus IDs


A continuación, visualizaremos los tokens y sus IDs correspondientes. Esto nos permite ver cómo el tokenizer descompone la frase en sub-palabras y asigna un identificador único a cada token.
    

In [3]:
# Crear el DataFrame
df = pd.DataFrame(list(zip(tokens, token_ids)), columns=["Token", "Token ID"])

In [4]:
df

Unnamed: 0,Token,Token ID
0,artificial,7976
1,intelligence,4454
2,is,2003
3,transforming,17903
4,the,1996
5,world,2088
6,.,1012


## Entrenamiento de un Tokenizer desde Cero

Vamos a entrenar un tokenizer desde cero utilizando un pequeño corpus de datos de ejemplo. Para ello, usaremos la clase `ByteLevelBPETokenizer` de la librería `tokenizers`.
    

In [6]:
# Definimos un corpus de ejemplo
corpus = [
    "Artificial intelligence and machine learning are evolving fields.",
    "Natural language processing enables machines to understand human language.",
    "Tokenizers are crucial for preparing text data for machine learning models."
]

tokenizer = Tokenizer(WordPiece(unk_token="[UNK]"))
tokenizer.pre_tokenizer = Whitespace()
trainer = WordPieceTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
tokenizer.train(["archivos/quijote.txt"], trainer)

In [7]:
output = tokenizer.encode("Hello, y'all! How are you 😁 ?")
print(output)

Encoding(num_tokens=14, attributes=[ids, type_ids, tokens, offsets, attention_mask, special_tokens_mask, overflowing])


In [8]:
output.tokens

['He',
 '##llo',
 ',',
 'y',
 "'",
 'all',
 '!',
 '[UNK]',
 'ar',
 '##e',
 'yo',
 '##u',
 '[UNK]',
 '?']

Como se puede observar, hay algunos caracteres y sílabas de inglés que no se usan en el dataset del quijote.txt. Por eso, el tokenizer no es capaz de reconocerlos.

## Comparación de Tokenizers Preentrenados


En este ejercicio, compararemos cómo diferentes tokenizers preentrenados (BERT, GPT-2 y RoBERTa) tokenizan la misma frase. Esto nos ayudará a entender cómo cada modelo interpreta y representa las palabras.
    

In [9]:
# Frase de ejemplo para comparar tokenizers
sample_text = "En un lugar de la Mancha, de cuyo nombre no quiero acordarme."

# Cargar tokenizers preentrenados
tokenizers = {
    "BERT": AutoTokenizer.from_pretrained("bert-base-uncased"),
    "GPT-2": AutoTokenizer.from_pretrained("gpt2"),
    "RoBERTa": AutoTokenizer.from_pretrained("roberta-base")
}

# Tokenizar la frase con cada tokenizer y mostrar los resultados
for name, tokenizer in tokenizers.items():
    tokens = tokenizer.tokenize(sample_text)
    print(f"Tokenizer: {name}")
    print("Tokens:", tokens)
    print("Número de Tokens:", len(tokens))
    print("="*50)  



Tokenizer: BERT
Tokens: ['en', 'un', 'lu', '##gar', 'de', 'la', 'man', '##cha', ',', 'de', 'cu', '##yo', 'no', '##mbre', 'no', 'qui', '##ero', 'ac', '##ord', '##arm', '##e', '.']
Número de Tokens: 22
Tokenizer: GPT-2
Tokens: ['En', 'Ġun', 'Ġl', 'ugar', 'Ġde', 'Ġla', 'ĠMan', 'cha', ',', 'Ġde', 'Ġc', 'uy', 'o', 'Ġn', 'omb', 're', 'Ġno', 'Ġqu', 'ier', 'o', 'Ġac', 'ord', 'ar', 'me', '.']
Número de Tokens: 25
Tokenizer: RoBERTa
Tokens: ['En', 'Ġun', 'Ġl', 'ugar', 'Ġde', 'Ġla', 'ĠMan', 'cha', ',', 'Ġde', 'Ġc', 'uy', 'o', 'Ġn', 'omb', 're', 'Ġno', 'Ġqu', 'ier', 'o', 'Ġac', 'ord', 'ar', 'me', '.']
Número de Tokens: 25


## Análisis de la Longitud de las Secuencias Tokenizadas


Vamos a tokenizar frases de distintas longitudes utilizando los mismos tokenizers preentrenados (BERT, GPT-2 y RoBERTa). Observaremos cómo cambia la longitud de las secuencias resultantes según el tokenizer.
    

In [10]:
# Frases de diferentes longitudes
texts = [
    "Cervantes",
    "En un lugar de la Mancha.",
    "En un lugar de la Mancha, de cuyo nombre no quiero acordarme.",
    "En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero."
]

# Comparar la longitud de secuencia para cada frase y cada tokenizer
for text in texts:
    print(f"Texto: {text}")
    for name, tokenizer in tokenizers.items():
        tokens = tokenizer.tokenize(text)
        print(f"Tokenizer: {name} - Número de Tokens: {len(tokens)}")
    print("="*50)  

Texto: Cervantes
Tokenizer: BERT - Número de Tokens: 3
Tokenizer: GPT-2 - Número de Tokens: 3
Tokenizer: RoBERTa - Número de Tokens: 3
Texto: En un lugar de la Mancha.
Tokenizer: BERT - Número de Tokens: 9
Tokenizer: GPT-2 - Número de Tokens: 9
Tokenizer: RoBERTa - Número de Tokens: 9
Texto: En un lugar de la Mancha, de cuyo nombre no quiero acordarme.
Tokenizer: BERT - Número de Tokens: 22
Tokenizer: GPT-2 - Número de Tokens: 25
Tokenizer: RoBERTa - Número de Tokens: 25
Texto: En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero.
Tokenizer: BERT - Número de Tokens: 44
Tokenizer: GPT-2 - Número de Tokens: 50
Tokenizer: RoBERTa - Número de Tokens: 50
