# Tokenización con Transformers

Notebook para cargar un tokenizador preentrenado y explorar la tokenización de varias oraciones con Transformers.

## 1. Instalar y configurar dependencias

Instalar y/o verificar la disponibilidad de `transformers` en el entorno del notebook.

In [None]:
import importlib.util
import sys
import subprocess

if importlib.util.find_spec("transformers") is None:
    subprocess.check_call([sys.executable, "-m", "pip", "install", "transformers"])

import transformers
print("transformers", transformers.__version__)

## 2. Cargar el tokenizador preentrenado

Importar `AutoTokenizer` y cargar el modelo `sentence-transformers/all-MiniLM-L6-v2`.

In [None]:
from transformers import AutoTokenizer

# Cargamos un tokenizador preentrenado para embeddings de oraciones
# Este se usará para convertir texto a tokens y sus IDs correspondientes
tokenizer = AutoTokenizer.from_pretrained("sentence-transformers/all-MiniLM-L6-v2")

## 3. Definir función de exploración de tokenización

Implementar `explore_tokenization(text)` para tokenizar, codificar a IDs e imprimir la correspondencia token→ID.

In [None]:
def explore_tokenization(text):
    """
    Esta función muestra cómo el tokenizador transforma un texto dado en tokens e IDs,
    imprimiendo información detallada para su análisis.
    """

    print(f"\nAnalizando: '{text}'")
    print("-" * 50)

    # Tokeniza el texto (convierte string a lista de strings/subpalabras)
    tokens = tokenizer.tokenize(text)

    # Codifica el texto a IDs (convierte string a lista de números)
    # Nota: encode agrega automáticamente tokens especiales al inicio y final
    tokens_ids = tokenizer.encode(text)

    print(f"\nTexto original: {text}")
    print(f"Tokens: {tokens}")
    print(f"Número de tokens: {len(tokens)}")
    print(f"IDs de tokens: {tokens_ids}")

    print("\nCorrespondencia Token → ID:")

    # Excluimos [CLS] (inicio) y [SEP] (fin) al imprimir la correspondencia manual
    # tokens_ids[1:-1] toma los IDs del contenido real
    for i, (token, token_id) in enumerate(zip(tokens, tokens_ids[1:-1])):
        print(f"  {i+1}. '{token}' → {token_id}")

    return tokens, tokens_ids

## 4. Preparar ejemplos y almacenamiento de resultados

Crear la lista `examples` y el diccionario `tokenization_results` para guardar tokens e IDs.

In [None]:
examples = [
    "The sun is shining brightly through the window this morning",
    "She loves to read books about history and ancient civilizations",
    "It feels so cold outside that my hands are starting to go numb",
    "They won the game after playing an intense and challenging match",
]

# Diccionario para almacenar los resultados de tokenización
tokenization_results = {}

## 5. Ejecutar la tokenización y revisar salidas

Iterar sobre los ejemplos, llamar a `explore_tokenization` y almacenar resultados en el diccionario.

In [None]:
print("\n" + "=" * 60)
print("PARTE 1: ENTENDIENDO LOS TOKENS")
print("=" * 60)

# Procesamos cada oración de ejemplo y almacenamos tokens e IDs
for example in examples:
    tokens, tokens_ids = explore_tokenization(example)
    tokenization_results[example] = {"tokens": tokens, "ids": tokens_ids}