# Gu√≠a 2: Tokens y Embeddings

## Descripci√≥n

En esta gu√≠a vas a explorar dos conceptos fundamentales en el procesamiento del lenguaje natural: **tokenizaci√≥n** y **embeddings**. Estos son los pilares sobre los que funcionan todos los modelos de lenguaje modernos.

Al finalizar esta gu√≠a vas a poder:
- Comprender qu√© son los tokens y c√≥mo diferentes modelos tokenizan el texto
- Visualizar y comparar estrategias de tokenizaci√≥n entre modelos
- Entender qu√© son los embeddings y c√≥mo representan significado
- Obtener embeddings contextualizados y embeddings de oraciones completas
- Aplicar embeddings para tareas de b√∫squeda sem√°ntica y similitud textual

---

## Configuraci√≥n del Entorno

### Requisitos

Para ejecutar este notebook necesit√°s:

1. **Google Colab con GPU activada:**
   - And√° a `Entorno de ejecuci√≥n > Cambiar tipo de entorno de ejecuci√≥n`
   - Seleccion√° `Acelerador de hardware > GPU`
   - Eleg√≠ `Tipo de GPU > T4`

2. **Conexi√≥n a Internet** para descargar modelos y bibliotecas

Nota: Algunos ejemplos funcionan en CPU, pero para cargar modelos grandes es recomendable usar GPU.

## Instalaci√≥n de Dependencias

Instalamos las bibliotecas necesarias para trabajar con tokens y embeddings.

In [1]:
%%capture
# Actualizamos pip y limpiamos instalaciones previas
!pip install --upgrade pip
!pip uninstall -y transformers accelerate

# Instalamos las bibliotecas necesarias
!pip install transformers accelerate
!pip install sentence-transformers gensim scikit-learn numpy scipy

### Bibliotecas Instaladas

- **transformers**: Para trabajar con modelos de lenguaje y tokenizadores
- **accelerate**: Acelera la inferencia de modelos
- **sentence-transformers**: Modelos especializados en embeddings de oraciones
- **gensim**: Biblioteca para modelado de t√≥picos y similitud sem√°ntica
- **scikit-learn**: Herramientas de machine learning (c√°lculo de similitudes)
- **numpy, scipy**: Operaciones num√©ricas y cient√≠ficas

## Marco Te√≥rico

### ¬øQu√© es la Tokenizaci√≥n?

Los modelos de lenguaje no procesan texto directamente, sino que trabajan con **tokens**. La **tokenizaci√≥n** es el proceso de dividir el texto en unidades m√°s peque√±as que el modelo puede procesar.

Un token puede ser:
- Una palabra completa: `"casa"` ‚Üí `["casa"]`
- Una subpalabra: `"jugando"` ‚Üí `["jug", "ando"]`
- Un car√°cter individual: `"a"` ‚Üí `["a"]`
- Puntuaci√≥n o espacios especiales

### ¬øPor qu√© Subpalabras?

Los tokenizadores modernos usan algoritmos como **BPE (Byte-Pair Encoding)** o **WordPiece** que dividen palabras en subpalabras. Ventajas:

1. **Vocabulario finito**: En lugar de millones de palabras, usan 30,000-50,000 subpalabras
2. **Manejo de palabras raras**: Pueden representar palabras que nunca vieron durante el entrenamiento
3. **Eficiencia morfol√≥gica**: Capturan ra√≠ces y afijos ("jugando" = "jug" + "ando")
4. **Multiling√ºismo**: Un mismo tokenizador puede manejar m√∫ltiples idiomas

### ¬øQu√© son los Embeddings?

Los **embeddings** son representaciones num√©ricas (vectores) de palabras, oraciones o documentos. Cada token se convierte en un vector de n√∫meros (t√≠picamente 256, 512, 768 o 1024 dimensiones).

Propiedades clave:
- Palabras similares tienen vectores similares
- Capturan relaciones sem√°nticas: `rey - hombre + mujer ‚âà reina`
- Permiten operaciones matem√°ticas con significado

### Tipos de Embeddings

1. **Embeddings est√°ticos** (Word2Vec, GloVe): Cada palabra tiene un √∫nico vector fijo
   - Problema: "banco" (instituci√≥n) y "banco" (asiento) tienen el mismo vector

2. **Embeddings contextualizados** (BERT, GPT): El vector cambia seg√∫n el contexto
   - "banco" tiene vectores diferentes en "banco de datos" vs "sentarse en el banco"

3. **Embeddings de oraciones** (Sentence-BERT): Representan oraciones completas en un solo vector
   - √ötiles para b√∫squeda sem√°ntica, clustering, clasificaci√≥n

## Parte 1: Explorando la Tokenizaci√≥n

Vamos a comparar c√≥mo diferentes modelos tokenizan el mismo texto.

In [2]:
from transformers import AutoTokenizer

# Funci√≥n auxiliar para visualizar tokens con colores
colors_list = [
    '102;194;165', '252;141;98', '141;160;203',
    '231;138;195', '166;216;84', '255;217;47'
]

def mostrar_tokens(texto, nombre_tokenizador):
    """
    Visualiza c√≥mo un tokenizador divide el texto.

    Par√°metros:
    - texto: String a tokenizar
    - nombre_tokenizador: Identificador del modelo en Hugging Face
    """
    print(f"\n{'='*60}")
    print(f"Tokenizador: {nombre_tokenizador}")
    print(f"{'='*60}")

    tokenizer = AutoTokenizer.from_pretrained(nombre_tokenizador)
    token_ids = tokenizer(texto).input_ids

    # Mostramos cada token con un color diferente
    for idx, t in enumerate(token_ids):
        print(
            f'\x1b[0;30;48;2;{colors_list[idx % len(colors_list)]}m' +
            tokenizer.decode(t) +
            '\x1b[0m',
            end=' '
        )
    print(f"\n\nTotal de tokens: {len(token_ids)}")

### Texto de Prueba

Preparamos un texto que incluye diferentes desaf√≠os para los tokenizadores:
- Texto en espa√±ol y may√∫sculas
- Emoji y caracteres especiales (üßâ √±)
- C√≥digo Python
- Espacios y tabulaciones
- Operaciones matem√°ticas
- Expresiones coloquiales argentinas

In [3]:
# Texto de ejemplo con varios casos interesantes
texto = """
Espa√±ol y MAY√öSCULAS
üßâ √±
show_tokens False None elif == >= else: dos tabs:"    " Tres tabs: "       "
12.0*50=600
El mate est√° muy caliente
"""

print("Texto original:")
print(texto)

Texto original:

Espa√±ol y MAY√öSCULAS
üßâ √±
show_tokens False None elif == >= else: dos tabs:"    " Tres tabs: "       "
12.0*50=600
El mate est√° muy caliente



### Comparaci√≥n de Tokenizadores

Vamos a probar cuatro tokenizadores diferentes:

1. **BERT uncased**: Convierte todo a min√∫sculas, no distingue may√∫sculas
2. **BERT cased**: Mantiene may√∫sculas y min√∫sculas
3. **Phi-3**: Tokenizador moderno optimizado para modelos instruction-tuned
4. **GPT-2**: Tokenizador cl√°sico basado en BPE

In [4]:
# BERT uncased (sin distinci√≥n de may√∫sculas)
mostrar_tokens(texto, "bert-base-uncased")


Tokenizador: bert-base-uncased


tokenizer_config.json:   0%|          | 0.00/48.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98mes[0m [0;30;48;2;141;160;203m##pan[0m [0;30;48;2;231;138;195m##ol[0m [0;30;48;2;166;216;84my[0m [0;30;48;2;255;217;47mmay[0m [0;30;48;2;102;194;165m##us[0m [0;30;48;2;252;141;98m##cula[0m [0;30;48;2;141;160;203m##s[0m [0;30;48;2;231;138;195m[UNK][0m [0;30;48;2;166;216;84mn[0m [0;30;48;2;255;217;47mshow[0m [0;30;48;2;102;194;165m_[0m [0;30;48;2;252;141;98mtoken[0m [0;30;48;2;141;160;203m##s[0m [0;30;48;2;231;138;195mfalse[0m [0;30;48;2;166;216;84mnone[0m [0;30;48;2;255;217;47meli[0m [0;30;48;2;102;194;165m##f[0m [0;30;48;2;252;141;98m=[0m [0;30;48;2;141;160;203m=[0m [0;30;48;2;231;138;195m>[0m [0;30;48;2;166;216;84m=[0m [0;30;48;2;255;217;47melse[0m [0;30;48;2;102;194;165m:[0m [0;30;48;2;252;141;98mdos[0m [0;30;48;2;141;160;203mtab[0m [0;30;48;2;231;138;195m##s[0m [0;30;48;2;166;216;84m:[0m [0;30;48;2;255;217;47m"[0m [0;30;48;2;102;194;165m"[0m [0;30;48;2;252;141;98mtres

In [5]:
# BERT cased (con distinci√≥n de may√∫sculas)
mostrar_tokens(texto, "bert-base-cased")


Tokenizador: bert-base-cased


tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

[0;30;48;2;102;194;165m[CLS][0m [0;30;48;2;252;141;98mE[0m [0;30;48;2;141;160;203m##sp[0m [0;30;48;2;231;138;195m##a[0m [0;30;48;2;166;216;84m##√±o[0m [0;30;48;2;255;217;47m##l[0m [0;30;48;2;102;194;165my[0m [0;30;48;2;252;141;98mMA[0m [0;30;48;2;141;160;203m##Y[0m [0;30;48;2;231;138;195m##√ö[0m [0;30;48;2;166;216;84m##SC[0m [0;30;48;2;255;217;47m##U[0m [0;30;48;2;102;194;165m##LA[0m [0;30;48;2;252;141;98m##S[0m [0;30;48;2;141;160;203m[UNK][0m [0;30;48;2;231;138;195m√±[0m [0;30;48;2;166;216;84mshow[0m [0;30;48;2;255;217;47m_[0m [0;30;48;2;102;194;165mtoken[0m [0;30;48;2;252;141;98m##s[0m [0;30;48;2;141;160;203mF[0m [0;30;48;2;231;138;195m##als[0m [0;30;48;2;166;216;84m##e[0m [0;30;48;2;255;217;47mNone[0m [0;30;48;2;102;194;165mel[0m [0;30;48;2;252;141;98m##if[0m [0;30;48;2;141;160;203m=[0m [0;30;48;2;231;138;195m=[0m [0;30;48;2;166;216;84m>[0m [0;30;48;2;255;217;47m=[0m [0;30;48;2;102;194;165melse[0m [0;30;48;2;252;141;98m:

In [6]:
# Phi-3 (modelo moderno)
mostrar_tokens(texto, "microsoft/Phi-3-mini-4k-instruct")


Tokenizador: microsoft/Phi-3-mini-4k-instruct


tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.model:   0%|          | 0.00/500k [00:00<?, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

added_tokens.json:   0%|          | 0.00/306 [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/599 [00:00<?, ?B/s]

[0;30;48;2;102;194;165m[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mEsp[0m [0;30;48;2;231;138;195ma√±[0m [0;30;48;2;166;216;84mol[0m [0;30;48;2;255;217;47my[0m [0;30;48;2;102;194;165mMA[0m [0;30;48;2;252;141;98mY[0m [0;30;48;2;141;160;203m√ö[0m [0;30;48;2;231;138;195mSC[0m [0;30;48;2;166;216;84mUL[0m [0;30;48;2;255;217;47mAS[0m [0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mÔøΩ[0m [0;30;48;2;141;160;203mÔøΩ[0m [0;30;48;2;231;138;195mÔøΩ[0m [0;30;48;2;166;216;84mÔøΩ[0m [0;30;48;2;255;217;47m[0m [0;30;48;2;102;194;165m√±[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mshow[0m [0;30;48;2;231;138;195m_[0m [0;30;48;2;166;216;84mto[0m [0;30;48;2;255;217;47mkens[0m [0;30;48;2;102;194;165mFalse[0m [0;30;48;2;252;141;98mNone[0m [0;30;48;2;141;160;203melif[0m [0;30;48;2;231;138;195m==[0m [0;30;48;2;166;216;84m>=[0m [0;30;48;2;255;217;47melse[0m [0;30;48;2;102;194;165m:[0m [0;30;48;2;252;141;98mdos[0m [0;30;48;2;141

In [7]:
# GPT-2 (tokenizador cl√°sico)
mostrar_tokens(texto, "gpt2")


Tokenizador: gpt2


tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

[0;30;48;2;102;194;165m
[0m [0;30;48;2;252;141;98mE[0m [0;30;48;2;141;160;203msp[0m [0;30;48;2;231;138;195ma[0m [0;30;48;2;166;216;84m√±[0m [0;30;48;2;255;217;47mol[0m [0;30;48;2;102;194;165m y[0m [0;30;48;2;252;141;98m MAY[0m [0;30;48;2;141;160;203mÔøΩ[0m [0;30;48;2;231;138;195mÔøΩ[0m [0;30;48;2;166;216;84mSC[0m [0;30;48;2;255;217;47mUL[0m [0;30;48;2;102;194;165mAS[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mÔøΩ[0m [0;30;48;2;231;138;195mÔøΩ[0m [0;30;48;2;166;216;84mÔøΩ[0m [0;30;48;2;255;217;47m ÔøΩ[0m [0;30;48;2;102;194;165mÔøΩ[0m [0;30;48;2;252;141;98m
[0m [0;30;48;2;141;160;203mshow[0m [0;30;48;2;231;138;195m_[0m [0;30;48;2;166;216;84mt[0m [0;30;48;2;255;217;47mok[0m [0;30;48;2;102;194;165mens[0m [0;30;48;2;252;141;98m False[0m [0;30;48;2;141;160;203m None[0m [0;30;48;2;231;138;195m el[0m [0;30;48;2;166;216;84mif[0m [0;30;48;2;255;217;47m ==[0m [0;30;48;2;102;194;165m >=[0m [0;30;48;2;252;141;98m else[0m [0;3

### Observaciones Clave

Al comparar los tokenizadores, not√°:

1. **Manejo de espacios**: Algunos a√±aden espacios como parte del token, otros no
2. **Caracteres especiales**: Diferentes estrategias para emojis (üßâ) y acentos (√±)
3. **N√∫meros y operadores**: Algunos los agrupan, otros los separan
4. **Eficiencia**: Menos tokens = procesamiento m√°s eficiente
5. **Espa√±ol**: Modelos entrenados principalmente en ingl√©s fragmentan m√°s las palabras espa√±olas

## Parte 2: Embeddings Contextualizados

Ahora vamos a obtener embeddings contextualizados usando un modelo BERT.

In [8]:
from transformers import AutoModel, AutoTokenizer

# Cargamos un modelo BERT peque√±o
tokenizer = AutoTokenizer.from_pretrained("microsoft/deberta-base")
model = AutoModel.from_pretrained("microsoft/deberta-v3-xsmall")

print("Modelo DeBERTa cargado exitosamente")

tokenizer_config.json:   0%|          | 0.00/52.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/474 [00:00<?, ?B/s]

vocab.json: 0.00B [00:00, ?B/s]

merges.txt: 0.00B [00:00, ?B/s]

config.json:   0%|          | 0.00/578 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/241M [00:00<?, ?B/s]

Modelo DeBERTa cargado exitosamente


### DeBERTa: Modelo de Embeddings Contextualizados

**DeBERTa** (Decoding-enhanced BERT with disentangled attention) es una mejora de BERT que:
- Genera embeddings que consideran el contexto completo de la oraci√≥n
- Usa atenci√≥n mejorada para capturar relaciones entre palabras
- Es m√°s eficiente que BERT tradicional

Usamos la versi√≥n `v3-xsmall` porque es:
- **Liviana**: Solo 22M par√°metros
- **R√°pida**: Inferencia veloz incluso en CPU
- **Suficiente**: Adecuada para demostraci√≥n educativa

In [9]:
# Procesamos una oraci√≥n simple
oracion = 'Hola mundo'

# Tokenizamos
# return_tensors='pt': Devuelve tensores de PyTorch
tokens = tokenizer(oracion, return_tensors='pt')

print("Tokens generados:")
print(tokens)
print("\nIDs de tokens:")
print(tokens['input_ids'])
print("\nDecodificaci√≥n de cada token:")
for token_id in tokens['input_ids'][0]:
    print(f"ID {token_id}: '{tokenizer.decode(token_id)}'")

Tokens generados:
{'input_ids': tensor([[   1,  725, 3019, 9500,  139,    2]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1]])}

IDs de tokens:
tensor([[   1,  725, 3019, 9500,  139,    2]])

Decodificaci√≥n de cada token:
ID 1: '[CLS]'
ID 725: 'H'
ID 3019: 'ola'
ID 9500: ' mund'
ID 139: 'o'
ID 2: '[SEP]'


In [10]:
# Obtenemos los embeddings
# **tokens: Desempaqueta el diccionario como argumentos nombrados
# [0]: Tomamos la primera salida (hidden states)
output = model(**tokens)[0]

print("Forma del tensor de embeddings:")
print(output.shape)
print("\nInterpretaci√≥n:")
print(f"- Batch size: {output.shape[0]} (cantidad de oraciones procesadas simult√°neamente)")
print(f"- Sequence length: {output.shape[1]} (cantidad de tokens en la oraci√≥n)")
print(f"- Hidden size: {output.shape[2]} (dimensiones del embedding de cada token)")

Forma del tensor de embeddings:
torch.Size([1, 6, 384])

Interpretaci√≥n:
- Batch size: 1 (cantidad de oraciones procesadas simult√°neamente)
- Sequence length: 6 (cantidad de tokens en la oraci√≥n)
- Hidden size: 384 (dimensiones del embedding de cada token)


### Interpretando la Salida

El tensor resultante tiene forma `[1, n_tokens, 384]`:

- **1**: Un solo ejemplo (batch size = 1)
- **n_tokens**: N√∫mero de tokens en la oraci√≥n (incluyendo tokens especiales [CLS], [SEP])
- **384**: Dimensiones del embedding (cada token se representa con 384 n√∫meros)

Cada token ahora es un vector de 384 n√∫meros que captura su significado en este contexto espec√≠fico.

In [11]:
# Visualizamos el embedding del primer token
import numpy as np

primer_token_embedding = output[0][0].detach().numpy()

print("Embedding del primer token [CLS]:")
print(f"Primeros 10 valores: {primer_token_embedding[:10]}")
print(f"\nEstad√≠sticas del vector:")
print(f"- Media: {primer_token_embedding.mean():.4f}")
print(f"- Desviaci√≥n est√°ndar: {primer_token_embedding.std():.4f}")
print(f"- M√≠nimo: {primer_token_embedding.min():.4f}")
print(f"- M√°ximo: {primer_token_embedding.max():.4f}")

Embedding del primer token [CLS]:
Primeros 10 valores: [-3.366619    0.12981969 -0.08033393 -0.4157191  -0.06599673 -0.34292436
 -0.0917313  -0.20154317 -0.23353307 -0.17304106]

Estad√≠sticas del vector:
- Media: -0.0140
- Desviaci√≥n est√°ndar: 0.8162
- M√≠nimo: -3.6123
- M√°ximo: 4.0823


## Parte 3: Embeddings de Oraciones Completas

Para tareas como b√∫squeda sem√°ntica o clustering, necesitamos representar oraciones completas como un solo vector. Usamos **Sentence-BERT** para esto.

In [12]:
from sentence_transformers import SentenceTransformer

# Cargamos un modelo de embeddings de oraciones
# all-mpnet-base-v2: Uno de los mejores modelos multiling√ºes
modelo_oraciones = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')

print("Modelo de sentence embeddings cargado")

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/438M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.txt: 0.00B [00:00, ?B/s]

tokenizer.json: 0.00B [00:00, ?B/s]

special_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Modelo de sentence embeddings cargado


### Sentence-BERT

**Sentence-BERT (SBERT)** es una modificaci√≥n de BERT optimizada para generar embeddings de oraciones de alta calidad:

- Entrena usando pares de oraciones (similares y diferentes)
- Genera un √∫nico vector que representa toda la oraci√≥n
- Permite comparar oraciones eficientemente (b√∫squeda sem√°ntica)
- Funciona bien en m√∫ltiples idiomas, incluyendo espa√±ol

**Modelo all-mpnet-base-v2:**
- Basado en Microsoft MPNet
- Entrenado con m√°s de 1 bill√≥n de pares de oraciones
- 768 dimensiones por oraci√≥n
- Excelente balance entre calidad y velocidad

In [13]:
# Generamos embedding de una oraci√≥n
oracion_ejemplo = "La mejor pel√≠cula que vi este a√±o fue incre√≠ble"

# encode(): Convierte texto en embedding
vector = modelo_oraciones.encode(oracion_ejemplo)

print(f"Oraci√≥n: '{oracion_ejemplo}'")
print(f"\nDimensiones del embedding: {vector.shape}")
print(f"Tipo de datos: {type(vector)}")
print(f"\nPrimeros 10 valores del vector:")
print(vector[:10])

Oraci√≥n: 'La mejor pel√≠cula que vi este a√±o fue incre√≠ble'

Dimensiones del embedding: (768,)
Tipo de datos: <class 'numpy.ndarray'>

Primeros 10 valores del vector:
[-0.02195267 -0.02486978 -0.03328351 -0.02514962  0.0163444   0.03398255
 -0.01638375  0.01776548  0.06007986  0.00367057]


### Aplicaci√≥n: Similitud Sem√°ntica

Una aplicaci√≥n pr√°ctica de los embeddings es calcular la similitud entre oraciones.

In [14]:
from sklearn.metrics.pairwise import cosine_similarity

# Definimos varias oraciones para comparar
oraciones = [
    "El perro corre por el parque",
    "Un can juega en el espacio verde",
    "El gato duerme en el sill√≥n",
    "Hace mucho calor en verano",
    "La temperatura est√° muy alta en esta √©poca"
]

# Generamos embeddings para todas las oraciones
embeddings = modelo_oraciones.encode(oraciones)

print(f"Generados {len(embeddings)} embeddings de {embeddings[0].shape[0]} dimensiones\n")

# Calculamos similitud entre la primera oraci√≥n y las dem√°s
print(f"Oraci√≥n de referencia: '{oraciones[0]}'\n")
print("Similitud con otras oraciones:")
print("-" * 70)

referencia = embeddings[0].reshape(1, -1)

for i, oracion in enumerate(oraciones[1:], 1):
    similitud = cosine_similarity(referencia, embeddings[i].reshape(1, -1))[0][0]
    print(f"{similitud:.4f} | {oracion}")

Generados 5 embeddings de 768 dimensiones

Oraci√≥n de referencia: 'El perro corre por el parque'

Similitud con otras oraciones:
----------------------------------------------------------------------
0.4842 | Un can juega en el espacio verde
0.4743 | El gato duerme en el sill√≥n
0.5844 | Hace mucho calor en verano
0.4495 | La temperatura est√° muy alta en esta √©poca


### Interpretando la Similitud Coseno

La **similitud coseno** mide el √°ngulo entre dos vectores:

- **1.0**: Vectores id√©nticos (m√°xima similitud)
- **0.0**: Vectores perpendiculares (sin relaci√≥n)
- **-1.0**: Vectores opuestos (m√≠nima similitud)

En la pr√°ctica:
- **> 0.8**: Oraciones muy similares (par√°frasis)
- **0.5-0.8**: Similitud moderada (tema relacionado)
- **< 0.5**: Similitud baja (temas diferentes)

En nuestro ejemplo, esperamos que:
- "Un can juega en el espacio verde" tenga alta similitud (es una par√°frasis)
- "El gato duerme en el sill√≥n" tenga similitud media (tema relacionado: mascotas)
- "Hace mucho calor en verano" tenga baja similitud (tema diferente)

## Ejercicio Pr√°ctico: B√∫squeda Sem√°ntica

Vamos a implementar un buscador sem√°ntico simple.

In [15]:
# Base de datos de documentos (simulada)
documentos = [
    "El mate es una bebida tradicional argentina que se prepara con yerba",
    "El asado argentino se caracteriza por su cocci√≥n lenta sobre brasas",
    "Buenos Aires es la capital de Argentina y su ciudad m√°s poblada",
    "El tango es un g√©nero musical nacido en los suburbios de Buenos Aires",
    "La Patagonia argentina es conocida por sus paisajes monta√±osos y glaciares",
    "El dulce de leche es un producto t√≠pico de la reposter√≠a rioplatense",
    "El f√∫tbol es el deporte m√°s popular en Argentina",
    "La lengua oficial de Argentina es el espa√±ol rioplatense"
]

# Generamos embeddings de todos los documentos
embeddings_documentos = modelo_oraciones.encode(documentos)
print(f"Base de datos indexada: {len(documentos)} documentos\n")

# Funci√≥n de b√∫squeda
def buscar(consulta, top_k=3):
    """
    Busca los documentos m√°s similares a la consulta.

    Par√°metros:
    - consulta: Texto de b√∫squeda
    - top_k: Cantidad de resultados a devolver
    """
    # Generamos embedding de la consulta
    embedding_consulta = modelo_oraciones.encode([consulta])

    # Calculamos similitudes
    similitudes = cosine_similarity(embedding_consulta, embeddings_documentos)[0]

    # Obtenemos los √≠ndices de los top_k m√°s similares
    # argsort(): Ordena y devuelve √≠ndices
    # [::-1]: Invertimos para orden descendente
    # [:top_k]: Tomamos los primeros k
    indices_top = similitudes.argsort()[::-1][:top_k]

    print(f"Consulta: '{consulta}'\n")
    print("Resultados:")
    print("=" * 80)
    for rank, idx in enumerate(indices_top, 1):
        print(f"\n{rank}. Similitud: {similitudes[idx]:.4f}")
        print(f"   {documentos[idx]}")

# Probamos varias consultas
buscar("¬øQu√© comidas t√≠picas hay?", top_k=3)

Base de datos indexada: 8 documentos

Consulta: '¬øQu√© comidas t√≠picas hay?'

Resultados:

1. Similitud: 0.5316
   El asado argentino se caracteriza por su cocci√≥n lenta sobre brasas

2. Similitud: 0.5267
   El dulce de leche es un producto t√≠pico de la reposter√≠a rioplatense

3. Similitud: 0.5202
   El mate es una bebida tradicional argentina que se prepara con yerba


In [16]:
print("\n" + "="*80 + "\n")
buscar("Informaci√≥n sobre m√∫sica y baile", top_k=3)



Consulta: 'Informaci√≥n sobre m√∫sica y baile'

Resultados:

1. Similitud: 0.5089
   El tango es un g√©nero musical nacido en los suburbios de Buenos Aires

2. Similitud: 0.3460
   El dulce de leche es un producto t√≠pico de la reposter√≠a rioplatense

3. Similitud: 0.3362
   El asado argentino se caracteriza por su cocci√≥n lenta sobre brasas


In [17]:
print("\n" + "="*80 + "\n")
buscar("Lugares para visitar", top_k=3)



Consulta: 'Lugares para visitar'

Resultados:

1. Similitud: 0.4803
   Buenos Aires es la capital de Argentina y su ciudad m√°s poblada

2. Similitud: 0.4789
   El dulce de leche es un producto t√≠pico de la reposter√≠a rioplatense

3. Similitud: 0.4724
   El asado argentino se caracteriza por su cocci√≥n lenta sobre brasas


### Ventajas de la B√∫squeda Sem√°ntica

A diferencia de la b√∫squeda por palabras clave tradicional:

1. **Comprende intenci√≥n**: "comidas t√≠picas" encuentra "mate", "asado", "dulce de leche" aunque no compartan palabras exactas
2. **Maneja sin√≥nimos**: "m√∫sica y baile" encuentra "tango" sin necesidad de diccionarios de sin√≥nimos
3. **Robusta a variaciones**: Funciona con diferentes formas de preguntar lo mismo
4. **Multiling√ºe**: Puede buscar en un idioma y encontrar resultados en otro (seg√∫n el modelo)

Esta tecnolog√≠a se usa en:
- Motores de b√∫squeda modernos
- Sistemas de recomendaci√≥n
- Chatbots y asistentes virtuales
- Detecci√≥n de duplicados y plagio

## Experimentaci√≥n Libre

Prob√° tu propio buscador:

In [None]:
# Agreg√° tus propios documentos
mis_documentos = [
    "Tu documento 1",
    "Tu documento 2",
    "Tu documento 3",
    # Agrega m√°s...
]

# Index√°
mis_embeddings = modelo_oraciones.encode(mis_documentos)

# Busc√°
mi_consulta = "Tu consulta aqu√≠"
embedding_consulta = modelo_oraciones.encode([mi_consulta])
similitudes = cosine_similarity(embedding_consulta, mis_embeddings)[0]

# Mostr√° resultados
for i, doc in enumerate(mis_documentos):
    print(f"{similitudes[i]:.4f} | {doc}")

## Resumen de Conceptos Clave

### Tokenizaci√≥n

1. **Tokens**: Unidades m√≠nimas que procesan los modelos (palabras, subpalabras, caracteres)
2. **Algoritmos**: BPE, WordPiece, SentencePiece dividen texto en subpalabras
3. **Diferencias entre modelos**: Cada modelo tiene su propia estrategia de tokenizaci√≥n
4. **Impacto**: Afecta eficiencia, manejo de idiomas, y representaci√≥n de palabras raras

### Embeddings

1. **Representaci√≥n vectorial**: Texto convertido en n√∫meros (vectores)
2. **Embeddings contextualizados**: El vector cambia seg√∫n el contexto (BERT, DeBERTa)
3. **Embeddings de oraciones**: Un vector para toda la oraci√≥n (Sentence-BERT)
4. **Similitud sem√°ntica**: Vectores similares representan significados similares

### Aplicaciones Pr√°cticas

1. **B√∫squeda sem√°ntica**: Encontrar documentos por significado, no por palabras
2. **Clustering**: Agrupar textos similares
3. **Clasificaci√≥n**: Categorizar textos bas√°ndose en embeddings
4. **Sistemas de recomendaci√≥n**: Sugerir contenido similar
5. **Detecci√≥n de duplicados**: Identificar textos equivalentes

## Gu√≠a de Preguntas y Respuestas

### Preguntas de Comprensi√≥n

**1. ¬øQu√© es un token y por qu√© los modelos usan subpalabras en lugar de palabras completas?**

<details>
<summary>Ver respuesta</summary>

Un token es la unidad m√≠nima de texto que un modelo procesa. Los modelos usan subpalabras por varias razones:

1. **Vocabulario manejable**: En lugar de millones de palabras posibles, usan 30,000-50,000 subpalabras
2. **Palabras raras**: Pueden representar palabras que nunca vieron combinando subpalabras conocidas
3. **Eficiencia morfol√≥gica**: Capturan ra√≠ces y afijos ("jugador", "jugando", "jugar" comparten "jug")
4. **Multiling√ºismo**: Un vocabulario puede cubrir m√∫ltiples idiomas

Ejemplo: "jugando" podr√≠a tokenizarse como ["jug", "ando"], permitiendo que el modelo reconozca la ra√≠z "jug" en otras palabras.
</details>

---

**2. ¬øQu√© diferencia hay entre embeddings est√°ticos y embeddings contextualizados?**

<details>
<summary>Ver respuesta</summary>

**Embeddings est√°ticos** (Word2Vec, GloVe):
- Cada palabra tiene un √∫nico vector fijo
- "banco" siempre tiene el mismo vector, independientemente del contexto
- Problema: No distingue "banco" (instituci√≥n financiera) de "banco" (asiento)

**Embeddings contextualizados** (BERT, DeBERTa, GPT):
- El vector cambia seg√∫n el contexto de la oraci√≥n
- "banco" en "banco de datos" tiene un vector diferente que en "sentarse en el banco"
- Ventaja: Captura el significado espec√≠fico en cada uso

Los modelos modernos usan embeddings contextualizados porque son mucho m√°s precisos para entender el significado real de las palabras.
</details>

---

**3. ¬øQu√© representa el shape [1, 5, 384] en un tensor de embeddings?**

<details>
<summary>Ver respuesta</summary>

- **1**: Batch size (n√∫mero de ejemplos procesados simult√°neamente)
- **5**: Longitud de la secuencia (n√∫mero de tokens en la oraci√≥n, incluyendo tokens especiales como [CLS] y [SEP])
- **384**: Hidden size (dimensiones del embedding, cada token se representa con 384 n√∫meros)

Ejemplo: Si procesamos "Hola mundo" con DeBERTa v3-xsmall:
- Se tokeniza como [CLS] Hola mundo [SEP] = 4 tokens
- Cada token se convierte en un vector de 384 dimensiones
- Shape final: [1, 4, 384]
</details>

---

**4. ¬øQu√© es la similitud coseno y c√≥mo se interpreta?**

<details>
<summary>Ver respuesta</summary>

La **similitud coseno** mide el √°ngulo entre dos vectores en un espacio multidimensional. Sus valores van de -1 a 1:

- **1.0**: Vectores id√©nticos (m√°xima similitud)
- **0.0**: Vectores perpendiculares (sin relaci√≥n)
- **-1.0**: Vectores opuestos (m√≠nima similitud)

En NLP, interpretamos:
- **> 0.8**: Oraciones muy similares (par√°frasis, mismo tema)
- **0.5-0.8**: Similitud moderada (temas relacionados)
- **< 0.5**: Similitud baja (temas diferentes)

Ventaja sobre la distancia euclidiana: No se afecta por la magnitud del vector, solo por la direcci√≥n (orientaci√≥n en el espacio).
</details>

---

**5. ¬øQu√© es Sentence-BERT y en qu√© se diferencia de BERT?**

<details>
<summary>Ver respuesta</summary>

**BERT**:
- Genera un embedding por cada token
- Para obtener un embedding de oraci√≥n, hay que promediar o tomar el token [CLS]
- No fue entrenado espec√≠ficamente para comparar oraciones

**Sentence-BERT (SBERT)**:
- Modificaci√≥n de BERT entrenada con pares de oraciones
- Genera un √∫nico vector de alta calidad para toda la oraci√≥n
- Optimizado para tareas de similitud y b√∫squeda sem√°ntica
- Mucho m√°s eficiente para comparar oraciones (miles de veces m√°s r√°pido)

Usos principales de SBERT:
- B√∫squeda sem√°ntica
- Clustering de documentos
- Detecci√≥n de par√°frasis
- Sistemas de recomendaci√≥n
</details>

---

### Preguntas de Aplicaci√≥n

**6. Si observ√°s que BERT uncased genera m√°s tokens que GPT-2 para el mismo texto espa√±ol, ¬øqu√© podr√≠a explicar esta diferencia?**

<details>
<summary>Ver respuesta</summary>

Posibles explicaciones:

1. **Vocabulario de entrenamiento**: GPT-2 fue entrenado con m√°s datos en espa√±ol, por lo que su vocabulario incluye m√°s palabras espa√±olas completas

2. **Algoritmo de tokenizaci√≥n**: Diferentes algoritmos (WordPiece vs BPE) fragmentan texto de manera distinta

3. **Manejo de may√∫sculas**: BERT uncased convierte todo a min√∫sculas, lo que podr√≠a no ser √≥ptimo para preservar informaci√≥n

4. **Tama√±o del vocabulario**: Vocabularios m√°s grandes tienden a generar menos tokens

Para texto espa√±ol, modelos espec√≠ficamente entrenados en espa√±ol (como BETO) ser√≠an m√°s eficientes.
</details>

---

**7. ¬øC√≥mo modificar√≠as el c√≥digo para implementar un clasificador de temas basado en embeddings?**

<details>
<summary>Ver respuesta</summary>

Estrategia:

1. **Crear embeddings de referencia por categor√≠a**:
```python
categorias = {
    "deportes": modelo_oraciones.encode(["f√∫tbol", "tenis", "competencia"]).mean(axis=0),
    "tecnolog√≠a": modelo_oraciones.encode(["computadora", "software", "programaci√≥n"]).mean(axis=0),
    "cocina": modelo_oraciones.encode(["receta", "ingredientes", "cocinar"]).mean(axis=0)
}
```

2. **Clasificar nuevo texto**:
```python
def clasificar(texto):
    embedding_texto = modelo_oraciones.encode([texto])
    similitudes = {}
    for categoria, embedding_cat in categorias.items():
        sim = cosine_similarity(embedding_texto, embedding_cat.reshape(1, -1))[0][0]
        similitudes[categoria] = sim
    return max(similitudes, key=similitudes.get)
```

Alternativamente, pod√©s entrenar un clasificador supervisado (SVM, red neuronal) usando los embeddings como features.
</details>

---

**8. Tu buscador sem√°ntico devuelve resultados poco relevantes. ¬øQu√© estrategias podr√≠as usar para mejorarlo?**

<details>
<summary>Ver respuesta</summary>

Estrategias de mejora:

1. **Usar un modelo mejor**: Probar modelos m√°s grandes o espec√≠ficos del dominio
   - Para espa√±ol: `hiiamsid/sentence_similarity_spanish_es`
   - Multiling√ºe mejorado: `sentence-transformers/paraphrase-multilingual-mpnet-base-v2`

2. **Pre-procesamiento**:
   - Limpiar texto (remover stopwords menos importantes)
   - Normalizar (min√∫sculas, acentos)

3. **Re-ranking**: Usar un modelo de dos etapas
   - Primera pasada: Recuperar top 20 con embeddings (r√°pido)
   - Segunda pasada: Re-ordenar con modelo m√°s sofisticado (lento pero preciso)

4. **Ajustar umbral**: Establecer un m√≠nimo de similitud para filtrar resultados irrelevantes

5. **Fine-tuning**: Entrenar el modelo con ejemplos de tu dominio espec√≠fico

6. **Hybrid search**: Combinar b√∫squeda sem√°ntica con b√∫squeda por palabras clave
</details>

---

**9. ¬øC√≥mo calcular√≠as el embedding promedio de un documento largo que excede el l√≠mite de tokens del modelo?**

<details>
<summary>Ver respuesta</summary>

Estrategias:

1. **Chunking con promedio**:
```python
def embedding_documento_largo(texto, modelo, max_length=512):
    # Dividir en chunks
    palabras = texto.split()
    chunks = [' '.join(palabras[i:i+max_length])
              for i in range(0, len(palabras), max_length)]
    
    # Obtener embeddings de cada chunk
    embeddings = modelo.encode(chunks)
    
    # Promediar
    return embeddings.mean(axis=0)
```

2. **Sliding window**: Chunks con solapamiento para no perder contexto

3. **Usar solo el inicio**: Si el documento sigue una estructura est√°ndar (resumen al principio)

4. **Summarizaci√≥n primero**: Resumir el documento y luego obtener embedding

5. **Modelos de contexto largo**: Usar modelos con mayor l√≠mite (Longformer, BigBird)
</details>

---

**10. Implement√° una funci√≥n que agrupe autom√°ticamente noticias similares usando clustering con embeddings.**

<details>
<summary>Ver respuesta</summary>

```python
from sklearn.cluster import KMeans
import numpy as np

def agrupar_noticias(noticias, n_clusters=3):
    """
    Agrupa noticias similares usando K-means sobre embeddings.
    
    Par√°metros:
    - noticias: Lista de textos de noticias
    - n_clusters: N√∫mero de grupos a formar
    """
    # Generar embeddings
    embeddings = modelo_oraciones.encode(noticias)
    
    # Clustering
    kmeans = KMeans(n_clusters=n_clusters, random_state=42)
    clusters = kmeans.fit_predict(embeddings)
    
    # Organizar resultados
    grupos = {i: [] for i in range(n_clusters)}
    for noticia, cluster in zip(noticias, clusters):
        grupos[cluster].append(noticia)
    
    # Mostrar
    for i, noticias_cluster in grupos.items():
        print(f"\nGrupo {i+1}:")
        for noticia in noticias_cluster:
            print(f"  - {noticia[:60]}...")
    
    return grupos

# Ejemplo de uso:
noticias = [
    "El gobierno anuncia nuevas medidas econ√≥micas",
    "R√©cord de asistencia en el partido de f√∫tbol",
    "La inflaci√≥n alcanza un nuevo m√°ximo hist√≥rico",
    "El equipo nacional clasifica al mundial",
    "Aumentan las tasas de inter√©s bancarias"
]

agrupar_noticias(noticias, n_clusters=2)
```

Esto agrupar√° autom√°ticamente noticias de econom√≠a vs deportes.
</details>

---

### Preguntas de Reflexi√≥n

**11. ¬øPor qu√© los embeddings contextualizados son superiores a los est√°ticos para la mayor√≠a de las tareas de NLP modernas?**

<details>
<summary>Ver respuesta</summary>

Los embeddings contextualizados son superiores porque:

1. **Desambiguaci√≥n**: Resuelven la polisemia (palabras con m√∫ltiples significados)
   - "banco" financiero vs "banco" de plaza
   - "vino" (bebida) vs "vino" (verbo venir)

2. **Capturan sintaxis**: Entienden relaciones gramaticales y dependencias

3. **Adaptaci√≥n al contexto**: El mismo concepto puede tener matices diferentes seg√∫n el contexto

4. **Mayor precisi√≥n**: En tareas como QA, NER, sentiment analysis, superan consistentemente a embeddings est√°ticos

5. **Transfer learning**: Pre-entrenados en grandes corpus, se adaptan bien a dominios espec√≠ficos

Sin embargo, embeddings est√°ticos a√∫n tienen ventajas:
- M√°s r√°pidos y livianos
- √ötiles cuando el contexto no importa (ej: b√∫squeda de palabras clave)
- Interpretativos (puedes analizar el espacio de embeddings)
</details>

---

**12. ¬øQu√© consideraciones √©ticas hay al usar embeddings para sistemas de recomendaci√≥n o b√∫squeda?**

<details>
<summary>Ver respuesta</summary>

Consideraciones importantes:

1. **Sesgos en los datos**: Los embeddings reflejan sesgos del corpus de entrenamiento
   - G√©nero: "doctor" podr√≠a asociarse m√°s con "hombre" que "mujer"
   - Raza, nacionalidad, religi√≥n: Pueden contener estereotipos

2. **Burbujas de filtro**: Recomendar solo contenido similar puede limitar la exposici√≥n a ideas diversas

3. **Privacidad**: Los embeddings pueden revelar informaci√≥n sensible sobre preferencias del usuario

4. **Representaci√≥n cultural**: Modelos entrenados mayormente en ingl√©s pueden ser menos efectivos para otras culturas

5. **Explicabilidad**: Es dif√≠cil explicar por qu√© un embedding considera dos cosas similares

Mitigaciones:
- Auditar embeddings para detectar sesgos
- Usar datos de entrenamiento diversos y balanceados
- Implementar diversidad en recomendaciones
- Ser transparente sobre limitaciones del sistema
- Permitir control del usuario sobre las recomendaciones
</details>

---

### Desaf√≠os Adicionales

**Desaf√≠o 1**: Implement√° un sistema que detecte noticias duplicadas o muy similares en un conjunto de datos, usando un umbral de similitud configurable.

**Desaf√≠o 2**: Cre√° un visualizador de embeddings usando PCA o t-SNE para reducir las dimensiones a 2D y graficar con matplotlib.

**Desaf√≠o 3**: Constru√≠ un sistema de recomendaci√≥n de art√≠culos: dado un art√≠culo que te gust√≥, encuentra los 5 m√°s similares en una colecci√≥n.

---

## Referencias y Recursos Adicionales

- [Sentence-BERT Paper](https://arxiv.org/abs/1908.10084)
- [BERT Paper](https://arxiv.org/abs/1810.04805)
- [DeBERTa Paper](https://arxiv.org/abs/2006.03654)
- [Hugging Face Tokenizers](https://huggingface.co/docs/tokenizers/index)
- [Sentence-Transformers Documentation](https://www.sbert.net/)