# Sesi√≥n 2: De Palabras a Embeddings

**Curso:** Introducci√≥n a Large Language Models  
**Profesor:** Francisco P√©rez Carbajal  
**Basado en:** Hands-On Large Language Models, Chapter 1  

---

## üìö Contenido

1. **Bag-of-Words**: El enfoque cl√°sico
2. **Word2Vec**: Embeddings que capturan significado
3. **Explorando similitudes**
4. **Analog√≠as y operaciones**
5. **Visualizaci√≥n en 2D**

---

## Objetivos

- ‚úÖ Entender las limitaciones de bag-of-words
- ‚úÖ Aprender qu√© son los embeddings
- ‚úÖ Usar word2vec pre-entrenado
- ‚úÖ Calcular similitudes sem√°nticas
- ‚úÖ Visualizar embeddings

---

# Parte 1: Bag-of-Words

## El Problema

Las computadoras solo entienden n√∫meros. ¬øC√≥mo representamos texto?

**Soluci√≥n cl√°sica:** Contar palabras ‚Üí "Bag of Words"

In [None]:
# Instalar dependencias
!pip install scikit-learn gensim matplotlib -q

In [None]:
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd
import numpy as np

# Corpus de ejemplo
textos = [
    "El gato come pescado",
    "El perro come carne",
    "El gato y el perro son amigos"
]

print("üìù Documentos originales:")
for i, texto in enumerate(textos, 1):
    print(f"  {i}. {texto}")

### Crear Representaci√≥n Bag-of-Words

In [None]:
# Crear vectorizador
vectorizer = CountVectorizer()

# Transformar textos a vectores
X = vectorizer.fit_transform(textos)

# Obtener vocabulario
vocab = vectorizer.get_feature_names_out()

print(f"\nüìñ Vocabulario ({len(vocab)} palabras):")
print(vocab)

print("\nüî¢ Vectores (Bag-of-Words):")
print(X.toarray())

### Visualizaci√≥n en Tabla

In [None]:
# Crear DataFrame para visualizaci√≥n
df = pd.DataFrame(
    X.toarray(),
    columns=vocab,
    index=[f"Doc {i}" for i in range(1, len(textos)+1)]
)

print("\nüìä Tabla de Bag-of-Words:")
display(df)

### üéØ Tu Turno: Agrega tu Oraci√≥n

Modifica la lista `textos` arriba y vuelve a ejecutar las celdas.

---

## ‚ùå Limitaciones de Bag-of-Words

### Problema 1: Ignora el Orden

In [None]:
# Dos oraciones con diferente significado
oraciones = [
    "El gato persigue al rat√≥n",
    "El rat√≥n persigue al gato"  # Significado diferente!
]

vec = CountVectorizer()
X = vec.fit_transform(oraciones)

print("Oraci√≥n 1:", oraciones[0])
print("Oraci√≥n 2:", oraciones[1])
print("\n¬øMisma representaci√≥n?")
print(np.array_equal(X[0].toarray(), X[1].toarray()))  # True!

print("\nVectores:")
print(X.toarray())
print("\n‚ùå ¬°Bag-of-words no puede distinguirlos!")

### Problema 2: No Captura Significado

In [None]:
# Palabras con significado similar
oraciones_sinonimos = [
    "Vi un gato",
    "Vi un felino"  # Mismo significado
]

vec = CountVectorizer()
X = vec.fit_transform(oraciones_sinonimos)

print("Vocabulario:", vec.get_feature_names_out())
print("\nVectores:")
print(X.toarray())
print("\n‚ùå 'gato' y 'felino' son completamente diferentes!")
print("   (aunque significan lo mismo)")

### Problema 3: Alta Dimensionalidad

In [None]:
# Simular un vocabulario grande
textos_largos = [
    "El gato come pescado fresco del mar",
    "Los perros juegan en el parque grande",
    "Los p√°jaros cantan en los √°rboles altos",
    "El sol brilla sobre las monta√±as nevadas"
]

vec = CountVectorizer()
X = vec.fit_transform(textos_largos)

print(f"Vocabulario: {len(vec.get_feature_names_out())} palabras")
print(f"Tama√±o de vector por documento: {X.shape[1]} dimensiones")
print(f"\nSparsity (porcentaje de ceros): {100 * (1 - X.nnz / (X.shape[0] * X.shape[1])):.1f}%")
print("\n‚ùå La mayor√≠a son ceros ‚Üí ineficiente")

---

# Parte 2: Word2Vec - Embeddings

## üí° La Soluci√≥n

En lugar de **contar**, **aprendemos** representaciones densas que capturan significado.

**Word2Vec (2013):** "Conocer√°s una palabra por las compa√±√≠as que tiene"

## Cargar Modelo Pre-entrenado

In [None]:
import gensim.downloader as api

# Cargar modelo (puede tardar ~1 minuto la primera vez)
print("Descargando word2vec...")
print("(Esto toma ~1 min la primera vez)\n")

model = api.load('word2vec-google-news-300')

print("‚úì Modelo cargado")
print(f"‚úì Vocabulario: {len(model):,} palabras")
print(f"‚úì Dimensi√≥n de embeddings: {model.vector_size}")

## Explorar un Embedding

In [None]:
# Obtener embedding de "cat"
palabra = "cat"
embedding = model[palabra]

print(f"Embedding de '{palabra}':")
print(f"  Dimensiones: {len(embedding)}")
print(f"  Primeros 10 valores: {embedding[:10]}")
print(f"  Tipo: vector denso (todos valores diferentes)")

---

# Parte 3: Similitud Sem√°ntica

## Palabras M√°s Similares

In [None]:
# Encontrar palabras similares a "cat"
palabra = "cat"
similares = model.most_similar(palabra, topn=10)

print(f"üîç Palabras m√°s similares a '{palabra}':")
print("\nPalabra         Similitud")
print("-" * 30)
for palabra_sim, score in similares:
    print(f"{palabra_sim:15s} {score:.4f}")

### üéØ Tu Turno: Explora Palabras

In [None]:
# Prueba con diferentes palabras
palabras_explorar = ["king", "computer", "happy", "soccer"]

for palabra in palabras_explorar:
    print(f"\n{'='*40}")
    print(f"Similares a '{palabra}':")
    print(f"{'='*40}")
    similares = model.most_similar(palabra, topn=5)
    for pal, score in similares:
        print(f"  {pal:15s} {score:.4f}")

In [None]:
# Agrega tu propia palabra aqu√≠
mi_palabra = ""  # Cambia esto

if mi_palabra:
    try:
        similares = model.most_similar(mi_palabra, topn=5)
        print(f"Similares a '{mi_palabra}':")
        for pal, score in similares:
            print(f"  {pal}: {score:.4f}")
    except KeyError:
        print(f"‚ùå '{mi_palabra}' no est√° en el vocabulario")
        print("   Prueba con otra palabra en ingl√©s")

## Similitud Entre Pares

In [None]:
# Comparar similitudes
pares = [
    ("cat", "feline"),    # Sin√≥nimos
    ("cat", "dog"),       # Animales relacionados
    ("cat", "car"),       # No relacionados
    ("king", "queen"),    # Relacionados
    ("man", "woman"),     # Relacionados
]

print("üìä Similitud entre pares:\n")
print(f"{'Par':<25} Similitud")
print("-" * 40)

for palabra1, palabra2 in pares:
    similitud = model.similarity(palabra1, palabra2)
    par_str = f"{palabra1} ‚Üî {palabra2}"
    print(f"{par_str:<25} {similitud:.4f}")

---

# Parte 4: Analog√≠as

## Operaciones Famosas

**Idea:** Rey - Hombre + Mujer ‚âà Reina

In [None]:
# Analog√≠a cl√°sica: King - Man + Woman = Queen
resultado = model.most_similar(
    positive=['woman', 'king'],
    negative=['man'],
    topn=5
)

print("üëë King - Man + Woman = ?\n")
for palabra, score in resultado:
    print(f"  {palabra:15s} {score:.4f}")

print("\n‚úì ¬°El resultado es 'queen'!")

In [None]:
# M√°s ejemplos de analog√≠as
analogias = [
    {
        'nombre': 'Pa√≠ses y Capitales',
        'ecuacion': 'Paris - France + Germany = ?',
        'positive': ['Paris', 'Germany'],
        'negative': ['France']
    },
    {
        'nombre': 'Masculino/Femenino',
        'ecuacion': 'actor - man + woman = ?',
        'positive': ['actor', 'woman'],
        'negative': ['man']
    },
    {
        'nombre': 'Verbos',
        'ecuacion': 'walking - walk + swim = ?',
        'positive': ['walking', 'swim'],
        'negative': ['walk']
    }
]

for analogia in analogias:
    print(f"\n{'='*50}")
    print(f"üß™ {analogia['nombre']}")
    print(f"{'='*50}")
    print(f"Ecuaci√≥n: {analogia['ecuacion']}\n")
    
    resultado = model.most_similar(
        positive=analogia['positive'],
        negative=analogia['negative'],
        topn=3
    )
    
    for palabra, score in resultado:
        print(f"  {palabra:15s} {score:.4f}")

### üéØ Tu Turno: Crea tu Analog√≠a

In [None]:
# Dise√±a tu propia analog√≠a
# Formato: A - B + C = ?

mi_analogia = model.most_similar(
    positive=['', ''],  # A y C
    negative=[''],      # B
    topn=5
)

# Descomenta y completa:
# print("Mi analog√≠a:")
# for palabra, score in mi_analogia:
#     print(f"  {palabra}: {score:.4f}")

---

# Parte 5: Visualizaci√≥n en 2D

## Reducir Dimensiones

Embeddings tienen 300 dimensiones. Vamos a reducirlos a 2D para visualizar.

In [None]:
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt

# Seleccionar palabras para visualizar
palabras_animales = ['cat', 'dog', 'lion', 'tiger', 'elephant', 'mouse']
palabras_vehiculos = ['car', 'bus', 'truck', 'bicycle', 'motorcycle', 'train']
palabras = palabras_animales + palabras_vehiculos

# Obtener embeddings
embeddings = np.array([model[palabra] for palabra in palabras])

print(f"Embeddings originales: {embeddings.shape}")
print("Reduciendo a 2D con t-SNE...")

# Reducir dimensiones (300 ‚Üí 2)
tsne = TSNE(n_components=2, random_state=42, perplexity=5)
embeddings_2d = tsne.fit_transform(embeddings)

print(f"Embeddings reducidos: {embeddings_2d.shape}")
print("‚úì Listo para visualizar")

In [None]:
# Crear visualizaci√≥n
plt.figure(figsize=(12, 8))

# Separar por categor√≠a
x_animales = embeddings_2d[:len(palabras_animales), 0]
y_animales = embeddings_2d[:len(palabras_animales), 1]

x_vehiculos = embeddings_2d[len(palabras_animales):, 0]
y_vehiculos = embeddings_2d[len(palabras_animales):, 1]

# Graficar
plt.scatter(x_animales, y_animales, c='red', s=100, alpha=0.6, label='Animales')
plt.scatter(x_vehiculos, y_vehiculos, c='blue', s=100, alpha=0.6, label='Veh√≠culos')

# A√±adir etiquetas
for i, palabra in enumerate(palabras):
    plt.annotate(
        palabra,
        xy=(embeddings_2d[i, 0], embeddings_2d[i, 1]),
        xytext=(5, 5),
        textcoords='offset points',
        fontsize=12,
        fontweight='bold'
    )

plt.title('Visualizaci√≥n de Embeddings en 2D', fontsize=16, fontweight='bold')
plt.xlabel('Dimensi√≥n 1', fontsize=12)
plt.ylabel('Dimensi√≥n 2', fontsize=12)
plt.legend(fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print("\nüìä Observa c√≥mo:")
print("   ‚Ä¢ Animales est√°n agrupados (cluster rojo)")
print("   ‚Ä¢ Veh√≠culos est√°n agrupados (cluster azul)")
print("   ‚Ä¢ Palabras similares est√°n cerca en el espacio")

### üéØ Tu Turno: Visualiza tus Palabras

In [None]:
# Elige tus propias palabras para visualizar
mis_palabras = [
    'king', 'queen', 'prince', 'princess',  # Realeza
    'apple', 'banana', 'orange', 'grape'    # Frutas
]

# Obtener embeddings
mis_embeddings = np.array([model[w] for w in mis_palabras])

# Reducir a 2D
tsne = TSNE(n_components=2, random_state=42, perplexity=3)
mis_embeddings_2d = tsne.fit_transform(mis_embeddings)

# Graficar
plt.figure(figsize=(10, 8))
plt.scatter(mis_embeddings_2d[:, 0], mis_embeddings_2d[:, 1], s=150, alpha=0.6)

for i, palabra in enumerate(mis_palabras):
    plt.annotate(
        palabra,
        xy=(mis_embeddings_2d[i, 0], mis_embeddings_2d[i, 1]),
        fontsize=12
    )

plt.title('Mis Palabras en 2D')
plt.grid(True, alpha=0.3)
plt.show()

---

# Resumen y Reflexi√≥n

## ‚úÖ Lo que Aprendimos

### 1. Bag-of-Words
- ‚úì Representa texto contando palabras
- ‚úó Ignora orden
- ‚úó No captura significado
- ‚úó Alta dimensionalidad (sparse)

### 2. Embeddings (Word2Vec)
- ‚úì Vectores densos (300D)
- ‚úì Capturan significado sem√°ntico
- ‚úì Palabras similares ‚Üí vectores cercanos
- ‚úì Permiten operaciones (analog√≠as)

### 3. Aplicaciones
- Similitud sem√°ntica
- B√∫squeda de sin√≥nimos
- Clustering de palabras
- Base para LLMs modernos

---

## üí° Insights Clave

1. **Representaci√≥n importa:** C√≥mo representamos el lenguaje afecta todo lo dem√°s

2. **Significado en contexto:** Word2Vec aprende significado viendo vecinos

3. **Geometr√≠a sem√°ntica:** Similitud = distancia en espacio vectorial

4. **Fundamento de LLMs:** Todos los modelos modernos usan embeddings

---

## üîÆ Pr√≥xima Sesi√≥n

**Sesi√≥n 3:** Tipos de Embeddings

- Sentence embeddings (frases completas)
- Document embeddings (documentos)
- Modelos contextuales (BERT)
- Aplicaciones pr√°cticas

---

## üè† Para Explorar (Opcional)

1. Prueba m√°s palabras y analog√≠as
2. Visualiza diferentes categor√≠as sem√°nticas
3. Piensa: ¬øQu√© aplicaci√≥n podr√≠as hacer con similitud sem√°ntica?

---

## üìö Referencias

- **Libro:** Hands-On Large Language Models (Chapter 1)
- **Paper:** Mikolov et al. (2013) - "Efficient Estimation of Word Representations"
- **Biblioteca:** Gensim - https://radimrehurek.com/gensim/
- **Visualizaci√≥n:** Jay Alammar's blog - https://jalammar.github.io/

**¬øDudas?** franciscop@ciencias.unam.mx