# Bag of Words

## ¿Alguna vez te preguntaste...?

* ¿Cómo sabe Gmail que un correo es spam?
* ¿Cómo Netflix decide qué película recomendarte?
* ¿Cómo Google encuentra páginas relevantes cuando buscas algo?
* ¿Cómo funciona el autocompletado de tu teclado?

**La respuesta**: Las computadoras necesitan convertir el texto en números para poder "entenderlo".

### El problema fundamental
Las computadoras solo entienden números (0, 1, 2, 3...), pero nosotros nos comunicamos con palabras.

**Bag of Words** es la técnica más simple y fundamental para resolver este problema.

## 1. ¿Qué es Bag of Words? (La Bolsa de Palabras)

Imagina que tienes una bolsa mágica:

1. **Tomas un texto** → "El perro come carne"
2. **Cortas cada palabra** → ["El", "perro", "come", "carne"]
3. **Las metes en la bolsa** y las agitas
4. **Cuentas cuántas hay de cada una**

### Resultado: Un "recibo" con cantidades
- "El": 1 vez
- "perro": 1 vez  
- "come": 1 vez
- "carne": 1 vez

**¡Eso es Bag of Words!** Convertimos texto en una lista de números.

## 2. Ejercicio Manual: ¡Hazlo tú mismo!

Antes de usar la computadora, practiquemos a mano.

### Nuestros textos de ejemplo:
1. "El perro ladra fuerte"
2. "El gato come pescado"
3. "El perro come carne"

### Paso 1: Encuentra todas las palabras únicas
Escribe aquí todas las palabras diferentes que encuentres:

_Respuesta: El, perro, ladra, fuerte, gato, come, pescado, carne_

### Paso 2: Crea la tabla manualmente

| Texto | El | perro | ladra | fuerte | gato | come | pescado | carne |
|-------|----|----- |-------|--------|------|------|---------|-------|
| Texto 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 |
| Texto 2 | 1 | 0 | 0 | 0 | 1 | 1 | 1 | 0 |
| Texto 3 | 1 | 1 | 0 | 0 | 0 | 1 | 0 | 1 |

¡Felicidades! Acabas de crear tu primera representación Bag of Words.

## 3. Ahora con Python: ¡Automático!

Obviamente, hacer esto a mano con miles de textos sería imposible. Python lo hace automáticamente.

In [None]:
# Importamos la herramienta mágica
from sklearn.feature_extraction.text import CountVectorizer
import pandas as pd

# Nuestros textos (igual que antes)
textos = [
    "El perro ladra fuerte",
    "El gato come pescado",
    "El perro come carne"
]

print("Nuestros textos originales:")
for i, texto in enumerate(textos):
    print(f"Texto {i+1}: {texto}")

In [None]:
# Creamos el "contador automático"
contador = CountVectorizer()

# Le damos nuestros textos para que haga la magia
matriz_numeros = contador.fit_transform(textos)

# Vemos qué palabras encontró
palabras_encontradas = contador.get_feature_names_out()
print("Palabras únicas encontradas:")
print(palabras_encontradas)

print(f"\nTotal de palabras únicas: {len(palabras_encontradas)}")

In [None]:
# Convertimos a una tabla bonita para ver mejor
tabla_bow = pd.DataFrame(
    matriz_numeros.toarray(),
    columns=palabras_encontradas,
    index=["Texto 1", "Texto 2", "Texto 3"]
)

print("Nuestra tabla Bag of Words:")
print(tabla_bow)

## 4. ¡Momento de Reflexión!

### Observa la tabla anterior y responde:

1. **¿Qué textos son más parecidos?** (Pista: mira qué columnas tienen números similares)
2. **¿Qué palabra aparece en todos los textos?**
3. **¿Qué palabras son únicas de cada texto?**

### La magia de los números:
- **Texto 1 y 3** comparten "el" y "perro" → son más parecidos
- **"El"** aparece en todos → es muy común (¡quizás no tan importante!)
- **"ladra", "gato", "pescado"** son únicas → definen mejor cada texto

## 5. Ejemplo Real: Detector de Spam

Ahora veamos cómo esto funciona para algo útil: ¡detectar correos spam!

In [None]:
# Emails de ejemplo
emails = [
    "Reunión mañana a las 9am en la oficina",  # Normal
    "OFERTA ESPECIAL! COMPRE AHORA! DINERO FÁCIL!",  # Spam
    "Hola mamá, ¿cómo estás? Te extraño mucho",  # Normal
    "¡¡¡GANE MILLONES!!! CLICK AQUÍ URGENTE!!!",  # Spam
    "Adjunto el informe que me pediste ayer"  # Normal
]

# Las etiquetas reales (lo que queremos predecir)
etiquetas = ["Normal", "Spam", "Normal", "Spam", "Normal"]

print("Nuestros emails de ejemplo:")
for i, (email, tipo) in enumerate(zip(emails, etiquetas)):
    print(f"{i+1}. [{tipo}] {email}")

In [None]:
# Aplicamos Bag of Words a los emails
contador_email = CountVectorizer()
matriz_emails = contador_email.fit_transform(emails)

# Creamos la tabla
palabras_emails = contador_email.get_feature_names_out()
tabla_emails = pd.DataFrame(
    matriz_emails.toarray(),
    columns=palabras_emails,
    index=[f"Email {i+1} ({tipo})" for i, tipo in enumerate(etiquetas)]
)

print("Tabla Bag of Words de los emails:")
# Mostramos solo algunas columnas para que sea legible
columnas_interesantes = ['oferta', 'especial', 'dinero', 'gane', 'reunión', 'mamá', 'informe']
columnas_existentes = [col for col in columnas_interesantes if col in tabla_emails.columns]

if columnas_existentes:
    print(tabla_emails[columnas_existentes])
else:
    print(tabla_emails.iloc[:, :8])  # Mostramos las primeras 8 columnas

In [None]:
# ¡Busquemos palabras que griten "SPAM"!
print("Análisis de palabras sospechosas:")
print("\nPalabras que aparecen en emails de SPAM:")

# Vemos todas las palabras únicas
todas_palabras = contador_email.get_feature_names_out()
print(f"Total de palabras únicas encontradas: {len(todas_palabras)}")
print("\nPrimeras 15 palabras:")
print(list(todas_palabras[:15]))

## 6. ¿Por qué funciona?

### La intuición:
- **Emails normales** usan palabras como: "reunión", "informe", "mamá", "ayer"
- **Emails spam** usan palabras como: "oferta", "dinero", "gratis", "urgente"

### Con Bag of Words:
1. Convertimos cada email en números
2. La computadora aprende qué números se asocian con spam
3. ¡Puede predecir nuevos emails!

### Es como enseñarle a un niño:
- "Cuando veas muchas palabras como OFERTA, GRATIS, DINERO juntas → probablemente es spam"
- "Cuando veas palabras como reunión, informe, adjunto → probablemente es trabajo"

## 7. Ejercicio Práctico: ¡Tu Turno!

Analiza estos comentarios de una tienda online:

In [None]:
# Comentarios de productos
comentarios = [
    "Excelente producto, muy buena calidad, lo recomiendo",
    "Terrible, no funciona, quiero mi dinero de vuelta",
    "Perfecto, justo lo que necesitaba, cinco estrellas",
    "Pésimo servicio, nunca llegó, muy decepcionado",
    "Increíble calidad, superó mis expectativas completamente"
]

# ¿Puedes predecir cuáles son positivos y negativos?
print("Comentarios de clientes:")
for i, comentario in enumerate(comentarios):
    print(f"{i+1}. {comentario}")

print("\nPregunta: ¿Cuáles crees que son positivos y cuáles negativos?")

In [None]:
# Apliquemos Bag of Words
contador_comentarios = CountVectorizer()
matriz_comentarios = contador_comentarios.fit_transform(comentarios)

# Veamos las palabras
palabras_comentarios = contador_comentarios.get_feature_names_out()
tabla_comentarios = pd.DataFrame(
    matriz_comentarios.toarray(),
    columns=palabras_comentarios,
    index=[f"Comentario {i+1}" for i in range(len(comentarios))]
)

print("Bag of Words de los comentarios:")
print(f"Total de palabras únicas: {len(palabras_comentarios)}")
print("\nAlgunas palabras encontradas:")
print(list(palabras_comentarios))

In [None]:
# Busquemos pistas
print("Análisis de sentimientos:")
print("\nPalabras que sugieren POSITIVO:")
palabras_positivas = [p for p in palabras_comentarios if p in ['excelente', 'buena', 'recomiendo', 'perfecto', 'increíble', 'cinco', 'estrellas']]
print(palabras_positivas)

print("\nPalabras que sugieren NEGATIVO:")
palabras_negativas = [p for p in palabras_comentarios if p in ['terrible', 'pésimo', 'nunca', 'decepcionado', 'vuelta']]
print(palabras_negativas)

# Mostramos solo esas columnas importantes
columnas_importantes = palabras_positivas + palabras_negativas
if columnas_importantes:
    print("\nTabla con palabras clave:")
    print(tabla_comentarios[columnas_importantes])

## 8. Limitaciones: ¿Qué perdemos?

Bag of Words es poderoso, pero tiene limitaciones:

### Perdemos el orden:
- "No me gusta nada" vs "Me gusta mucho"
- Ambos tienen las mismas palabras, ¡pero significados opuestos!

### Perdemos el contexto:
- "El banco del parque" vs "El banco donde guardo mi dinero"
- "Banco" significa cosas diferentes, pero BoW no lo sabe

### Pero aún así funciona porque:
- Con miles de textos, los patrones emergen
- Es rápido y simple
- Es la base para técnicas más avanzadas

## 9. ¿Dónde se usa en la vida real?

### Gmail - Detección de Spam
Analiza millones de emails para identificar patrones de spam

### Amazon - Análisis de Reviews
Clasifica automáticamente si una reseña es positiva o negativa

### Google News - Agrupación de Noticias
Agrupa noticias similares usando las palabras que contienen

### Buscadores
Encuentran páginas relevantes comparando tu búsqueda con el contenido

### Redes Sociales
Analizan sentimientos en posts y comentarios masivamente

## 10. Resumen: Lo que aprendimos

### Conceptos clave:
1. **Bag of Words** convierte texto en números contando palabras
2. Es como hacer un "inventario" de cada documento
3. Permite a las computadoras "comparar" textos matemáticamente
4. Se usa en spam, sentiment analysis, recomendaciones, etc.

### Herramientas:
- `CountVectorizer` de scikit-learn hace toda la magia
- Pandas nos ayuda a visualizar los resultados

### Próximos pasos:
- **TF-IDF**: Una versión más inteligente que da menos peso a palabras muy comunes
- **N-gramas**: Capturar frases como "muy bueno" en lugar de palabras sueltas
- **Word Embeddings**: Representaciones más sofisticadas que capturan significado

### La gran lección:
¡Convertir palabras en números es el primer paso para que las máquinas "entiendan" el lenguaje humano!

## Tarea (Opcional)

1. **Piensa en 3 aplicaciones** donde Bag of Words podría ser útil en tu vida diaria

2. **Experimenta**: Cambia los textos en los ejemplos por otros que te interesen

3. **Reflexiona**: ¿Qué pasaría si tuviéramos 1 millón de documentos? ¿Sigue siendo práctica esta aproximación?

---

**¡Felicidades!**

Ahora entiendes uno de los conceptos fundamentales del procesamiento de lenguaje natural. ¡Es el primer paso hacia la inteligencia artificial!