In [None]:
# Ejemplo simplificado: Bag of Words y TF-IDF en español
# Para clase de Técnicas de Procesamiento del Habla

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Corpus simple en español - oraciones básicas
documentos = [
    "El perro muerde al hombre",
    "El hombre muerde al perro",
    "El perro come carne",
    "El hombre come comida"
]

print("Nuestro corpus de ejemplo:")
for i, doc in enumerate(documentos):
    print(f"Documento {i+1}: {doc}")

# PARTE 1: BAG OF WORDS

print("\n--- BAG OF WORDS ---")

# Inicializar el vectorizador
count_vect = CountVectorizer()

# Construir representación BoW para el corpus
bow_rep = count_vect.fit_transform(documentos)

# Ver el vocabulario
print("\nNuestro vocabulario:", count_vect.vocabulary_)

# Ver la representación BoW para los primeros 2 documentos
print("\nRepresentación BoW para 'El perro muerde al hombre':", bow_rep[0].toarray())
print("Representación BoW para 'El hombre muerde al perro':", bow_rep[1].toarray())

# Mostrar la matriz completa
vocab = count_vect.get_feature_names_out()
df_bow = pd.DataFrame(bow_rep.toarray(), columns=vocab)
print("\nMatriz completa de Bag of Words:")
print(df_bow)

# Obtener representación para un nuevo texto
nuevo_texto = ["El perro y el perro son amigos"]
temp = count_vect.transform(nuevo_texto)
print("\nRepresentación BoW para 'El perro y el perro son amigos':", temp.toarray())

# Vocabulario para el nuevo texto (palabras que no están en el vocabulario original no aparecerán)
print("\nPalabras reconocidas en el nuevo texto:",
      [(word, count) for word, count in zip(vocab, temp.toarray()[0]) if count > 0])

# PARTE 2: TF-IDF

print("\n\n--- TF-IDF ---")

# Inicializar el vectorizador TF-IDF
tfidf_vect = TfidfVectorizer()

# Construir representación TF-IDF para el corpus
tfidf_rep = tfidf_vect.fit_transform(documentos)

# Ver el vocabulario (debe ser el mismo que BoW)
print("\nVocabulario TF-IDF:", tfidf_vect.vocabulary_)

# Ver la representación TF-IDF para los primeros 2 documentos
print("\nRepresentación TF-IDF para 'El perro muerde al hombre':",
      np.round(tfidf_rep[0].toarray(), 3))
print("Representación TF-IDF para 'El hombre muerde al perro':",
      np.round(tfidf_rep[1].toarray(), 3))

# Mostrar la matriz completa TF-IDF
tfidf_vocab = tfidf_vect.get_feature_names_out()
df_tfidf = pd.DataFrame(tfidf_rep.toarray(), columns=tfidf_vocab)
print("\nMatriz completa de TF-IDF (redondeada a 3 decimales):")
print(df_tfidf.round(3))

# PARTE 3: VISUALIZACIÓN DE LA DIFERENCIA

# Crear una visualización para comparar las representaciones del documento 1
plt.figure(figsize=(12, 5))

# BoW para documento 1
plt.subplot(1, 2, 1)
plt.bar(vocab, bow_rep[0].toarray()[0])
plt.title('Bag of Words - Documento 1')
plt.xticks(rotation=45, ha='right')

# TF-IDF para documento 1
plt.subplot(1, 2, 2)
plt.bar(tfidf_vocab, tfidf_rep[0].toarray()[0])
plt.title('TF-IDF - Documento 1')
plt.xticks(rotation=45, ha='right')

plt.tight_layout()
plt.show()

# PARTE 4: COMPARACIÓN DE LAS PALABRAS MÁS IMPORTANTES

print("\n\n--- PALABRAS MÁS IMPORTANTES POR DOCUMENTO ---")

# Función para mostrar las palabras más importantes en cada representación
def palabras_importantes(doc_idx, matriz, vocabulario):
    vector = matriz[doc_idx].toarray()[0]
    # Crear un DataFrame con palabra y valor
    palabras_df = pd.DataFrame({'palabra': vocabulario, 'valor': vector})
    # Ordenar por valor y devolver todas (vocabulario pequeño)
    return palabras_df.sort_values('valor', ascending=False)

# Comparar para el documento 3 ("El perro come carne")
print("\nDocumento 3: 'El perro come carne'")
print("\nImportancia según BoW:")
print(palabras_importantes(2, bow_rep, vocab))

print("\nImportancia según TF-IDF:")
print(palabras_importantes(2, tfidf_rep, tfidf_vocab))

# PARTE 5: NUEVO DOCUMENTO CON PALABRAS FUERA DEL VOCABULARIO

print("\n\n--- DOCUMENTO NUEVO CON PALABRAS DESCONOCIDAS ---")

# Documento nuevo con palabras que no están en el vocabulario original
doc_nuevo = "La mujer pasea con su perro en el parque"
print(f"Documento nuevo: '{doc_nuevo}'")

# Transformar usando los vectorizadores existentes
bow_nuevo = count_vect.transform([doc_nuevo])
tfidf_nuevo = tfidf_vect.transform([doc_nuevo])

# Mostrar representaciones
print("\nRepresentación BoW del nuevo documento:")
print(bow_nuevo.toarray())

print("\nPalabras reconocidas en BoW:")
palabras_bow = [(word, count) for word, count in zip(vocab, bow_nuevo.toarray()[0]) if count > 0]
print(palabras_bow)

print("\nRepresentación TF-IDF del nuevo documento:")
print(np.round(tfidf_nuevo.toarray(), 3))

print("\nPalabras reconocidas en TF-IDF:")
palabras_tfidf = [(word, score) for word, score in zip(tfidf_vocab, tfidf_nuevo.toarray()[0]) if score > 0]
print([(word, round(score, 3)) for word, score in palabras_tfidf])

# CONCLUSIÓN
print("\n\n--- CONCLUSIÓN ---")
print("1. Bag of Words cuenta la frecuencia de cada palabra en un documento")
print("2. TF-IDF pondera las palabras según su importancia en el documento y rareza en el corpus")
print("3. Ambas técnicas ignoran el orden y contexto de las palabras")
print("4. Las palabras fuera del vocabulario de entrenamiento son ignoradas")
print("5. TF-IDF tiende a dar mayor importancia a palabras más discriminativas")

In [5]:
# PARTE 6: N-GRAMAS PARA TÉRMINOS COMPUESTOS (INCLUYE TRIGRAMAS)
print("\n\n--- N-GRAMAS PARA TÉRMINOS COMPUESTOS ---")
print("Problema: ¿Cómo manejar términos como 'Buenos Aires' o 'Mar del Plata'?")

# Corpus simple con términos compuestos
corpus = [
    "Buenos Aires es la capital de Argentina",
    "Mar del Plata es una ciudad costera",
    "La Inteligencia Artificial está en auge",
    "Visité Mar del Plata y Buenos Aires el verano pasado"
]

print("\nNuestro corpus:")
for i, doc in enumerate(corpus):
    print(f"Documento {i+1}: {doc}")

# 1. Problema: usando solo palabras individuales
from sklearn.feature_extraction.text import CountVectorizer

print("\n1. PROBLEMA: CON PALABRAS INDIVIDUALES (UNIGRAMAS)")
# Vectorizador estándar (solo palabras individuales)
vectorizer_simple = CountVectorizer()
X_simple = vectorizer_simple.fit_transform(corpus)

# Ver vocabulario
vocab_simple = vectorizer_simple.get_feature_names_out()
print("\nVocabulario (palabras individuales):")
print(sorted(vocab_simple))

# Mostrar matriz para palabras específicas
print("\nMatriz de BoW para palabras clave (solo unigramas):")
df_simple = pd.DataFrame(X_simple.toarray(), columns=vocab_simple)
palabras_interes = ['buenos', 'aires', 'mar', 'del', 'plata', 'inteligencia', 'artificial']
df_filtrado = df_simple[palabras_interes]

# Agregar etiquetas de documentos para mayor claridad
df_filtrado.index = [
    "Doc 1: Buenos Aires...",
    "Doc 2: Mar del Plata...",
    "Doc 3: Inteligencia Artificial...",
    "Doc 4: ...Mar del Plata y Buenos Aires..."
]
print(df_filtrado)

print("\nEn el enfoque de unigramas:")
print("- Doc 1: 'Buenos' y 'Aires' aparecen como palabras separadas")
print("- Doc 2: 'Mar', 'del' y 'Plata' aparecen como tres palabras separadas")
print("- Doc 4: Contiene tanto 'Buenos Aires' como 'Mar del Plata' pero solo vemos palabras individuales")
print("No podemos saber que estas palabras forman términos compuestos.")

# 2. Solución con bigramas
print("\n2. SOLUCIÓN PARCIAL: INCLUIR PARES DE PALABRAS (BIGRAMAS)")
vectorizer_bigram = CountVectorizer(ngram_range=(1, 2))  # Incluye unigramas y bigramas
X_bigram = vectorizer_bigram.fit_transform(corpus)

# Ver parte del vocabulario
vocab_bigram = vectorizer_bigram.get_feature_names_out()
print(f"\nEl vocabulario ahora incluye {len(vocab_bigram)} términos (contra {len(vocab_simple)} anteriormente)")

# Mostrar bigramas de interés
bigramas_interes = ['buenos aires', 'mar del', 'del plata', 'inteligencia artificial']
print("\nBigramas importantes que ahora están en nuestro vocabulario:")
for bigrama in bigramas_interes:
    if bigrama in vocab_bigram:
        print(f"- '{bigrama}' ✓")

# Mostrar matriz para los términos de interés
print("\nMatriz de BoW con bigramas (columnas seleccionadas):")
columnas = ['buenos', 'aires', 'buenos aires', 'mar', 'del', 'plata', 'mar del', 'del plata',
            'inteligencia', 'artificial', 'inteligencia artificial']
columnas_presentes = [col for col in columnas if col in vocab_bigram]

df_bigram = pd.DataFrame(X_bigram.toarray(), columns=vocab_bigram)
df_bigram_filtrado = df_bigram[columnas_presentes]

# Agregar etiquetas de documentos
df_bigram_filtrado.index = [
    "Doc 1: Buenos Aires...",
    "Doc 2: Mar del Plata...",
    "Doc 3: Inteligencia Artificial...",
    "Doc 4: ...Mar del Plata y Buenos Aires..."
]
print(df_bigram_filtrado)

print("\nCon bigramas mejoramos, pero aún hay un problema:")
print("- Para 'Buenos Aires' funciona bien (es un bigrama)")
print("- Para 'Mar del Plata', capturamos 'mar del' y 'del plata', pero no el término completo")
print("- Necesitamos trigramas para capturar 'Mar del Plata' como una unidad")

# 3. Solución completa: incluir trigramas
print("\n3. SOLUCIÓN COMPLETA: INCLUIR BIGRAMAS Y TRIGRAMAS")
vectorizer_trigram = CountVectorizer(ngram_range=(1, 3))  # Incluye unigramas, bigramas y trigramas
X_trigram = vectorizer_trigram.fit_transform(corpus)

# Ver parte del vocabulario
vocab_trigram = vectorizer_trigram.get_feature_names_out()
print(f"\nEl vocabulario ahora incluye {len(vocab_trigram)} términos")

# Buscar trigramas específicos
trigramas_interes = ['mar del plata']
print("\nTrigramas importantes que ahora están en nuestro vocabulario:")
for trigrama in trigramas_interes:
    if trigrama in vocab_trigram:
        print(f"- '{trigrama}' ✓")

# Mostrar matriz para los términos de interés
print("\nMatriz de BoW con trigramas (columnas seleccionadas):")
columnas = ['buenos', 'aires', 'buenos aires',
            'mar', 'del', 'plata', 'mar del', 'del plata', 'mar del plata',
            'inteligencia', 'artificial', 'inteligencia artificial']
columnas_presentes = [col for col in columnas if col in vocab_trigram]

df_trigram = pd.DataFrame(X_trigram.toarray(), columns=vocab_trigram)
df_trigram_filtrado = df_trigram[columnas_presentes]

# Agregar etiquetas de documentos
df_trigram_filtrado.index = [
    "Doc 1: Buenos Aires...",
    "Doc 2: Mar del Plata...",
    "Doc 3: Inteligencia Artificial...",
    "Doc 4: ...Mar del Plata y Buenos Aires..."
]
print(df_trigram_filtrado)

print("\nInterpretación de la matriz con trigramas:")
print("- Doc 2: Ahora tenemos 'mar' (1), 'del' (1), 'plata' (1), 'mar del' (1), 'del plata' (1), Y 'mar del plata' (1)")
print("- Doc 4: Contiene tanto el bigrama 'buenos aires' (1) como el trigrama 'mar del plata' (1)")
print("\nAhora capturamos correctamente ambos términos compuestos en su forma completa")

# 4. Comparación y conclusión
print("\n4. COMPARACIÓN Y CONCLUSIÓN")

print("Con unigramas (palabras individuales):")
print("- Perdemos la información de términos compuestos")
print("- 'Mar', 'del' y 'Plata' se tratan como palabras sin relación")

print("\nCon bigramas (pares de palabras):")
print("- Capturamos términos de dos palabras como 'Buenos Aires'")
print("- Para 'Mar del Plata' solo tenemos los pares parciales 'mar del' y 'del plata'")

print("\nCon trigramas (tríos de palabras):")
print("- Capturamos términos como 'Mar del Plata' completos")
print("- Ideal para nombres propios, términos técnicos o frases comunes de 3 palabras")

print("\nConclusión:")
print("- Es recomendable usar combinaciones de unigramas, bigramas y trigramas")
print("- ngram_range=(1, 3) en CountVectorizer/TfidfVectorizer hace esto automáticamente")
print("- Mejora significativamente el rendimiento en análisis de textos en español donde")
print("  los términos compuestos son frecuentes (nombres de lugares, términos técnicos, etc.)")



--- N-GRAMAS PARA TÉRMINOS COMPUESTOS ---
Problema: ¿Cómo manejar términos como 'Buenos Aires' o 'Mar del Plata'?

Nuestro corpus:
Documento 1: Buenos Aires es la capital de Argentina
Documento 2: Mar del Plata es una ciudad costera
Documento 3: La Inteligencia Artificial está en auge
Documento 4: Visité Mar del Plata y Buenos Aires el verano pasado

1. PROBLEMA: CON PALABRAS INDIVIDUALES (UNIGRAMAS)

Vocabulario (palabras individuales):
['aires', 'argentina', 'artificial', 'auge', 'buenos', 'capital', 'ciudad', 'costera', 'de', 'del', 'el', 'en', 'es', 'está', 'inteligencia', 'la', 'mar', 'pasado', 'plata', 'una', 'verano', 'visité']

Matriz de BoW para palabras clave (solo unigramas):
                                           buenos  aires  mar  del  plata  \
Doc 1: Buenos Aires...                          1      1    0    0      0   
Doc 2: Mar del Plata...                         0      0    1    1      1   
Doc 3: Inteligencia Artificial...               0      0    0    0     