# Análisis de Texto con Bag of Words y TF-IDF

In [2]:
# Instalamos scikit-learn si no está disponible (puede omitirse si ya está instalado)
!pip install scikit-learn

# Importamos las bibliotecas necesarias
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer  # Para procesamiento de texto
import pandas as pd  # Para manejar estructuras de datos
import numpy as np  # Para operaciones matemáticas (no se usa directamente en este código)




In [3]:
# Definimos una lista de documentos de ejemplo
documentos = [
    "El perro muerde al hombre",
    "El hombre muerde al perro",
    "El perro come carne",
    "El hombre come comida"
]

In [4]:
# Mostramos los documentos originales para referencia
print("Nuestro corpus de ejemplo:")
for i, documento in enumerate(documentos):
    print(f"Documento {i}: {documento}")


Nuestro corpus de ejemplo:
Documento 0: El perro muerde al hombre
Documento 1: El hombre muerde al perro
Documento 2: El perro come carne
Documento 3: El hombre come comida


In [5]:
## Parte 1: Bag of Words (BoW)

# Inicializamos el vectorizador BoW, que convertirá los textos en una representación de frecuencia de palabras
count_vectorizer = CountVectorizer()

# Creamos la representación BoW transformando los documentos en una matriz de frecuencias
bow_rep = count_vectorizer.fit_transform(documentos)

# Mostramos el vocabulario generado: las palabras únicas y sus índices en el modelo
print("\nVocabulario generado:", count_vectorizer.vocabulary_)

# Convertimos la matriz BoW en un DataFrame para mejor visualización
vocab = count_vectorizer.get_feature_names_out()
df_bow = pd.DataFrame(bow_rep.toarray(), columns=vocab)

# Mostramos la matriz BoW que indica la frecuencia de cada palabra en los documentos
print("\nRepresentación Bag of Words:")
print(df_bow)



Vocabulario generado: {'el': 4, 'perro': 7, 'muerde': 6, 'al': 0, 'hombre': 5, 'come': 2, 'carne': 1, 'comida': 3}

Representación Bag of Words:
   al  carne  come  comida  el  hombre  muerde  perro
0   1      0     0       0   1       1       1      1
1   1      0     0       0   1       1       1      1
2   0      1     1       0   1       0       0      1
3   0      0     1       1   1       1       0      0


In [8]:
## Parte 2: Aplicación de TF-IDF

# Inicializamos el vectorizador TF-IDF, que ajusta la importancia de las palabras en el conjunto de documentos
tfidf_vectorizer = TfidfVectorizer()

# Creamos la representación TF-IDF transformando los documentos en una matriz ponderada
tfidf_rep = tfidf_vectorizer.fit_transform(documentos)

# Convertimos la matriz TF-IDF en un DataFrame para mejor visualización
df_tfidf = pd.DataFrame(tfidf_rep.toarray(), columns=tfidf_vectorizer.get_feature_names_out())

# Mostramos la matriz TF-IDF que refleja la importancia de cada palabra en el conjunto de documentos
print("\nMatriz TF-IDF:")
print(df_tfidf)


Matriz TF-IDF:
        al     carne      come    comida        el    hombre   muerde  \
0  0.51647  0.000000  0.000000  0.000000  0.341846  0.418127  0.51647   
1  0.51647  0.000000  0.000000  0.000000  0.341846  0.418127  0.51647   
2  0.00000  0.659191  0.519714  0.000000  0.343993  0.000000  0.00000   
3  0.00000  0.000000  0.519714  0.659191  0.343993  0.420753  0.00000   

      perro  
0  0.418127  
1  0.418127  
2  0.420753  
3  0.000000  


In [7]:
# Conclusión:
# - Bag of Words representa textos como matrices de frecuencia de palabras.
# - TF-IDF ajusta esas frecuencias para reflejar la importancia de cada término en el conjunto de documentos.
# - Ambas técnicas son clave para análisis de texto, clasificación y extracción de información en modelos de aprendizaje automático.