In [2]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer
import re
import spacy
import nltk

In [3]:
nlp = spacy.load("es_core_news_sm")
stop_words = set(nltk.corpus.stopwords.words('spanish'))

In [4]:
def normalize_text(documents):
    """
    Normaliza una lista de documentos eliminando puntuación, convirtiendo a minúsculas,
    eliminando stopwords y lematizando.

    Args:
        documents (list): Una lista de cadenas de texto.

    Returns:
        list: Una lista de documentos normalizados.
    """
    normalized_list = []
    for doc in documents:
        # Pasa el documento completo por el pipeline de spaCy
        processed_doc = nlp(re.sub(r'[^\w\s]', '', doc.lower()))

        # Filtra tokens para lematizar, eliminando stopwords y no alfabéticos
        normalized_words = [
            token.lemma_ for token in processed_doc
            if token.is_alpha and token.text not in stop_words
        ]
        # Une las palabras normalizadas en una sola cadena
        normalized_list.append(" ".join(normalized_words))
    return normalized_list


In [5]:
corpus = [
    "El gato negro salta sobre la mesa.",
    "El perro salta sobre la cerca."
]

# Normalización de documentos
normalized_corpus = normalize_text(corpus)
print("Documentos normalizados:\n", normalized_corpus)

# Crear una instancia de CountVectorizer
vectorizer = CountVectorizer()

# Transforma los documentos normalizados en una matriz de conteos
# fit_transform() aprende el vocabulario y crea la matriz en un solo paso
bow_matrix = vectorizer.fit_transform(normalized_corpus)

# Obtener el vocabulario único
vocabulario = vectorizer.get_feature_names_out()
print("\nVocabulario (palabras únicas):\n", vocabulario)

# Convierte la matriz dispersa a un array denso para una mejor visualización
bow_array = bow_matrix.toarray()

# Muestra la matriz resultante en un DataFrame de Pandas para mayor claridad
df_bow = pd.DataFrame(bow_array, columns=vocabulario, index=[f"Documento {i+1}" for i in range(len(corpus))])
print("\nMatriz de Bag of Words (conteos de frecuencia):\n")
print(df_bow)

Documentos normalizados:
 ['gato negro salta mesa', 'perro salta cerca']

Vocabulario (palabras únicas):
 ['cerca' 'gato' 'mesa' 'negro' 'perro' 'salta']

Matriz de Bag of Words (conteos de frecuencia):

             cerca  gato  mesa  negro  perro  salta
Documento 1      0     1     1      1      0      1
Documento 2      1     0     0      0      1      1
