In [1]:
import pandas as pd
import re
import spacy
import nltk
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [2]:
nltk.download('stopwords')
nltk.download('punkt')
nltk.download("punkt_tab")

!python -m spacy download es_core_news_sm

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/erichuiza/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/erichuiza/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /Users/erichuiza/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m57.4 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.3.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [3]:
nlp = spacy.load("es_core_news_sm")
stop_words = set(nltk.corpus.stopwords.words('spanish'))

In [4]:
def process_and_normalize(documents):
    """
    Combina tokenización y normalización en un solo paso.

    Args:
        documents (list): Una lista de cadenas de texto.

    Returns:
        list: Una lista de documentos normalizados listos para vectorizar.
    """
    normalized_list = []
    for doc in documents:
        # Pasa el documento completo por el pipeline de spaCy
        # Esto tokeniza, lematiza, y etiqueta el texto
        processed_doc = nlp(re.sub(r'[^\w\s]', '', doc.lower()))

        # Filtra los tokens para eliminar stopwords y no alfabéticos
        normalized_words = [
            token.lemma_ for token in processed_doc
            if token.is_alpha and token.text not in stop_words
        ]
        # Une las palabras normalizadas en una sola cadena
        normalized_list.append(" ".join(normalized_words))
    return normalized_list

In [5]:
corpus = [
    "El gato negro salta sobre la mesa.",
    "El perro salta sobre la cerca."
]

print("1. Corpus original:")
print(corpus)

# Tokenización y Normalización ---
normalized_corpus = process_and_normalize(corpus)

print("\n2. Corpus normalizado (lemas):")
print(normalized_corpus)

# Representación Numérica ---
## Representación con Bag of Words (BoW)
print("\n--- Bag of Words (BoW) ---")
vectorizer_bow = CountVectorizer()
bow_matrix = vectorizer_bow.fit_transform(normalized_corpus)

df_bow = pd.DataFrame(bow_matrix.toarray(), columns=vectorizer_bow.get_feature_names_out())
df_bow.index = [f"Doc {i+1}" for i in range(len(corpus))]

print("Matriz de conteos (frecuencia de palabras):")
print(df_bow)

## Representación con TF-IDF
print("\n--- TF-IDF ---")
vectorizer_tfidf = TfidfVectorizer()
tfidf_matrix = vectorizer_tfidf.fit_transform(normalized_corpus)

df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer_tfidf.get_feature_names_out())
df_tfidf.index = [f"Doc {i+1}" for i in range(len(corpus))]

print("Matriz de valores TF-IDF:")
print(df_tfidf)

# Análisis y Comparación ---
print("\n4. Comparación y conclusiones:")
print("Las matrices de BoW y TF-IDF tienen el mismo vocabulario, pero sus valores son diferentes.")
print("- BoW: Usa conteos simples. Las palabras como 'saltar' tienen el mismo peso en ambos documentos (1).")
print("- TF-IDF: Asigna un peso mayor a las palabras distintivas. 'gato' y 'negro' en el Doc 1 y 'perro' y 'cerca' en el Doc 2 tienen valores más altos, haciéndolas más importantes para la distinción de los documentos.")

1. Corpus original:
['El gato negro salta sobre la mesa.', 'El perro salta sobre la cerca.']

2. Corpus normalizado (lemas):
['gato negro salta mesa', 'perro salta cerca']

--- Bag of Words (BoW) ---
Matriz de conteos (frecuencia de palabras):
       cerca  gato  mesa  negro  perro  salta
Doc 1      0     1     1      1      0      1
Doc 2      1     0     0      0      1      1

--- TF-IDF ---
Matriz de valores TF-IDF:
          cerca      gato      mesa     negro     perro     salta
Doc 1  0.000000  0.534046  0.534046  0.534046  0.000000  0.379978
Doc 2  0.631667  0.000000  0.000000  0.000000  0.631667  0.449436

4. Comparación y conclusiones:
Las matrices de BoW y TF-IDF tienen el mismo vocabulario, pero sus valores son diferentes.
- BoW: Usa conteos simples. Las palabras como 'saltar' tienen el mismo peso en ambos documentos (1).
- TF-IDF: Asigna un peso mayor a las palabras distintivas. 'gato' y 'negro' en el Doc 1 y 'perro' y 'cerca' en el Doc 2 tienen valores más altos, haciéndo