In [9]:
#Importamos las dependencias 
import spacy
import pandas as pd
from nltk.stem import SnowballStemmer

In [4]:
#Entrada de libro y tokenización del mismo

try:
    nlp = spacy.load("es_core_news_sm")
    nlp.max_length = 2000000
except OSError:
    print("Descargando modelo....")
    from spacy.cli import download
    download("es_core_news_sm")
    nlp = spacy.load("es_core_news_sm")
    nlp.max_length = 2000000

with open("El-Caballo-de-Troya.txt", "r", encoding="utf-8") as f:
    book = f.read()

doc = nlp(book)

In [6]:
#Filtrar Stop Words

tokens_relevantes = []

for token in doc:
     if not token.is_stop and not token.is_punct and token.text.strip():
          tokens_relevantes.append(token.text)

print(f"-----Filtrado de Stop Words-------")
print(f"Palabras que se conservaron:  {tokens_relevantes[:10]}")
print(f"Cantidad de palabras: {len(tokens_relevantes)}")

-----Filtrado de Stop Words-------
Palabras que se conservaron:  ['Caballo', 'Troya', 'J.', 'J.', 'Benítez', 'WASHINGTON', 'reloj', 'señalaba', 'Faltaban', 'horas']
Cantidad de palabras: 117907


In [12]:
#Etapa de Lematización

tokens_normalizados = []
cambios = []

for token in doc:
    if not token.is_stop and not token.is_punct and token.text.strip():

        lema = token.lemma_.lower()
        tokens_normalizados.append(lema)
    
        if token.text.lower() != lema:
            cambios.append(f"{token.text} -> {lema}")

print("-----Lematización y Normalización-------")
print(f"Total de tokens procesados:  {len(tokens_normalizados)}")
print(f"Ejemplos de transformaciones en (Palabra original -> Lema)")
print(cambios[:20])
print(tokens_normalizados[:10])



-----Lematización y Normalización-------
Total de tokens procesados:  117907
Ejemplos de transformaciones en (Palabra original -> Lema)
['señalaba -> señalar', 'Faltaban -> faltar', 'horas -> hora', 'cerrara -> cerrar', 'puertas -> puerta', 'consumido -> consumir', 'tumbas -> tumba', 'soldados -> soldado', 'desconocidos -> desconocido', 'llama -> llamar', 'anaranjada -> anaranjado', 'reposan -> reposar', 'restos -> resto', 'leerla -> leer él', 'terminado -> terminar', 'entregado -> entregar', 'escruté -> escruter', 'levanta -> levantar', 'constituye -> constituir', 'esculpidas -> esculpir']
['caballo', 'troya', 'j.', 'j.', 'benítez', 'washington', 'reloj', 'señalar', 'faltar', 'hora']


In [11]:
#Proceso de Stemming
stemmer = SnowballStemmer("spanish")

data_comparativa = []

for token in doc:

    if not token.is_stop and not token.is_punct:

        raiz_stem = stemmer.stem(token.text)

        lema = token.lemma_

        data_comparativa.append({
            "Original": token.text,
            "Stemming (Corte)" : raiz_stem,
            "Lematización" : lema,
            "Coinciden?": raiz_stem == lema
        })

df = pd.DataFrame(data_comparativa)

print(f"\n -----Lematización vs Stemming-------")

palabras = ["puertas", "consumido", "tumbas", "soldados", "señalaba", "desconocidos"]
filtro = df[df["Original"].isin(palabras)]

print(filtro.to_string(index=False))
print("Primeros 10 ejemplos de Stemming y comparación")
print(df.head(10).to_string(index=False))


 -----Lematización vs Stemming-------
    Original Stemming (Corte) Lematización  Coinciden?
    señalaba            señal      señalar       False
     puertas            puert       puerta       False
   consumido           consum     consumir       False
      tumbas             tumb        tumba       False
    soldados             sold      soldado       False
desconocidos         desconoc  desconocido       False
      tumbas             tumb        tumba       False
    señalaba            señal      señalar       False
     puertas            puert       puerta       False
     puertas            puert       puerta       False
     puertas            puert       puerta       False
    soldados             sold      soldado       False
desconocidos         desconoc  desconocido       False
      tumbas             tumb        tumba       False
      tumbas             tumb        tumba       False
desconocidos         desconoc  desconocido       False
    soldados             s