<a href="https://colab.research.google.com/github/gustavovazquez/ML/blob/main/02%20NLP_lemmatizacion_y_stemming.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Lematización y Stemming

En este notebook veremos cómo aplicar **lematización** usando `spaCy` y **stemming** usando `NLTK`. Ambas técnicas permiten reducir las palabras a su forma base, pero lo hacen de formas distintas.

In [None]:
#!python -m spacy download es_core_news_sm

In [None]:
# Importar bibliotecas necesarias
import spacy
nlp = spacy.load('es_core_news_sm')

In [None]:
# Definir un texto de ejemplo
texto = "Los niños estaban corriendo por el parque mientras sus padres los observaban desde lejos."

In [None]:
# Tokenizar y aplicar lematización con spaCy
doc = nlp(texto)
print("Lematización con spaCy:")
for token in doc:
    print(f"{token.text:15} -> {token.lemma_}")

Lematización con spaCy:
Los             -> el
niños           -> niño
estaban         -> estar
corriendo       -> correr
por             -> por
el              -> el
parque          -> parque
mientras        -> mientras
sus             -> su
padres          -> padre
los             -> él
observaban      -> observar
desde           -> desde
lejos           -> lejos
.               -> .


### Comparación entre lematización y stemming

- **Lematización** devuelve la forma base real (canónica) de una palabra, considerando el contexto gramatical.
- **Stemming** aplica reglas heurísticas para recortar palabras, lo que puede producir formas no reales.
- En español, `spaCy` es más preciso para lematizar; `NLTK` con `SnowballStemmer` ofrece una alternativa simple para hacer *stemming*.

In [None]:
import pandas as pd
import nltk
import spacy
from nltk.stem import SnowballStemmer
from IPython.display import display

# Descargar recursos
nltk.download('punkt')
nlp = spacy.load("en_core_web_sm")
stemmer = SnowballStemmer("english")

# Lista de palabras
words = [
    "Walking", "is", "main", "gaits", "terrestrial", "locomotion", "among", "legged",
    "animals", "foxes", "are", "quick", "they", "are", "jumping", "sleeping", "lazy", "dogs"
]

# Lematización con spaCy
spacy_lemmas = [token.lemma_ for token in nlp(" ".join(words))]

# Stemming con NLTK
nltk_stems = [stemmer.stem(word) for word in words]

# Crear DataFrame comparativo
df = pd.DataFrame({
    "Palabra": words,
    "Lemmatization (spaCy)": spacy_lemmas,
    "Stemming (NLTK)": nltk_stems
})

# Mostrar tabla
display(df)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


Unnamed: 0,Word Before Lemmatization,After Lemmatization (spaCy),After Stemming (NLTK)
0,Walking,walk,walk
1,is,be,is
2,main,main,main
3,gaits,gait,gait
4,terrestrial,terrestrial,terrestri
5,locomotion,locomotion,locomot
6,among,among,among
7,legged,legged,leg
8,animals,animal,anim
9,foxes,fox,fox
