# 📗 Lemmatizing

La lematización es un proceso más sofisticado que busca reducir las palabras a su forma base, pero asegurándose de que la forma base resultante sea una palabra real que exista en el idioma. Para lograr esto, la lematización utiliza un diccionario o un conjunto de reglas gramaticales para realizar la reducción.

A diferencia de la derivación (stemming), la lematización tiene en cuenta la estructura morfológica de las palabras y devuelve palabras válidas del idioma.

> "La lematización en el procesamiento del lenguaje natural (NLP) **es el proceso de reducir las palabras a su forma base, conocida como lema**"

Ejemplo:
- Palabra original: "Corriendo"
- Forma base (Lema): "Correr"

La biblioteca NLTK proporciona el lematizador `WordNetLemmatizer` que se basa en WordNet, una base de datos léxica del inglés. Aquí tienes un ejemplo de cómo realizar la lematización utilizando `WordNetLemmatizer` en NLTK:

In [1]:
import nltk
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

In [2]:
# Descargar recursos necesarios
nltk.download('punkt')
nltk.download('wordnet')

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\USURIO\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\USURIO\AppData\Roaming\nltk_data...


True

In [3]:
# Crear un objeto WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

In [4]:
# Ejemplo de lematización
palabras = ["jumps", "jumping", "jumped", "better", "best"]

In [5]:
for palabra in palabras:
    lema = lemmatizer.lemmatize(palabra, pos='v')  # 'v' indica que la palabra es un verbo
    print(f"{palabra}: {lema}")

jumps: jump
jumping: jump
jumped: jump
better: better
best: best
