# 2. Lematización:

La lematización es el proceso de reducir una palabra a su forma base o lema,  
que es la forma que encontraríamos en un diccionario.  
La lematización considera el contexto de la palabra y su significado.  

Ejemplo en Python con NLTK:

Explicación:

WordNetLemmatizer() realiza la lematización.  
El argumento pos='v' especifica que las palabras se tratan como verbos.  
'n': Sustantivo (noun).  
'v': Verbo (verb).  
'a': Adjetivo (adjective).  
'r': Adverbio (adverb).  

Es importante especificar la parte del discurso (part-of-speech, POS)  
para una lematización más precisa. Si no se especifica, por defecto asume que es un sustantivo.

La lematización es como un detective inteligente que entiende el contexto.  
Para que la lematización funcione bien, es importante darle pistas,  
como la parte del discurso (pos='v', pos='n', pos='a', etc.),  
para que pueda consultar su diccionario correctamente y encontrar el verdadero lema de la palabra.  
De esta manera, nuestro análisis del lenguaje será mucho más preciso y efectivo.

In [1]:
import nltk
from nltk.stem import WordNetLemmatizer

nltk.download('wordnet')
nltk.download('omw-1.4') # Necesario para lematizar en español

lemmatizer = WordNetLemmatizer() #realiza la lematización.

palabras = ["corriendo", "corrió", "corre", "mejor"]

for palabra in palabras:
    lema = lemmatizer.lemmatize(palabra, pos='v') # El argumento pos='v' Especificar la parte del discurso (verbo en este caso)
    print(f"Lema de '{palabra}': {lema}")

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\juans\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\juans\AppData\Roaming\nltk_data...
[nltk_data]   Package omw-1.4 is already up-to-date!


Lema de 'corriendo': corriendo
Lema de 'corrió': corrió
Lema de 'corre': corre
Lema de 'mejor': mejor


In [2]:
from nltk.stem import WordNetLemmatizer
#nltk.download("wordnet")
#nltk.download("omw-1.4")

# Initialize wordnet lemmatizer
wnl = WordNetLemmatizer()

# Example inflections to reduce
example_words = ["program","programming","programs","programmed"]

# Perform lemmatization
print("{0:20}{1:20}".format("--Word--","--Lemma--"))
for word in example_words:
   print ("{0:20}{1:20}".format(word, wnl.lemmatize(word, pos="v")))

--Word--            --Lemma--           
program             program             
programming         program             
programs            program             
programmed          program             


### Algunos casos comunes donde la lematización es especialmente útil:

## 1. Motores de búsqueda y recuperación de información:

**1.1 Mejora la precisión de las búsquedas:** Cuando un usuario realiza una búsqueda, es posible que utilice diferentes formas de una misma palabra. Por ejemplo, podría buscar "corriendo", "corrió" o "correr". Sin lematización, el motor de búsqueda podría tratar estas palabras como distintas y no devolver todos los resultados relevantes. Al lematizar las palabras a su forma base ("correr"), el motor de búsqueda puede encontrar todos los documentos que contienen cualquiera de estas formas.

**1.2 Reduce el tamaño del índice:** Al almacenar solo los lemas en el índice del motor de búsqueda, se reduce la cantidad de entradas y se mejora la eficiencia de las búsquedas.  

## 2. Análisis de sentimiento:  
**2.1 Agrupa palabras con el mismo significado:** En el análisis de sentimiento, se busca determinar la polaridad (positiva, negativa o neutra) de un texto.  
La lematización ayuda a agrupar palabras con el mismo significado, aunque tengan diferentes formas.  
Por ejemplo, "bueno", "buena", "buenos" y "buenas" se lematizarían a "bueno", lo que permite un análisis más preciso del sentimiento expresado.  

## 3. Clasificación de texto:  

**3.1 Reduce la dimensionalidad de los datos:** Al reducir las palabras a sus lemas,  
se reduce la cantidad de características únicas que se utilizan para entrenar un modelo de clasificación de texto.  
Esto puede mejorar el rendimiento del modelo y reducir el tiempo de entrenamiento.  

**3.2 Mejora la generalización del modelo:** Al agrupar palabras con el mismo significado,  
el modelo puede generalizar mejor a nuevos textos que contengan variaciones de esas palabras.

**4. Minería de texto y extracción de información:**

**4.1 Identifica conceptos clave:** La lematización ayuda a identificar los conceptos clave en un texto  
al agrupar palabras relacionadas.  
Por ejemplo, en un texto sobre "entrenamiento de perros", la lematización agruparía palabras  
como "entrenar", "entrenamiento", "entrenado" y "entrenadora" bajo el lema "entrenar".  

**4.2 Mejora la precisión de la extracción de entidades:** Al lematizar las palabras, se pueden extraer entidades de manera más precisa,  
incluso si aparecen en diferentes formas gramaticales.  

## 5. Traducción automática:  

**5.1 Mejora la calidad de la traducción:** La lematización puede ayudar a mejorar la calidad de la traducción automática  
    al identificar la forma base de las palabras y traducirlas correctamente al idioma de destino.

## 6. Chatbots y asistentes virtuales:

**6.1 Comprende mejor las consultas de los usuarios:** Al lematizar las palabras en las consultas de los usuarios,  
los chatbots y asistentes virtuales pueden comprender mejor la intención del usuario, incluso si utiliza diferentes formas de una misma palabra.