# Lemmatization

NLTK cuenta con un módulo robusto de lematización que utiliza el recurso léxico WordNet.
Este módulo no solo elimina afijos, sino que también considera la sintaxis y la semántica de las palabras, es decir, su parte de la oración (part of speech, POS) y el contexto en el que aparecen, para obtener el lema o forma base correcta.

En **WordNet**, las tres categorías más comunes de palabras que se procesan son:

- Sustantivos (nouns)
- Verbos (verbs)
- Adjetivos (adjectives)

De esta manera, NLTK logra resultados más precisos que el stemming, ya que devuelve siempre una palabra válida en el diccionario.

In [2]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

In [4]:
'''
POS- Noun-n
verb-v
adjective-a
adverb-r
'''
lemmatizer.lemmatize("going")

'going'

In [5]:
# lemmatize nouns
print(wnl.lemmatize('cars', pos= 'n'))
print(wnl.lemmatize('men', pos= 'n'))

car
men


In [6]:
# lemmatize verbs
print(wnl.lemmatize('running', 'v'))
print(wnl.lemmatize('ate', 'v'))

run
eat


In [7]:
# lemmatize adjectives
print(wnl.lemmatize('saddest', 'a'))
print(wnl.lemmatize('fancier', 'a'))

sad
fancy


El código previo utiliza la clase `WordNetLemmatizer`, internamente utiliza la función `morphy()` perteneciente a la clase `WordNetCorpusReader`. Esta función básicamente encuentra la forma base o lema para una palabra utilizando la palabra y parte del discurso para revisar el corpus WorNet utilizar una técnica recursiva para remover afijos de las palabras hasta encontrar una coincidencia en WordNet. Si no se encuentra una coincidencia, la misma palabra es devuelta como salida.
La parte del discurso (PoS) es extremadamente importante porque si es erroneo, la lematización no será efectiva.

In [8]:
# ineffective lemmatization
print(wnl.lemmatize('ate', 'n'))
print(wnl.lemmatize('fancier', 'v'))

ate
fancier


In [9]:
words = (
    ["eating",
    "eats",
    "eaten",
    "writing",
    "writes",
    "programming",
    "programs",
    "history",
    "finally",
    "finalized"]
)

In [10]:
for word in words:
    print(word+" ----> "+lemmatizer.lemmatize(word,pos='v'))

eating ----> eat
eats ----> eat
eaten ----> eat
writing ----> write
writes ----> write
programming ----> program
programs ----> program
history ----> history
finally ----> finally
finalized ----> finalize
