# Stemming

El paquete `nltk` tiene multiples formas de implementar *stemmers*. Estos *stemmers* son implementados en el módulo stem, el cual es heredero de la *interface* `StemmerI` en el módulo `nltk.ste.api`. Se puede crear un *stemmer* propio utilizando esta clase (técnicamente una interface) como clase base. Uno de los *stemmer* más populares es el __Stemmer de Porter__, el cual esta basado en el algoritmo de Dr. Martin Porte. Originalmente el algoritmo dice que tiene un total de cinco diferentes fases y su propio conjunto de reglas. También existe el algoritmo `Porter2`. 

## PorterStemmer

In [5]:
words = (
    ["eating",
    "eats",
    "eaten",
    "writing",
    "writes",
    "programming",
    "programs",
    "history",
    "finally",
    "finalized"]
)

In [6]:
from nltk.stem import PorterStemmer
stemming = PorterStemmer()

In [8]:
for word in words:
    print(word+" ----> "+stemming.stem(word))

eating ----> eat
eats ----> eat
eaten ----> eaten
writing ----> write
writes ----> write
programming ----> program
programs ----> program
history ----> histori
finally ----> final
finalized ----> final


## RegexpStemmer 

NLTK tiene una clase con la cual se puede implementar fácilmente un algoritmo de stemming, básicamente toma una expresión regular y remueve los prefijos y sufijos que concuerdan con la expresión.

In [9]:
from nltk.stem import RegexpStemmer

In [14]:
regex_stemmer = RegexpStemmer('ing$|s$|e$|able$', min=4)

In [15]:
print(regex_stemmer.stem('eating'))

eat


In [16]:
print(regex_stemmer.stem('ingeating'))

ingeat


## LancasterStemmer

In [18]:
from nltk.stem import LancasterStemmer

lancaster_stemmer = LancasterStemmer()

In [19]:
print(lancaster_stemmer.stem('lying'))

lying


In [20]:
print(lancaster_stemmer.stem('strange'))

strange


# Snowball Stemmer 

In [21]:
from nltk.stem import SnowballStemmer

snowballsstemmer = SnowballStemmer("german")

In [22]:
print('Supported Languages:', SnowballStemmer.languages)

Supported Languages: ('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [23]:
# stemming on German words
# autobahnen -> cars
# autobahn -> car
snowballsstemmer.stem('autobahnen')

'autobahn'

In [24]:
# springen -> jumping
# spring -> jump
snowballsstemmer.stem('springen')

'spring'

In [25]:
for word in words:
    print(word+" ----> "+snowballsstemmer.stem(word))

eating ----> eating
eats ----> eat
eaten ----> eat
writing ----> writing
writes ----> writ
programming ----> programming
programs ----> program
history ----> history
finally ----> finally
finalized ----> finalized
