#**Stemming y Lemmatization**

### Para el caso de Stemming y Lemmatization existen una gran cantidad de librerías y métodos. 

###Veamos unos ejemplos para clarificar los conceptos.

# **Porter stemming algorithm**

### uno de los más populares algoritmos en inglés desarrollado por Martin Porter: https://tartarus.org/martin/PorterStemmer/   

In [1]:
import nltk

from nltk.stem import PorterStemmer   

In [2]:
# creamos un objeto de la clase PorterStemmer
ps = PorterStemmer()

In [3]:
# Verbo regular:
x = ['visits', 'visited', 'visiting']

[ps.stem(w) for w in x]

['visit', 'visit', 'visit']

In [4]:
#Verbo irregular:
y = ['fall', 'fell', 'fallen', 'falling', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built']

print([ps.stem(w) for w in y])

['fall', 'fell', 'fallen', 'fall', 'ring', 'rang', 'rung', 'ring', 'come', 'came', 'come', 'built']


In [5]:
# otro tipo de palabras...
z = ['strange', 'dogs', 'beautiful', 'amazing', 'cats', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']

print([ps.stem(w) for w in z])


['strang', 'dog', 'beauti', 'amaz', 'cat', 'termin', 'care', 'eldest', 'farthest', 'further', 'queri', 'waterb']


# **Lancaster - Paice/Husk stemming algorithm**

#### Algoritmo desarrollado por Chris D. Paice en la Universidad de Lancaster. 

Generalmente reduce más la longitud de una palabra y es más rápido en genral. Podemos decir que es "más agresivo" en relación a otros algoritmos, aunque esto pueda generar luego problemas en la interpretación o significado de las salidas generadas.

In [6]:
from nltk.stem import LancasterStemmer

In [8]:
ls = LancasterStemmer()

In [9]:
x = ['visits', 'visited', 'visiting']

[ls.stem(w) for w in x]

['visit', 'visit', 'visit']

In [10]:
y = ['fall', 'fell', 'fallen', 'falling', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were']

print([ls.stem(w) for w in y])

['fal', 'fel', 'fal', 'fal', 'ring', 'rang', 'rung', 'ring', 'com', 'cam', 'com', 'built', 'wer']


In [11]:
z = ['strange', 'dogs', 'beautiful', 'amazing', 'cats', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']

print([ls.stem(w) for w in z])

['strange', 'dog', 'beauty', 'amaz', 'cat', 'termin', 'car', 'eldest', 'farthest', 'furth', 'query', 'waterb']


# **RegexpStemmer stemming algorithm**

### **Rule-base-method**: Lo interesante de este modelo es que puedes construir tus propias reglas y complementarlo con alguno de los otros algoritmos.

In [12]:
from nltk.stem import RegexpStemmer

In [18]:
# min : longitud mínima del string para que se aplique el criterio de eliminar los regexp indicados:
rs = RegexpStemmer('ing$|ed$|s$|fall$', min=3)  

In [None]:
x = ['visits', 'visited', 'visiting']

[rs.stem(w) for w in x]

In [19]:
y = ['fall', 'fell', 'fallen', 'falling', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were']

print([rs.stem(w) for w in y])

['', 'fell', 'fallen', 'fall', 'r', 'rang', 'rung', 'ring', 'come', 'came', 'com', 'built', 'were']


In [17]:
z = ['strange', 'dogs', 'beautiful', 'amazing', 'cats', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']

print([rs.stem(w) for w in z])

['strange', 'dog', 'beautiful', 'amaz', 'cat', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'querie', 'waterb']


### Podemos crear nuestras propias reglas en Español con RegexpStemmer, ya que no depende estrictamente de algún idioma en particular:

In [20]:
srs = RegexpStemmer('ron$|eiste$|é|ando|ar$', min=5)  

In [21]:
x = ['jugar', 'jugando', 'jugué', 'jugaste', 'caminé', 'almorcé', 'fué', 'fueron', 'fuiste', 'aceptar', 'aceptó', 'aceptaron', 'reiste']

print([srs.stem(w) for w in x])

['jug', 'jug', 'jugu', 'jugaste', 'camin', 'almorc', 'fué', 'fue', 'fuiste', 'acept', 'aceptó', 'acepta', 'r']


# **Snowball - Porter2 stemming algorithm**

### Es un algoritmo que mejora el algoritmo de Porter, principlmente en cuanto al tiempo de cómputo. 

###Pero la principal diferencia es que soporta diferentes idiomas, entre ellos el Español.

In [22]:
from nltk.stem import SnowballStemmer

In [23]:
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [24]:
ss = SnowballStemmer("english")

In [25]:
x = ['visits', 'visited', 'visiting']

[ss.stem(w) for w in x]

['visit', 'visit', 'visit']

In [26]:
y = ['fall', 'fell', 'fallen', 'falling', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were']

print([ss.stem(w) for w in y])

['fall', 'fell', 'fallen', 'fall', 'ring', 'rang', 'rung', 'ring', 'come', 'came', 'come', 'built', 'were']


In [27]:
z = ['strange', 'dogs', 'beautiful', 'amazing', 'cats', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']

print([ss.stem(w) for w in z])

['strang', 'dog', 'beauti', 'amaz', 'cat', 'termin', 'care', 'eldest', 'farthest', 'further', 'queri', 'waterb']


### **Veamos algunos casos en Español:**

In [28]:
sss = SnowballStemmer("spanish")

In [30]:
x = ['jugar', 'jugando', 'jugué', 'jugaste', 'jugo', 'caminé', 'almorcé', 'fué', 'fueron', 'fuiste', 'aceptar', 'aceptó', 'aceptaron', 'aceptaste']

print([sss.stem(w) for w in x])

['jug', 'jug', 'jug', 'jug', 'jug', 'camin', 'almorc', 'fue', 'fueron', 'fuist', 'acept', 'acept', 'acept', 'acept']


#**LEMMATIZATION**

### Se requiere de la base de datos de WordNet 

In [None]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

In [33]:
wnl = WordNetLemmatizer()

In [34]:
y = ['fall', 'fell', 'fallen', 'falling', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were', 'am', 'is']

print([wnl.lemmatize(w) for w in y])

['fall', 'fell', 'fallen', 'falling', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were', 'am', 'is']


###Observa que no llevó a cabo ninguna modificación, esto es porque requiere la información sintáctica de la palabra. 

###La opción predeterminada es "noun" (sustantivo).

###En este caso que todos son verbos, veamos como esta información nos ayuda a obtener mejores resultados:

In [35]:
#verbs
print([wnl.lemmatize(w, pos='v') for w in y])

['fall', 'fell', 'fall', 'fall', 'ring', 'ring', 'ring', 'ring', 'come', 'come', 'come', 'build', 'be', 'be', 'be']


In [36]:
z = ['stranger', 'dogs', 'beautifully', 'amazing', 'whiter', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']
# verbs
print([wnl.lemmatize(w, 'v') for w in z])

['stranger', 'dog', 'beautifully', 'amaze', 'whiter', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'query', 'waterbed']


In [37]:
# nouns
print([wnl.lemmatize(w, 'n') for w in z])

['stranger', 'dog', 'beautifully', 'amazing', 'whiter', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'query', 'waterbed']


In [38]:
# adjectives
print([wnl.lemmatize(w, 'a') for w in z])

['strange', 'dogs', 'beautifully', 'amazing', 'white', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']


In [39]:
# adverbios
print([wnl.lemmatize(w, 'r') for w in z])

['stranger', 'dogs', 'beautifully', 'amazing', 'whiter', 'terminator', 'carefully', 'eldest', 'farthest', 'far', 'queries', 'waterbed']


# Presentación tabular:

In [None]:
print("{0:20}{1:20}{2:20}".format("Word","Porter Stemmer","lancaster Stemmer"))
for word in y:
    print("{0:20}{1:20}{2:20}".format(word, ps.stem(word),ls.stem(word)))