**Maestría en Inteligencia Artificial Aplicada (MNA)**\
**Procesamiento de Lenguaje Natural (NLP)**\
**Tecnológico de Monterrey**

**Proceso de Tokenización y Vocabulario.**






**Tallo (stemming) y Lematización (lemmatization)**

###Para implementar las técnicas de tallado (stemming) y lematización (lemmatization) existe una gran variedad de librerías para implementar. 

###Ambas técnicas tratan de normalizar o etandarizar un conjunto de palabras a una secuencia de caracteres raíz (en el caso de stemming) o a la palabra lema. En ambos casos, se trata de ese token estandarizado que estará representando a otro conjunto de tokens o palabras.

###Veamos unos ejemplos para clarificar los conceptos.

#**Métodos para extracción de la secuencia raíz o tallo (stemming)**

## **Porter stemming algorithm**

### uno de los más populares algoritmos en inglés desarrollado por Martin Porter: https://tartarus.org/martin/PorterStemmer/   

In [1]:
import nltk
from nltk.stem import PorterStemmer   

In [2]:
nltk.download('omw-1.4')   # paquete de nltk que ayuda en el proceso de stemming y lemmatization.

[nltk_data] Downloading package omw-1.4 to
[nltk_data]     C:\Users\RicardoMoralesBustil\AppData\Roaming\nltk_dat
[nltk_data]     a...


True

In [3]:
# creamos un objeto de la clase PorterStemmer
ps = PorterStemmer()

In [4]:
# Verbo regular:
x = ['visits', 'visited', 'visiting']

[ps.stem(w) for w in x]

['visit', 'visit', 'visit']

In [5]:
# Verbo irregular:
y = ['fall', 'fell', 'fallen', 'falling', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built']

print([ps.stem(w) for w in y])

['fall', 'fell', 'fallen', 'fall', 'ring', 'rang', 'rung', 'ring', 'come', 'came', 'come', 'built']


In [6]:
# otro tipo de palabras...
z = ['strange', 'dogs', 'beautiful', 'amazing', 'cats', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']

print([ps.stem(w) for w in z])


['strang', 'dog', 'beauti', 'amaz', 'cat', 'termin', 'care', 'eldest', 'farthest', 'further', 'queri', 'waterb']


## **Lancaster - Paice/Husk stemming algorithm**

#### Algoritmo desarrollado por Chris D. Paice en la Universidad de Lancaster. 

https://dl.acm.org/doi/pdf/10.1145/101306.101310

Generalmente reduce más la longitud de una palabra y es más rápido en general. Podemos decir que es "más agresivo" en relación a otros algoritmos, aunque esto pueda generar luego problemas en la interpretación o significado de las salidas generadas.

In [7]:
from nltk.stem import LancasterStemmer

In [8]:
ls = LancasterStemmer()

In [9]:
x = ['visits', 'visited', 'visiting']

[ls.stem(w) for w in x]

['visit', 'visit', 'visit']

In [10]:
y = ['fall', 'fell', 'fallen', 'falling', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were']

print([ls.stem(w) for w in y])

['fal', 'fel', 'fal', 'fal', 'ring', 'rang', 'rung', 'ring', 'com', 'cam', 'com', 'built', 'wer']


In [11]:
z = ['strange', 'dogs', 'beautiful', 'amazing', 'cats', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']

print([ls.stem(w) for w in z])

['strange', 'dog', 'beauty', 'amaz', 'cat', 'termin', 'car', 'eldest', 'farthest', 'furth', 'query', 'waterb']


Como en el caso anterior, esto sucede con el algoritmo Lancaster Stemmer, al reducir los caracteres de la palabra, puede eliminar algunas que sean parte del significado.

## **RegexpStemmer stemming algorithm**

### **Rule-base-method**: Lo interesante de este modelo es que puedes construir tus propias reglas y complementarlo con alguno de los otros algoritmos.

Puedes consultar su documentación para mayor información:

https://www.nltk.org/_modules/nltk/stem/regexp.html 




In [12]:
from nltk.stem import RegexpStemmer

In [13]:
# min : longitud mínima del string para que se aplique la regla:
rs = RegexpStemmer(r'ing$|ed$|s$|t$', min=3)   # definimos la regla deseada construyendo un objeto de RegexpStemmer().

In [14]:
x = ['visits', 'visited', 'visiting']

[rs.stem(w) for w in x]

['visit', 'visit', 'visit']

In [15]:
y = ['fall', 'fell', 'fallen', 'falling', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were']

print([rs.stem(w) for w in y])

['fall', 'fell', 'fallen', 'fall', 'r', 'rang', 'rung', 'ring', 'come', 'came', 'com', 'buil', 'were']


In [16]:
z = ['strange', 'dogs', 'beautiful', 'amazing', 'cats', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']

print([rs.stem(w) for w in z])

['strange', 'dog', 'beautiful', 'amaz', 'cat', 'terminator', 'carefully', 'eldes', 'farthes', 'further', 'querie', 'waterb']


### Podemos crear nuestras propias reglas en **Español** con RegexpStemmer, ya que no depende estrictamente de algún idioma en particular:

In [17]:
srs = RegexpStemmer('ron$|ste$|é|ando|ar$', min=5)  

In [18]:
x = ['jugar', 'jugando', 'jugué', 'jugaste', 'caminé', 'almorcé', 'fué', 'fueron', 'fuiste', 'aceptar', 'aceptó', 'aceptaron', 'reiste']

print([srs.stem(w) for w in x])

['jug', 'jug', 'jugu', 'juga', 'camin', 'almorc', 'fué', 'fue', 'fui', 'acept', 'aceptó', 'acepta', 'rei']


## **Snowball - Porter2 stemming algorithm**

### Es un algoritmo que mejora el algoritmo de Porter, principalmente en cuanto al tiempo de cómputo. 

###Pero la principal diferencia es que soporta diferentes idiomas, entre ellos el **Español**.

In [19]:
from nltk.stem import SnowballStemmer

In [20]:
print(SnowballStemmer.languages)

('arabic', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 'spanish', 'swedish')


In [21]:
ss = SnowballStemmer("english")

In [28]:
x = ['visits', 'visited', 'visiting']

[ss.stem(w) for w in x]

['visit', 'visit', 'visit']

In [22]:
y = ['fall', 'fell', 'fallen', 'falling', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were']

print([ss.stem(w) for w in y])

['fall', 'fell', 'fallen', 'fall', 'ring', 'rang', 'rung', 'ring', 'come', 'came', 'come', 'built', 'were']


In [23]:
z = ['strange', 'dogs', 'beautiful', 'amazing', 'cats', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']

print([ss.stem(w) for w in z])

['strang', 'dog', 'beauti', 'amaz', 'cat', 'termin', 'care', 'eldest', 'farthest', 'further', 'queri', 'waterb']


### **Veamos algunos casos en Español:**

In [24]:
sss = SnowballStemmer("spanish")

In [25]:
x = ['jugar', 'jugando', 'jugué', 'jugaste', 'jugo', 'caminé', 'almorcé', 'fué', 'fueron', 'fuiste', 'aceptar', 'aceptó', 'aceptaron', 'aceptaste']

print([sss.stem(w) for w in x])

['jug', 'jug', 'jug', 'jug', 'jug', 'camin', 'almorc', 'fue', 'fueron', 'fuist', 'acept', 'acept', 'acept', 'acept']


In [26]:
# veamos cómo lo hace con un verbo irregular:

x = ['hacer', 'hace', 'hizo', 'hiciste', 'hicieron', 'hacéis', 'hacemos', 'hacía', 'haremos', 'haré', 'hecho', 'hagamos', 'haríamos']

print([sss.stem(w) for w in x])

['hac', 'hac', 'hiz', 'hic', 'hic', 'hac', 'hac', 'hac', 'har', 'har', 'hech', 'hag', 'har']


In [27]:
x = ['felizmente', 'felicidades', 'grandioso', 'mejorando', 'mejorado', 'gatos', 'carísimo', 'artistas', 'rápidamente']

print([sss.stem(w) for w in x])

['feliz', 'felic', 'grandios', 'mejor', 'mejor', 'gat', 'carisim', 'artist', 'rapid']


#**Métodos para extracción del lema o lematización (lemmatization)**

### Se requiere de la base de datos de WordNet 

In [28]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\RicardoMoralesBustil\AppData\Roaming\nltk_dat
[nltk_data]     a...


True

In [29]:
wnl = WordNetLemmatizer() 

In [30]:
y = ['fall', 'fell', 'fallen', 'falling', 'feet', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were', 'am', 'is']

print([wnl.lemmatize(w) for w in y])

['fall', 'fell', 'fallen', 'falling', 'foot', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were', 'am', 'is']


###Observa que no llevó a cabo ninguna modificación, esto es porque requiere la información sintáctica de la palabra. 

###La opción predeterminada es "noun" (sustantivo).

###En este caso que todos son verbos, veamos como esta información nos ayuda a obtener mejores resultados:

In [31]:
#verbs
z = ['fall', 'fell', 'fallen', 'falling', 'feet', 'ring', 'rang', 'rung', 'ringing', 'come', 'came', 'coming', 'built', 'were', 'am', 'is']

print([wnl.lemmatize(w, pos='v') for w in z])

['fall', 'fell', 'fall', 'fall', 'feet', 'ring', 'ring', 'ring', 'ring', 'come', 'come', 'come', 'build', 'be', 'be', 'be']


In [32]:
z = ['stranger', 'dogs', 'beautifully', 'amazing', 'whiter', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'queries', 'waterbed']
# verbs
print([wnl.lemmatize(w, 'v') for w in z])

['stranger', 'dog', 'beautifully', 'amaze', 'whiter', 'terminator', 'carefully', 'eldest', 'farthest', 'further', 'query', 'waterbed']


In [33]:
# nouns
z = ['languages', 'dogs', 'developer', 'nationalism', 'artist', 'government', 'happiness', 'championship', 'station']

print([wnl.lemmatize(w, 'n') for w in z])

['language', 'dog', 'developer', 'nationalism', 'artist', 'government', 'happiness', 'championship', 'station']


In [34]:
# adjectives
z = ['tall', 'tallest', 'bigger', 'highest', 'ugliest', 'happier']

print([wnl.lemmatize(w, 'a') for w in z])

['tall', 'tall', 'big', 'high', 'ugly', 'happy']


In [35]:
# adverbios
z = ['openly', 'actually', 'better']

print([wnl.lemmatize(w, 'r') for w in z])

['openly', 'actually', 'well']


Más adelante lo combinaremos con los métodos llamados POStag, que clasifica precisamente cada palabra como verbo, adjetivo, etc.

## Comparación tabular:

In [36]:
print("{0:20}{1:20}{2:20}".format("Word","Porter Stemmer","lancaster Stemmer"))
for word in y:
    print("{0:20}{1:20}{2:20}".format(word, ps.stem(word),ls.stem(word)))

Word                Porter Stemmer      lancaster Stemmer   
fall                fall                fal                 
fell                fell                fel                 
fallen              fallen              fal                 
falling             fall                fal                 
feet                feet                feet                
ring                ring                ring                
rang                rang                rang                
rung                rung                rung                
ringing             ring                ring                
come                come                com                 
came                came                cam                 
coming              come                com                 
built               built               built               
were                were                wer                 
am                  am                  am                  
is                  is  

Aunque existen algunas métricas que miden qué tanto se simplificó un documento con alguno de estos métodos, en la práctica es aplicar varios de ellos y observar cuál te da los mejores resultados en el análisis que estés realizando.