<img style="float: left;;" src='https://github.com/gdesirena/Procesamiento_Natural_del_Lenguaje_2024/blob/main/Modulo%20II/Figures/alinco.png?raw=1' /></a>

# Modulo I: Stemming

A menudo, cuando se busca texto para una determinada palabra clave, es útil que la búsqueda devuelva variaciones de la palabra. Por ejemplo, la búsqueda de "barco" también puede devolver "barcos" y "navegación". Aquí, "bote" sería la **raíz** de [bote, navegante, navegación, botes].

El Stemming es un método para catalogar palabras relacionadas; esencialmente corta las letras desde el final hasta que se alcanza la raiz. Esto funciona bastante bien en la mayoría de los casos, pero desafortunadamente el inglés tiene muchas excepciones donde se requiere un proceso más sofisticado. De hecho, spaCy no incluye un lematizador, sino que opta por confiar completamente en la lematización. Para aquellos interesados, hay algunos antecedentes sobre esta decisión [aquí] (https://github.com/explosion/spaCy/issues/327).

En su lugar, usaremos otra herramienta popular de NLP llamada **nltk**, que significa *Natural Language Toolkit*. https://www.nltk.org/

## Porter Stemmer

Una de las herramientas de derivación más comunes y efectivas es el [*Algoritmo de Porter*](https://tartarus.org/martin/PorterStemmer/) desarrollado por Martin Porter en [1980](https://tartarus.org/martin/PorterStemmer/def.txt). El algoritmo emplea cinco fases de reducción de palabras, cada una con su propio conjunto de reglas de mapeo. En la primera fase, se definen reglas de mapeo de sufijos simples, tales como:

![stemming1.png](https://github.com/gdesirena/Procesamiento_Natural_del_Lenguaje_2024/blob/main/Modulo%20II/Figures/stemming1.png?raw=1)

De un conjunto dado de reglas derivadas, solo se aplica una regla, basada en el sufijo más largo S1. Entonces, `caresses` se reduce a `caress` pero no a `cares`.

Las fases más sofisticadas consideran la longitud / complejidad de la palabra antes de aplicar una regla. Por ejemplo:

![stemming1.png](https://github.com/gdesirena/Procesamiento_Natural_del_Lenguaje_2024/blob/main/Modulo%20II/Figures/stemming2.png?raw=1)

Aquí `m> 0` describe la" medida "de la raíz, de modo que la regla se aplica a todas las raíces menos a las más básicas.

In [None]:
# importar nltk
import nltk
from nltk.stem.porter import *


In [None]:
p_stemmer = PorterStemmer()

In [None]:
words = ['run', 'runner', 'running', 'ran', 'runs', 'easily', 'fairly']

In [None]:
for word in words:
  print(word + "---> " + p_stemmer.stem(word))

run---> run
runner---> runner
running---> run
ran---> ran
runs---> run
easily---> easili
fairly---> fairli


<font color=green>Observe cómo el lematizador reconoce "runner" como un sustantivo, no como una forma verbal o un participio. Además, los adverbios "easily" y "fairly" se derivan de la raíz inusual "easili" y "fairli".</font>
___

## Snowball Stemmer
Este es un nombre poco apropiado, ya que Snowball es el nombre de un lenguaje derivado desarrollado por Martin Porter. El algoritmo utilizado aquí se llama más exactamente "Stemmer inglés" o "Stemmer Porter2". Ofrece una ligera mejora con respecto a al algoritmo original, tanto en lógica como en tiempo de procesamiento.

In [None]:
#Importar SnowballStemmer
from nltk.stem.snowball import SnowballStemmer

# Snowball Stemmer requiere que pases como parámetro de entrada el idioma
s_stemmer = SnowballStemmer(language='english')

In [None]:
words = ['run', 'runner', 'running', 'ran', 'runs', 'easily', 'fairly']

In [None]:
for word in words:
  print(word + '---->' + s_stemmer.stem(word))

run---->run
runner---->runner
running---->run
ran---->ran
runs---->run
easily---->easili
fairly---->fair


<font color=green>En este caso, el stemmer obtuvo casi la misma salida que el algoritmo anterior, con la excepción de que se aplicó "fairly" más apropiadamente con "fair"</font>
___


#### probar otras palabras y ver los resultados!

In [None]:
words = ['consolingly']

In [None]:
print('Porter Stemmer:')
for word in words:
    print(word+' --> '+p_stemmer.stem(word))

Porter Stemmer:
consolingly --> consolingli


In [None]:
print('Porter2 Stemmer:')
for word in words:
    print(word+' --> '+s_stemmer.stem(word))

Porter2 Stemmer:
consolingly --> consol


___
El Stemming tiene sus inconvenientes. Si se le da el token "saw", la derivación siempre podría devolver `saw`, mientras que la lematización probablemente devolvería `see` o `saw` dependiendo de si el uso del token fue como un verbo o como un sustantivo. Como ejemplo, considere lo siguiente:

In [None]:
phrase = 'I am meeting him tomorrow at the meeting'
for word in phrase.split():
    print(word+' --> '+p_stemmer.stem(word))

I --> i
am --> am
meeting --> meet
him --> him
tomorrow --> tomorrow
at --> at
the --> the
meeting --> meet


Aquí, la palabra "meeting" aparece dos veces: una vez como verbo y otra como sustantivo, y sin embargo, el lematizador trata a ambos por igual..