<a href="https://colab.research.google.com/github/alfa7g7/icesi-nlp-20261-curso/blob/main/Sesion1/FabianSF/3-stemming.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Stemming
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/Ohtar10/icesi-nlp/blob/main/Sesion1/3-stemming.ipynb)

De un modo resumido, stemming consiste en encontrar la palabra más larga posible que pueda servir como raíz para otras palabras. Puede ser mucho más complejo que esto, pero en esencia se trata de formar familias de palabras similares que tienden a compartir una razíz común, el stem.

En este notebook también vamos a explorar otra de las librerías más populares para el NLP clásico: NLTK.

## Referencias
* [NLP - Natural Language Processing With Python](https://www.udemy.com/course/nlp-natural-language-processing-with-python)
* [Natural Language Processing in Action](https://www.manning.com/books/natural-language-processing-in-action)

In [None]:
import pkg_resources
import warnings

warnings.filterwarnings('ignore')

installed_packages = [package.key for package in pkg_resources.working_set]
IN_COLAB = 'google-colab' in installed_packages

  import pkg_resources


In [None]:
!test '{IN_COLAB}' = 'True' && wget  https://github.com/Ohtar10/icesi-nlp/raw/refs/heads/main/requirements.txt && pip install -r requirements.txt

## Porter Stemmer
Este es uno de los algoritmos de stemming más comunes. Desarrollado por [Martin Porter](https://en.wikipedia.org/wiki/Martin_Porter)

Observemos por ejemplo este conjunto de palabras:

In [1]:
import nltk
from nltk.stem.porter import PorterStemmer

p_stemmer = PorterStemmer()
words = ['run', 'runner', 'ran', 'runs', 'easily', 'fairly']

Ahora, si usamos el algoritmo de porter, podrémos obtener los podemos obtener una visualización inicial de posibles raices:

In [2]:
for word in words:
    print(f"{word:{20}}--> {p_stemmer.stem(word)}")

run                 --> run
runner              --> runner
ran                 --> ran
runs                --> run
easily              --> easili
fairly              --> fairli


Podemos observar que `run` y `runs` comparten la misma raíz `run`.

Hay algo a tener en cuenta: El porter stemmer original fue desarrollado para el idioma inglés ya que fue implementado siguiendo ciertas reglas consistentes de dicho idioma, por lo que no podríamos aplicarlo tal cual al español.

Sin embargo, a partir de este stemmer, el método Snowball fue desarrollado para muchos otros lenguajes.

## Snowball
Snowball es entonces una mejora sobre el porter stemmer, incluyendo soporte para otros lenguajes. Por motivos de completitud y comparación, continuemos con inglés.

In [3]:
from nltk.stem.snowball import SnowballStemmer

s_stemmer = SnowballStemmer(language='english')
for word in words:
     print(f"{word:{20}}--> {s_stemmer.stem(word)}")

run                 --> run
runner              --> runner
ran                 --> ran
runs                --> run
easily              --> easili
fairly              --> fair


Observermos la diferencia en la palabra `fair` que es mejor y mucho más general, realmente las palabras `fair` y `fairly` son ambas válidas y comparten la misma raíz.

Ahora observemos como se comporta con un conjunto de palabras un poco más difícil.

In [4]:
from typing import List

def stem(words :List[str], stemmer) -> List[str]:
    return [stemmer.stem(word) for word in words]

In [5]:
import pandas as pd

# Notice these words share roots but mean totally different things
words = ['generous', 'generation', 'generously', 'generate']
with_porter = stem(words, p_stemmer)
with_snowball = stem(words, s_stemmer)

word_list = list(zip(words, with_porter, with_snowball))
words_df = pd.DataFrame(word_list, columns=['word', 'porter', 'snowball'])
words_df

Unnamed: 0,word,porter,snowball
0,generous,gener,generous
1,generation,gener,generat
2,generously,gener,generous
3,generate,gener,generat


Aquí podemos observar como snowball es mejor que porter.