# Stemming con nltk

El kit de herramientas de lenguaje natural (NLTK), es un conjunto de bibliotecas y programas para el procesamiento del lenguaje natural (PLN) para el lenguaje de programación Python. 

Tareas básicas:

1. Proceso de tokenización: distinguir los tokens (palabras individuales, signos de puntuación entre otros) y eliminar las palabras vacías (stopwords)
2. Stemming: Extraer la raíz de cada palabra. Por ejemplo, familia, familiar, familias se reduce a famili

Para realizar el stemming se utiliza el algoritmo de Porter, que es un algoritmo de derivación de palabras y consiste en eliminar terminaciones morfológicas de las palabras en inglés/español.

In [15]:
# coding=utf-8
import nltk.classify
from nltk import word_tokenize
from nltk.stem import SnowballStemmer
from nltk.corpus import stopwords
from string import punctuation
#import re

# Si no tenemos los stopwords hay que descargarlos:
nltk.download("stopwords")

# Para textos en español se utiliza el algoritmo de Porter2
stemmer = SnowballStemmer('spanish')
non_words = list(punctuation)

# agregamos algunos signos de puntuación del español
non_words.extend(['¿', '¡','AT_USER'])
non_words.extend(map(str, range(10)))
print(non_words)

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\raul\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
['!', '"', '#', '$', '%', '&', "'", '(', ')', '*', '+', ',', '-', '.', '/', ':', ';', '<', '=', '>', '?', '@', '[', '\\', ']', '^', '_', '`', '{', '|', '}', '~', '¿', '¡', 'AT_USER', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9']


In [23]:
# Ejemplo 1

print(stemmer.stem('aprender'))
print(stemmer.stem('aprendiendo'))

print(stemmer.stem('familia'))
print(stemmer.stem('familiar'))
print(stemmer.stem('familias'))

text = 'Somos campeones!!! Brillante victoria!! Ganamos... 1250 likes :-) yuhuuuu!!|'
stemmed_text = [stemmer.stem(i) for i in word_tokenize(text)]
print(stemmed_text)

aprend
aprend
famili
famili
famili
['som', 'campeon', '!', '!', '!', 'brillant', 'victori', '!', '!', 'gan', '...', '1250', 'lik', ':', '-', ')', 'yuhuuuu', '!', '!', '|']


In [17]:
# Ejemplo 2

text = 'Si, si, siii, Somos campeones!!!, Raúl GANAMOS... 1250+ :-)   #yuhuuuu,,,  @kbza hola.'
output = word_tokenize(text)
print(output)

['Si', ',', 'si', ',', 'siii', ',', 'Somos', 'campeones', '!', '!', '!', ',', 'Raúl', 'GANAMOS', '...', '1250+', ':', '-', ')', '#', 'yuhuuuu', ',', ',', ',', '@', 'kbza', 'hola', '.']


In [18]:
def stem_tokens(tokens,stemmer):
    stemmed = []
    for item in tokens:
        stemmed.append(stemmer.stem(item))
    return stemmed

In [19]:
def tokenize(text):
    # remove non letters
    text = ''.join([c for c in text if c not in non_words])
    # tokenize
    tokens = word_tokenize(text)
    # stem
    try:
        stems = stem_tokens(tokens, stemmer)
    except Exception as e:
        print(e)
        print(text)
        stems = ['']
    return stems

In [20]:
# Ejemplo 3
text = 'Si, si, siii, Somos campeones!!!, Raúl GANAMOS... 1250+ :-)   #yuhuuuu,,,  @kbza hola.'
output = tokenize(text)
print(output)

['si', 'si', 'siii', 'som', 'campeon', 'raul', 'gan', 'yuhuuuu', 'kbza', 'hol']
