# Stemming

Fuente: Hands On Natural Language Processing (NLP) using Python 


Stemming es una tarea de pre-procesamiento de texto para transformar variantes relacionadas o similares de una palabra.

Tambien llamado derivación regresiva, significa eliminar afijos de las palabras y encontrar la palabra raíz.

Los motores de búsqueda utilizan esta técnica al indexar páginas, puesto que muchas personas escriben versiones diferentes para la misma palabra y todas derivan de la palabra raíz (likegeeks.com).

In [1]:
import nltk

In [2]:
from nltk.stem import PorterStemmer

In [3]:
stemming = PorterStemmer()

El algoritmo Porter utilizado por NLTK utiliza varias reglas específicas del idioma (en este caso, el inglés) para llegar a las palabras clave. Una de estas reglas es eliminar los sufijos de la palabra, como se ve en el código de ejemplo mencionado anteriormente.

Reference: Porter, M. “An algorithm for suffix stripping.” Program 14.3 (1980): 130-137.

Web Autor: http://www.tartarus.org/~martin/PorterStemmer/

Fuentes Adicionales:

Paper: Porter Stemmer (http://people.scs.carleton.ca/~armyunis/projects/KAPI/porter.pdf)

Video: Stemming with Porter Stemmer Algorithm (https://www.youtube.com/watch?v=GQ1sXx8hH4k)

In [4]:
stemming = PorterStemmer()

In [5]:
stemming.stem("enjoying")

'enjoy'

In [6]:
stemming.stem("enjoys")

'enjoy'

In [7]:
stemming.stem("enjoyable")

'enjoy'

In [8]:
stemming.stem("variation")

'variat'

In [9]:
stemming.stem("variate")

'variat'

--------------------------------------------

In [10]:
from nltk.stem.lancaster import LancasterStemmer

Lancaster (Paice/Husk) stemming algorithm

Reference: Paice, Chris D. “Another Stemmer.” ACM SIGIR Forum 24.3 (1990): 56-61.

In [11]:
st = LancasterStemmer()

In [12]:
st.stem('maximum')     

'maxim'

In [13]:
st.stem('presumably')  

'presum'

In [18]:
st.stem('multiply')    

'multiply'

In [19]:
st.stem('provision')   

'provid'

In [20]:
st.stem('owed') 

'ow'

In [21]:
st.stem('ear')

'ear'

In [22]:
st.stem('saying')      

'say'

In [23]:
st.stem('crying')      

'cry'

In [24]:
st.stem('string')      

'string'

In [25]:
st.stem('meant')       

'meant'

In [26]:
st.stem('cement')      

'cem'

In [27]:
st_pre = LancasterStemmer(strip_prefix_flag=True)

In [28]:
st_pre.stem('kilometer') 

'met'

In [29]:
st_custom = LancasterStemmer(rule_tuple=("ssen4>", "s1t."))

In [30]:
st_custom.stem("ness") 

'nest'

--------------------------------------------

In [15]:
from nltk.stem import RegexpStemmer

Stemmer de expresiones regulares se utiliza para detectar prefijos o sufijos morfológicos.

In [16]:
regexp_stemmer = RegexpStemmer("able$|ing$",min=4)

In [17]:
regexp_stemmer.stem("flyable")

'fly'

In [18]:
regexp_stemmer.stem("flying")

'fly'

----------------------------------------------------

In [31]:
from nltk.stem import SnowballStemmer

In [32]:
print(" ".join(SnowballStemmer.languages))

danish dutch english finnish french german hungarian italian norwegian porter portuguese romanian russian spanish swedish


In [33]:
stemmer = SnowballStemmer("spanish")

In [35]:
stemmer.stem("auto")

'aut'

----------------------------------------------------

In [36]:
from nltk.stem.snowball import SpanishStemmer

Fuente Externa: http://snowball.tartarus.org/algorithms/spanish/stemmer.html

In [37]:
stemmer = SpanishStemmer()

Ejemplo de regla: ogía logías replace with log

In [40]:
stemmer.stem("analogía")

'analog'

------------------------------------------

In [41]:
from nltk.stem import WordNetLemmatizer

La lematización es un proceso lingüístico que consiste en, dada una forma flexionada (es decir, en plural, en femenino, conjugada, etc), hallar el lema correspondiente. El lema es la forma que por convenio se acepta como representante de todas las formas flexionadas de una misma palabra. Es decir, el lema de una palabra es la palabra que nos encontraríamos como entrada en un diccionario tradicional: singular para sustantivos, masculino singular para adjetivos, infinitivo para verbos. Por ejemplo, decir es el lema de dije (Wikipedia)

Lematizar palabras es similar a la derivación regresiva; pero, la diferencia es el que la lematización es el mundo real (likegeeks.com).

In [42]:
wnl = WordNetLemmatizer()

In [43]:
print(wnl.lemmatize('dogs'))

dog


In [44]:
print(wnl.lemmatize('churches'))

church


---------------------------------------------------

In [16]:
from nltk.corpus import wordnet as wn

WordNet Interface (http://www.nltk.org/howto/wordnet.html)

Synset: un conjunto de sinónimos que comparten un significado común.

In [17]:
wn.synsets('dog')

[Synset('dog.n.01'),
 Synset('frump.n.01'),
 Synset('dog.n.03'),
 Synset('cad.n.01'),
 Synset('frank.n.02'),
 Synset('pawl.n.01'),
 Synset('andiron.n.01'),
 Synset('chase.v.01')]

In [30]:
print(wn.synset('dog.n.01').definition())

a member of the genus Canis (probably descended from the common wolf) that has been domesticated by man since prehistoric times; occurs in many breeds


In [31]:
len(wn.synset('dog.n.01').examples())

1

In [32]:
 print(wn.synset('dog.n.01').examples()[0])

the dog barked all night


In [33]:
wn.synset('dog.n.01').lemmas()

[Lemma('dog.n.01.dog'),
 Lemma('dog.n.01.domestic_dog'),
 Lemma('dog.n.01.Canis_familiaris')]

In [34]:
[str(lemma.name()) for lemma in wn.synset('dog.n.01').lemmas()]

['dog', 'domestic_dog', 'Canis_familiaris']

In [35]:
wn.lemma('dog.n.01.dog').synset()

Synset('dog.n.01')

In [36]:
sorted(wn.langs())

['als',
 'arb',
 'bul',
 'cat',
 'cmn',
 'dan',
 'ell',
 'eng',
 'eus',
 'fas',
 'fin',
 'fra',
 'glg',
 'heb',
 'hrv',
 'ind',
 'ita',
 'jpn',
 'nld',
 'nno',
 'nob',
 'pol',
 'por',
 'qcn',
 'slv',
 'spa',
 'swe',
 'tha',
 'zsm']

In [37]:
wn.synset('dog.n.01').lemma_names('spa')

['can', 'perro']

In [40]:
wn.lemmas('can', lang='spa')

[Lemma('dog.n.01.can')]

In [41]:
print(len(wn.all_lemma_names(pos='n', lang='spa')))

TypeError: object of type 'set_iterator' has no len()

In [43]:
syns = nltk.corpus.wordnet.synsets('car')

In [44]:
print(syns[0].lemma_names('spa'))

['auto', 'automóvil', 'carro', 'coche', 'máquina', 'turismo', 'vehículo']


Antonimos

In [45]:
good = wn.synset('good.a.01')

In [46]:
print(good.lemmas()[0].antonyms())

[Lemma('bad.a.01.bad')]


-----------------------------------------------------------

In [47]:
 vocal = wn.lemma('vocal.a.01.vocal')

In [48]:
vocal.derivationally_related_forms()

[Lemma('vocalize.v.02.vocalize')]

Intención-Idea a la que refiere la palabra.

In [49]:
vocal.pertainyms()

[Lemma('voice.n.02.voice')]

Antonimo

In [50]:
vocal.antonyms()

[Lemma('instrumental.a.01.instrumental')]