# Stemming
    Ao pesquisar uma palavra-chave, ajuda se a pesquisa retornar variações da palavra, por exemplo, pesquisar "barco" também pode retornar "barcos" e "barco". Aqui, "barco" seria a ** haste ** para [barco, barco, barco, barcos].

    Stemming é um método um tanto rudimentar para catalogar palavras relacionadas; essencialmente corta as letras do final até que o radical seja alcançado. Isso funciona muito bem na maioria dos casos, mas infelizmente o inglês tem muitas exceções onde um processo mais sofisticado é necessário. Na verdade, spaCy não inclui um lematizador, optando por confiar inteiramente na lematização. 

## Porter Stemmer

    Uma das ferramentas de lematização mais comuns - e eficazes - é o Algoritmo de Porter
    O algoritmo emprega cinco fases de redução de palavras, cada uma com seu próprio conjunto de regras de mapeamento. Na primeira fase, regras simples de mapeamento de sufixo são definidas.

In [2]:
import nltk

from nltk.stem.porter import *

In [3]:
p_stemmer = PorterStemmer()

In [4]:
words = ['run','runner','running','ran','runs','easily','fairly']

In [5]:
for word in words:
    print(word+' --> '+p_stemmer.stem(word))

run --> run
runner --> runner
running --> run
ran --> ran
runs --> run
easily --> easili
fairly --> fairli


<font color = green> Observe como o lematizador reconhece "runner" como um substantivo, não uma forma verbal ou particípio. Além disso, os advérbios "facilmente" e "razoavelmente" derivam da raiz incomum "easili" e "fairli" </font>

## Snowball Stemmer
    "Porter2 Stemmer" ele oferece uma ligeira melhoria em relação à original Porter, tanto em lógica quanto em velocidade.

In [6]:
from nltk.stem.snowball import SnowballStemmer

In [7]:
s_stemmer = SnowballStemmer(language='english')

In [12]:
words = ['run','runner','running','ran','runs','easily','fairly']

for word in words:
    print(word+' --> '+s_stemmer.stem(word))

run --> run
runner --> runner
running --> run
ran --> ran
runs --> run
easily --> easili
fairly --> fair


In [13]:
words = ['generous','generation','generously','generate']

for word in words:
    print(word+' --> '+s_stemmer.stem(word))

generous --> generous
generation --> generat
generously --> generous
generate --> generat


<font color = green> Neste caso, o lematizador teve o mesmo desempenho que o Porter Stemmer, com a exceção de que tratou o radical de "fairly" de forma mais adequada com "fair" </font>

In [28]:
print('Porter Stemmer:')

words = ['joyful']
for word in words:
    print(word+' --> '+p_stemmer.stem(word))

Porter Stemmer:
felicidade --> felicidad


In [23]:
print('Porter2 Stemmer:')

words = ['joyful']
for word in words:
    print(word+' --> '+s_stemmer.stem(word))

Porter2 Stemmer:
joyful --> joy


___

# Lemmatization

In [30]:
import spacy

In [29]:
nlp = spacy.load('/home/alana/Documentos/NLP/UDEMY/en_core_web_sm-2.2.0/en_core_web_sm/en_core_web_sm-2.2.0')

In [31]:
doc1 = nlp(u"I am a runner running in a race because I love to run since I ran today")

for token in doc1:
    print(token.text, '\t', token.pos_, '\t', token.lemma, '\t', token.lemma_)

I 	 PRON 	 561228191312463089 	 -PRON-
am 	 AUX 	 10382539506755952630 	 be
a 	 DET 	 11901859001352538922 	 a
runner 	 NOUN 	 12640964157389618806 	 runner
running 	 VERB 	 12767647472892411841 	 run
in 	 ADP 	 3002984154512732771 	 in
a 	 DET 	 11901859001352538922 	 a
race 	 NOUN 	 8048469955494714898 	 race
because 	 SCONJ 	 16950148841647037698 	 because
I 	 PRON 	 561228191312463089 	 -PRON-
love 	 VERB 	 3702023516439754181 	 love
to 	 PART 	 3791531372978436496 	 to
run 	 VERB 	 12767647472892411841 	 run
since 	 SCONJ 	 10066841407251338481 	 since
I 	 PRON 	 561228191312463089 	 -PRON-
ran 	 VERB 	 12767647472892411841 	 run
today 	 NOUN 	 11042482332948150395 	 today


<font color = green> Na frase acima, `running`,` run` e `run` apontam para o mesmo lema` run` (... 11841) para evitar duplicação. </font>

    Função para exibir lemas
    função que exiba as informações que desejamos de forma mais organizada.

In [33]:
def show_lemmas(text):
    for token in text:
        print(f'{token.text:{12}} {token.pos_:{6}} {token.lemma:<{22}} {token.lemma_}')

In [34]:
doc2 = nlp(u"I saw eighteen mice today!")

show_lemmas(doc2)

I            PRON   561228191312463089     -PRON-
saw          VERB   11925638236994514241   see
eighteen     NUM    9609336664675087640    eighteen
mice         NOUN   1384165645700560590    mouse
today        NOUN   11042482332948150395   today
!            PUNCT  17494803046312582752   !


In [35]:
doc3 = nlp(u"I am meeting him tomorrow at the meeting.")

show_lemmas(doc3)

I            PRON   561228191312463089     -PRON-
am           AUX    10382539506755952630   be
meeting      VERB   6880656908171229526    meet
him          PRON   561228191312463089     -PRON-
tomorrow     NOUN   3573583789758258062    tomorrow
at           ADP    11667289587015813222   at
the          DET    7425985699627899538    the
meeting      NOUN   14798207169164081740   meeting
.            PUNCT  12646065887601541794   .


## Embora a lematização olhe para o texto circundante para determinar a classe gramatical de uma determinada palavra, ela não categoriza frases.