## Extração do radical das palavras (stemming)
***

**Raiz**: Elemento originário e irredutível em que se concentra a significação da palavra; Por exemplo:

* **livr**-o
* **livr**-inho
* **livr**-eiro
* **livr**-eco

O problema do stemming é que você pode perder informações se duas palavras com sentidos diferentes tem o mesmo radical.

***

In [1]:
from base import base
import nltk

In [2]:
stopwords = nltk.corpus.stopwords.words("portuguese")

In [3]:
print(base)

[('eu sou admirada por muitos', 'alegria'), ('me sinto completamente amado', 'alegria'), ('amar e maravilhoso', 'alegria'), ('estou me sentindo muito animado novamente', 'alegria'), ('eu estou muito bem hoje', 'alegria'), ('que belo dia para dirigir um carro novo', 'alegria'), ('o dia está muito bonito', 'alegria'), ('estou contente com o resultado do teste que fiz no dia de ontem', 'alegria'), ('o amor e lindo', 'alegria'), ('nossa amizade e amor vai durar para sempre', 'alegria'), ('estou amedrontado', 'medo'), ('ele esta me ameacando a dias', 'medo'), ('isso me deixa apavorada', 'medo'), ('este lugar e apavorante', 'medo'), ('se perdermos outro jogo seremos eliminados e isso me deixa com pavor', 'medo'), ('tome cuidado com o lobisomem', 'medo'), ('se eles descobrirem estamos encrencados', 'medo'), ('estou tremendo de medo', 'medo'), ('eu tenho muito medo dele', 'medo'), ('estou com medo do resultado dos meus testes', 'medo')]


In [4]:
print(stopwords)

['de', 'a', 'o', 'que', 'e', 'do', 'da', 'em', 'um', 'para', 'com', 'não', 'uma', 'os', 'no', 'se', 'na', 'por', 'mais', 'as', 'dos', 'como', 'mas', 'ao', 'ele', 'das', 'à', 'seu', 'sua', 'ou', 'quando', 'muito', 'nos', 'já', 'eu', 'também', 'só', 'pelo', 'pela', 'até', 'isso', 'ela', 'entre', 'depois', 'sem', 'mesmo', 'aos', 'seus', 'quem', 'nas', 'me', 'esse', 'eles', 'você', 'essa', 'num', 'nem', 'suas', 'meu', 'às', 'minha', 'numa', 'pelos', 'elas', 'qual', 'nós', 'lhe', 'deles', 'essas', 'esses', 'pelas', 'este', 'dele', 'tu', 'te', 'vocês', 'vos', 'lhes', 'meus', 'minhas', 'teu', 'tua', 'teus', 'tuas', 'nosso', 'nossa', 'nossos', 'nossas', 'dela', 'delas', 'esta', 'estes', 'estas', 'aquele', 'aquela', 'aqueles', 'aquelas', 'isto', 'aquilo', 'estou', 'está', 'estamos', 'estão', 'estive', 'esteve', 'estivemos', 'estiveram', 'estava', 'estávamos', 'estavam', 'estivera', 'estivéramos', 'esteja', 'estejamos', 'estejam', 'estivesse', 'estivéssemos', 'estivessem', 'estiver', 'estivermos

In [5]:
def aplicar_stemming(texto):
    """
    Pega os radicais do texto
    """
    
    # Pegar o stemmer especifico para a lingua portuguesa
    stemmer = nltk.stem.RSLPStemmer()
    frases = []
    
    for (palavras, emocao) in texto:
        # stem() retira o radical da palavra
        stemming = [str(stemmer.stem(palavra)) for palavra in palavras.split() if palavra not in stopwords]
        frases.append((stemming, emocao))
        
    return frases

In [6]:
print(aplicar_stemming(base))

[(['admir', 'muit'], 'alegria'), (['sint', 'complet', 'am'], 'alegria'), (['am', 'maravilh'], 'alegria'), (['sent', 'anim', 'nov'], 'alegria'), (['bem', 'hoj'], 'alegria'), (['bel', 'dia', 'dirig', 'carr', 'nov'], 'alegria'), (['dia', 'bonit'], 'alegria'), (['cont', 'result', 'test', 'fiz', 'dia', 'ont'], 'alegria'), (['am', 'lind'], 'alegria'), (['amizad', 'am', 'vai', 'dur', 'sempr'], 'alegria'), (['amedront'], 'medo'), (['ameac', 'dia'], 'medo'), (['deix', 'apavor'], 'medo'), (['lug', 'apavor'], 'medo'), (['perd', 'outr', 'jog', 'elimin', 'deix', 'pav'], 'medo'), (['tom', 'cuid', 'lobisom'], 'medo'), (['descobr', 'encrenc'], 'medo'), (['trem', 'med'], 'medo'), (['med'], 'medo'), (['med', 'result', 'test'], 'medo')]
