## Extração das palavras
***

Agora iremo criar a tabela de palavras (radicais) para começar o aprendizado de máquina, para montar uma tabela igual a tabela abaixo:

![img2](https://user-images.githubusercontent.com/14116020/50458587-48cb7000-094b-11e9-8757-d4b03e19acd0.png)

***

In [1]:
from base import base
import nltk

In [2]:
def aplicar_stemming(texto):
    """
    Pega os radicais do texto
    """
    
    stopwords = nltk.corpus.stopwords.words("portuguese")
    
    # Pegar o stemmer especifico para a lingua portuguesa
    stemmer = nltk.stem.RSLPStemmer()
    frases = []
    
    for (palavras, emocao) in texto:
        # stem() retira o radical da palavra
        stemming = [str(stemmer.stem(palavra)) for palavra in palavras.split() if palavra not in stopwords]
        frases.append((stemming, emocao))
        
    return frases

In [3]:
stemming = aplicar_stemming(base)

In [4]:
print(stemming)

[(['admir', 'muit'], 'alegria'), (['sint', 'complet', 'am'], 'alegria'), (['am', 'maravilh'], 'alegria'), (['sent', 'anim', 'nov'], 'alegria'), (['bem', 'hoj'], 'alegria'), (['bel', 'dia', 'dirig', 'carr', 'nov'], 'alegria'), (['dia', 'bonit'], 'alegria'), (['cont', 'result', 'test', 'fiz', 'dia', 'ont'], 'alegria'), (['am', 'lind'], 'alegria'), (['amizad', 'am', 'vai', 'dur', 'sempr'], 'alegria'), (['amedront'], 'medo'), (['ameac', 'dia'], 'medo'), (['deix', 'apavor'], 'medo'), (['lug', 'apavor'], 'medo'), (['perd', 'outr', 'jog', 'elimin', 'deix', 'pav'], 'medo'), (['tom', 'cuid', 'lobisom'], 'medo'), (['descobr', 'encrenc'], 'medo'), (['trem', 'med'], 'medo'), (['med'], 'medo'), (['med', 'result', 'test'], 'medo')]


***

In [5]:
def busca_palavras(stemming):
    """
    Pega a stemming e retira as emoções, pegando só as palavras.
    """
    
    so_palavras = []
    
    for (palavras, emocao) in stemming:
        # extend: Pega os elementos da lista e joga 1 por 1 dentro da outra lista
        so_palavras.extend(palavras)
        
    # pega a frequencia de vezes que uma palavra aparece.
    qtd_palavras = nltk.FreqDist(so_palavras)
    
    # Retira as palavras repetidas
    sem_repeticao = qtd_palavras.keys()
    
    return list(sem_repeticao), qtd_palavras.most_common()

In [6]:
palavras_unicas, qtd_palavras = busca_palavras(stemming)

In [7]:
print(len(palavras_unicas))
print(palavras_unicas)

43
['bel', 'nov', 'sint', 'encrenc', 'amizad', 'sent', 'cont', 'pav', 'deix', 'result', 'muit', 'dur', 'cuid', 'jog', 'bem', 'lug', 'fiz', 'carr', 'complet', 'tom', 'hoj', 'vai', 'test', 'admir', 'ont', 'outr', 'trem', 'lobisom', 'bonit', 'perd', 'am', 'maravilh', 'dirig', 'lind', 'amedront', 'elimin', 'sempr', 'med', 'ameac', 'anim', 'dia', 'apavor', 'descobr']


In [8]:
print(qtd_palavras)

[('am', 4), ('dia', 4), ('med', 3), ('nov', 2), ('deix', 2), ('result', 2), ('test', 2), ('apavor', 2), ('bel', 1), ('sint', 1), ('encrenc', 1), ('amizad', 1), ('sent', 1), ('cont', 1), ('pav', 1), ('muit', 1), ('dur', 1), ('cuid', 1), ('jog', 1), ('bem', 1), ('lug', 1), ('fiz', 1), ('carr', 1), ('complet', 1), ('tom', 1), ('hoj', 1), ('vai', 1), ('admir', 1), ('ont', 1), ('outr', 1), ('trem', 1), ('lobisom', 1), ('bonit', 1), ('perd', 1), ('maravilh', 1), ('dirig', 1), ('lind', 1), ('amedront', 1), ('elimin', 1), ('sempr', 1), ('ameac', 1), ('anim', 1), ('descobr', 1)]


***

In [9]:
def extrair_palavras(novas_palavras):
    """
    Recebe uma nova frase (lista de radicais) e verifica quais palavras tem
    e quais não tem de acordo com a tabela de palavras unicas (radicais).
    Monta uma linha da tabela.
    """
    
    frase = set(novas_palavras)
    
    linha_tabela = {}
    
    # essa palavras_unicas vem de busca_palavras(stemming)
    for palavra in palavras_unicas:
        linha_tabela["%s" % palavra] = (palavra in frase)
        
    return linha_tabela

In [10]:
print(extrair_palavras(['am', 'nov', 'dia']))

{'bel': False, 'nov': True, 'sint': False, 'encrenc': False, 'amizad': False, 'sent': False, 'cont': False, 'deix': False, 'result': False, 'muit': False, 'dur': False, 'cuid': False, 'lobisom': False, 'pav': False, 'lug': False, 'fiz': False, 'carr': False, 'complet': False, 'hoj': False, 'vai': False, 'test': False, 'admir': False, 'dia': True, 'bem': False, 'jog': False, 'trem': False, 'outr': False, 'bonit': False, 'apavor': False, 'am': True, 'maravilh': False, 'dirig': False, 'lind': False, 'amedront': False, 'elimin': False, 'sempr': False, 'descobr': False, 'med': False, 'tom': False, 'anim': False, 'ont': False, 'perd': False, 'ameac': False}


***

In [11]:
# Extrair todas as frases (montar a tabela completa)
# Vamos pegar cada uma das frases do steamming e aplicar no método extrair_palavras
# e jogar tudo para uma variável
base_completa = nltk.classify.apply_features(extrair_palavras, stemming)

In [12]:
# Base de dados final que vamos submeter para os algoritmos de aprendizagem de máquina
print(base_completa[15])

({'bel': False, 'nov': False, 'sint': False, 'encrenc': False, 'amizad': False, 'sent': False, 'cont': False, 'deix': False, 'result': False, 'muit': False, 'dur': False, 'cuid': True, 'lobisom': True, 'pav': False, 'lug': False, 'fiz': False, 'carr': False, 'complet': False, 'hoj': False, 'vai': False, 'test': False, 'admir': False, 'dia': False, 'bem': False, 'jog': False, 'trem': False, 'outr': False, 'bonit': False, 'apavor': False, 'am': False, 'maravilh': False, 'dirig': False, 'lind': False, 'amedront': False, 'elimin': False, 'sempr': False, 'descobr': False, 'med': False, 'tom': True, 'anim': False, 'ont': False, 'perd': False, 'ameac': False}, 'medo')
