##Bibliotecas

In [383]:
import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
from nltk.tokenize import word_tokenize
from nltk import tokenize 
from nltk.stem import RSLPStemmer
from nltk.stem.porter import *

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


#  Pré-processamento dos dados

In [0]:
base = [('eu sou admirada por muitos','alegria'),
        ('me sinto completamente amado','alegria'),
        ('amar e maravilhoso','alegria'),
        ('estou me sentindo muito animado novamente','alegria'),
        ('eu estou muito bem hoje','alegria'),
        ('que belo dia para dirigir um carro novo','alegria'),
        ('o dia está muito bonito','alegria'),
        ('estou completamente apaixonado por ela','alegria'),
        ('estou contente com o resultado do teste que fiz no dia de ontem','alegria'),
        ('o amor e lindo','alegria'),
        ('eu amo o meu cachorro', 'alegria'),
        ('nossa amizade e amor vai durar para sempre', 'alegria'),
        ('estou amedrontado', 'medo'),
        ('estou com medo de morrer', 'medo'),
        ('ele esta me ameacando a dias', 'medo'),
        ('isso me deixa apavorada', 'medo'),
        ('este lugar e apavorante', 'medo'),
        ('se perdermos outro jogo seremos eliminados e isso me deixa com pavor', 'medo'),
        ('tome cuidado com o lobisomem', 'medo'),
        ('se eles descobrirem estamos encrencados', 'medo'),
        ('estou tremendo de medo', 'medo'),
        ('eu tenho muito medo dele', 'medo'),
        ('estou com medo do resultado dos meus testes', 'medo')]

##Remoção de Stopwords
Esse método consiste em remover palavras muito frequentes, tais como “a”, “de”, “o”, “da”, “que”, “e”, “do” entre outras, pois na maioria das vezes não são informações relevantes para a construção do modelo.

In [385]:
stopwords = nltk.corpus.stopwords.words('portuguese')

def remove_stopwords(texto):
  frase = []
  for (palavras , emocao) in texto:
    sem_stop = [p for p in palavras.split() if p not in stopwords]
    frase.append((sem_stop,emocao))
  return frase

base_sem_stopwords = (remove_stopwords(base))
print(base_sem_stopwords)

[(['admirada', 'muitos'], 'alegria'), (['sinto', 'completamente', 'amado'], 'alegria'), (['amar', 'maravilhoso'], 'alegria'), (['sentindo', 'animado', 'novamente'], 'alegria'), (['bem', 'hoje'], 'alegria'), (['belo', 'dia', 'dirigir', 'carro', 'novo'], 'alegria'), (['dia', 'bonito'], 'alegria'), (['completamente', 'apaixonado'], 'alegria'), (['contente', 'resultado', 'teste', 'fiz', 'dia', 'ontem'], 'alegria'), (['amor', 'lindo'], 'alegria'), (['amo', 'cachorro'], 'alegria'), (['amizade', 'amor', 'vai', 'durar', 'sempre'], 'alegria'), (['amedrontado'], 'medo'), (['medo', 'morrer'], 'medo'), (['ameacando', 'dias'], 'medo'), (['deixa', 'apavorada'], 'medo'), (['lugar', 'apavorante'], 'medo'), (['perdermos', 'outro', 'jogo', 'eliminados', 'deixa', 'pavor'], 'medo'), (['tome', 'cuidado', 'lobisomem'], 'medo'), (['descobrirem', 'encrencados'], 'medo'), (['tremendo', 'medo'], 'medo'), (['medo'], 'medo'), (['medo', 'resultado', 'testes'], 'medo')]


## Stemização
Consiste em reduzir uma palavra ao seu radical

In [386]:
#Stemming

#stemmed_palavras = [stemmer.stem(word) for word in base_sem_stopwords]
def aplica_stemmer(texto):
  stemmer = PorterStemmer()
  stemmed = nltk.stem.SnowballStemmer('portuguese')
  
  frases_stemming = []
  for (palavras, emocao) in texto:
    com_stemming = [str(stemmer.stem(p)) for p in palavras]
    frases_stemming.append((com_stemming,emocao))
  return frases_stemming


print(base_sem_stopwords)
base_nova = aplica_stemmer(base_sem_stopwords)
print(base_nova)


[(['admirada', 'muitos'], 'alegria'), (['sinto', 'completamente', 'amado'], 'alegria'), (['amar', 'maravilhoso'], 'alegria'), (['sentindo', 'animado', 'novamente'], 'alegria'), (['bem', 'hoje'], 'alegria'), (['belo', 'dia', 'dirigir', 'carro', 'novo'], 'alegria'), (['dia', 'bonito'], 'alegria'), (['completamente', 'apaixonado'], 'alegria'), (['contente', 'resultado', 'teste', 'fiz', 'dia', 'ontem'], 'alegria'), (['amor', 'lindo'], 'alegria'), (['amo', 'cachorro'], 'alegria'), (['amizade', 'amor', 'vai', 'durar', 'sempre'], 'alegria'), (['amedrontado'], 'medo'), (['medo', 'morrer'], 'medo'), (['ameacando', 'dias'], 'medo'), (['deixa', 'apavorada'], 'medo'), (['lugar', 'apavorante'], 'medo'), (['perdermos', 'outro', 'jogo', 'eliminados', 'deixa', 'pavor'], 'medo'), (['tome', 'cuidado', 'lobisomem'], 'medo'), (['descobrirem', 'encrencados'], 'medo'), (['tremendo', 'medo'], 'medo'), (['medo'], 'medo'), (['medo', 'resultado', 'testes'], 'medo')]
[(['admirada', 'muito'], 'alegria'), (['sinto

## Removendo as emoções

In [387]:
def remove_emocoes(base):
  base_nova = []
  for (palavras,emocao) in base:
    base_nova.extend(palavras)
  return base_nova

base_palavras = remove_emocoes(base_nova)
print(base_palavras)

['admirada', 'muito', 'sinto', 'completament', 'amado', 'amar', 'maravilhoso', 'sentindo', 'animado', 'novament', 'bem', 'hoje', 'belo', 'dia', 'dirigir', 'carro', 'novo', 'dia', 'bonito', 'completament', 'apaixonado', 'content', 'resultado', 'test', 'fiz', 'dia', 'ontem', 'amor', 'lindo', 'amo', 'cachorro', 'amizad', 'amor', 'vai', 'durar', 'sempr', 'amedrontado', 'medo', 'morrer', 'ameacando', 'dia', 'deixa', 'apavorada', 'lugar', 'apavorant', 'perdermo', 'outro', 'jogo', 'eliminado', 'deixa', 'pavor', 'tome', 'cuidado', 'lobisomem', 'descobrirem', 'encrencado', 'tremendo', 'medo', 'medo', 'medo', 'resultado', 'test']


In [388]:
frequencia = nltk.FreqDist(base_palavras)
print(frequencia.most_common(20))

[('dia', 4), ('medo', 4), ('completament', 2), ('resultado', 2), ('test', 2), ('amor', 2), ('deixa', 2), ('admirada', 1), ('muito', 1), ('sinto', 1), ('amado', 1), ('amar', 1), ('maravilhoso', 1), ('sentindo', 1), ('animado', 1), ('novament', 1), ('bem', 1), ('hoje', 1), ('belo', 1), ('dirigir', 1)]


##Vetor de caracteristicas

In [389]:
def busca_palavras_unicas(base_frequencia):
  return base_frequencia.keys()

palavras_unicas = busca_palavras_unicas(frequencia)
print(palavras_unicas)

dict_keys(['admirada', 'muito', 'sinto', 'completament', 'amado', 'amar', 'maravilhoso', 'sentindo', 'animado', 'novament', 'bem', 'hoje', 'belo', 'dia', 'dirigir', 'carro', 'novo', 'bonito', 'apaixonado', 'content', 'resultado', 'test', 'fiz', 'ontem', 'amor', 'lindo', 'amo', 'cachorro', 'amizad', 'vai', 'durar', 'sempr', 'amedrontado', 'medo', 'morrer', 'ameacando', 'deixa', 'apavorada', 'lugar', 'apavorant', 'perdermo', 'outro', 'jogo', 'eliminado', 'pavor', 'tome', 'cuidado', 'lobisomem', 'descobrirem', 'encrencado', 'tremendo'])


##Extração das palavas
palavras com frêquencia igual a 1

In [390]:
def extrator_palavras(documento):
  doc = set(documento)
  caracteristica = {}
  for palavra in palavras_unicas:
    caracteristica['%s' % palavra] = (palavra in doc)
  return caracteristica

print(extrator_palavras(['sinto','muito','medo']))

{'admirada': False, 'muito': True, 'sinto': True, 'completament': False, 'amado': False, 'amar': False, 'maravilhoso': False, 'sentindo': False, 'animado': False, 'novament': False, 'bem': False, 'hoje': False, 'belo': False, 'dia': False, 'dirigir': False, 'carro': False, 'novo': False, 'bonito': False, 'apaixonado': False, 'content': False, 'resultado': False, 'test': False, 'fiz': False, 'ontem': False, 'amor': False, 'lindo': False, 'amo': False, 'cachorro': False, 'amizad': False, 'vai': False, 'durar': False, 'sempr': False, 'amedrontado': False, 'medo': True, 'morrer': False, 'ameacando': False, 'deixa': False, 'apavorada': False, 'lugar': False, 'apavorant': False, 'perdermo': False, 'outro': False, 'jogo': False, 'eliminado': False, 'pavor': False, 'tome': False, 'cuidado': False, 'lobisomem': False, 'descobrirem': False, 'encrencado': False, 'tremendo': False}


##Base Completa

In [391]:
base_completa = nltk.classify.apply_features(extrator_palavras,base_nova)
print(base_completa[0])

({'admirada': True, 'muito': True, 'sinto': False, 'completament': False, 'amado': False, 'amar': False, 'maravilhoso': False, 'sentindo': False, 'animado': False, 'novament': False, 'bem': False, 'hoje': False, 'belo': False, 'dia': False, 'dirigir': False, 'carro': False, 'novo': False, 'bonito': False, 'apaixonado': False, 'content': False, 'resultado': False, 'test': False, 'fiz': False, 'ontem': False, 'amor': False, 'lindo': False, 'amo': False, 'cachorro': False, 'amizad': False, 'vai': False, 'durar': False, 'sempr': False, 'amedrontado': False, 'medo': False, 'morrer': False, 'ameacando': False, 'deixa': False, 'apavorada': False, 'lugar': False, 'apavorant': False, 'perdermo': False, 'outro': False, 'jogo': False, 'eliminado': False, 'pavor': False, 'tome': False, 'cuidado': False, 'lobisomem': False, 'descobrirem': False, 'encrencado': False, 'tremendo': False}, 'alegria')


# Mineração de emoções

## Classificação com Naive Bayes
O algoritmo “[Naive Bayes](https://www.datageeks.com.br/naive-bayes/)” é um classificador probabilístico muito utilizado em machine learning. Baseado no “Teorema de Bayes”, o modelo foi criado por um matemático inglês, e também ministro presibiteriano, chamado Thomas Bayes (1701 – 1761) para tentar provar a existência de Deus.

In [392]:
# Cria a tabela probabilistica 
classificador = nltk.NaiveBayesClassifier.train(base_completa)
print(classificador.labels()) # existe dois tipos de classes 'Alegria' e 'Medo'

['alegria', 'medo']


In [0]:
def aplica_stemmer_frase(texto):
  stemmer = PorterStemmer()
  stemmed = nltk.stem.SnowballStemmer('portuguese')
  frases_stemming = []
  for palavras in texto.split():
    pala = [p for p in palavras.split()]
    frases_stemming.append(str(stemmer.stem(pala[0])))
  return frases_stemming

In [0]:
def classifica_prob(texto):
  dist = classificador.prob_classify(texto)
  result = ''
  for classe in dist.samples():
    result += classe + " : " + str(dist.prob(classe)) + " "
  return result

In [395]:
print(classificador.show_most_informative_features(5))

Most Informative Features
                     dia = True           alegri : medo   =      2.2 : 1.0
                    medo = False          alegri : medo   =      1.5 : 1.0
                   deixa = False          alegri : medo   =      1.2 : 1.0
                     dia = False            medo : alegri =      1.2 : 1.0
            completament = False            medo : alegri =      1.2 : 1.0
None


In [396]:
teste = "Eu morro de amor por meu cachorro"
teste = aplica_stemmer_frase(teste) # Removendo os radicais
print(teste)

['Eu', 'morro', 'de', 'amor', 'por', 'meu', 'cachorro']


In [0]:
teste = extrator_palavras(teste)

In [398]:
print("Sentimento da frase =>" ,classificador.classify(teste))

Sentimento da frase => alegria


In [399]:
classifica_prob(teste)

'alegria : 0.9205184474097389 medo : 0.07948155259026093 '