<a href="https://colab.research.google.com/github/Sandoque/MineracaoEmocao/blob/devprod/MineracaoEmocao.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import nltk

In [2]:
nltk.download('stopwords')
nltk.download('rslp')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package rslp to /root/nltk_data...
[nltk_data]   Unzipping stemmers/rslp.zip.


True

## Pré-processamento dos textos

### Base de dados de frases

In [3]:
base = [('eu sou admirada por muitos','alegria'),
        ('me sinto completamente amado','alegria'),
        ('amar e maravilhoso','alegria'),
        ('estou me sentindo muito animado novamente','alegria'),
        ('eu estou muito bem hoje','alegria'),
        ('que belo dia para dirigir um carro novo','alegria'),
        ('o dia está muito bonito','alegria'),
        ('estou contente com o resultado do teste que fiz no dia de ontem','alegria'),
        ('o amor e lindo','alegria'),
        ('nossa amizade e amor vai durar para sempre', 'alegria'),
        ('estou amedrontado', 'medo'),
        ('ele esta me ameacando a dias', 'medo'),
        ('isso me deixa apavorada', 'medo'),
        ('este lugar e apavorante', 'medo'),
        ('se perdermos outro jogo seremos eliminados e isso me deixa com pavor', 'medo'),
        ('tome cuidado com o lobisomem', 'medo'),
        ('se eles descobrirem estamos encrencados', 'medo'),
        ('estou tremendo de medo', 'medo'),
        ('eu tenho muito medo dele', 'medo'),
        ('estou com medo do resultado dos meus testes', 'medo')]

### Lista de stopwords

In [4]:
stopwords = nltk.corpus.stopwords.words('portuguese')

### Extração do radical das palavras (stemming) e remoção de stopwords

In [5]:
def aplica_stemmer(texto):
  stemmer = nltk.stem.RSLPStemmer()
  frases_stemming = []
  for (palavras, emocao) in texto:
    com_stemming = [str(stemmer.stem(p)) for p in palavras.split() if p not in stopwords]
    frases_stemming.append((com_stemming, emocao))
  return frases_stemming

#### Lista de frases com stemming e sem stopwords

In [6]:
frases_com_stemming = aplica_stemmer(base)

In [7]:
print(frases_com_stemming)

[(['admir', 'muit'], 'alegria'), (['sint', 'complet', 'am'], 'alegria'), (['am', 'maravilh'], 'alegria'), (['sent', 'anim', 'nov'], 'alegria'), (['bem', 'hoj'], 'alegria'), (['bel', 'dia', 'dirig', 'carr', 'nov'], 'alegria'), (['dia', 'bonit'], 'alegria'), (['cont', 'result', 'test', 'fiz', 'dia', 'ont'], 'alegria'), (['am', 'lind'], 'alegria'), (['amizad', 'am', 'vai', 'dur', 'sempr'], 'alegria'), (['amedront'], 'medo'), (['ameac', 'dia'], 'medo'), (['deix', 'apavor'], 'medo'), (['lug', 'apavor'], 'medo'), (['perd', 'outr', 'jog', 'elimin', 'deix', 'pav'], 'medo'), (['tom', 'cuid', 'lobisom'], 'medo'), (['descobr', 'encrenc'], 'medo'), (['trem', 'med'], 'medo'), (['med'], 'medo'), (['med', 'result', 'test'], 'medo')]


## Listagem e tratamento de todas as palavras da base

In [8]:
def busca_palavras(frases):
  todas_palavras = []
  for (palavras, emocao) in frases:
    todas_palavras.extend(palavras)
  return todas_palavras


#### Lista de palavras da base

In [17]:
palavras = busca_palavras(frases_com_stemming)

In [18]:
print(palavras)

['admir', 'muit', 'sint', 'complet', 'am', 'am', 'maravilh', 'sent', 'anim', 'nov', 'bem', 'hoj', 'bel', 'dia', 'dirig', 'carr', 'nov', 'dia', 'bonit', 'cont', 'result', 'test', 'fiz', 'dia', 'ont', 'am', 'lind', 'amizad', 'am', 'vai', 'dur', 'sempr', 'amedront', 'ameac', 'dia', 'deix', 'apavor', 'lug', 'apavor', 'perd', 'outr', 'jog', 'elimin', 'deix', 'pav', 'tom', 'cuid', 'lobisom', 'descobr', 'encrenc', 'trem', 'med', 'med', 'med', 'result', 'test']


### Extração de palavras únicas

In [10]:
def busca_frequencia(palavras):
  palavras = nltk.FreqDist(palavras)
  return palavras

#### Lista de palavras com a frequencia

In [19]:
frequencia = busca_frequencia(palavras)

In [20]:
print(frequencia.most_common(50))

[('am', 4), ('dia', 4), ('med', 3), ('nov', 2), ('result', 2), ('test', 2), ('deix', 2), ('apavor', 2), ('admir', 1), ('muit', 1), ('sint', 1), ('complet', 1), ('maravilh', 1), ('sent', 1), ('anim', 1), ('bem', 1), ('hoj', 1), ('bel', 1), ('dirig', 1), ('carr', 1), ('bonit', 1), ('cont', 1), ('fiz', 1), ('ont', 1), ('lind', 1), ('amizad', 1), ('vai', 1), ('dur', 1), ('sempr', 1), ('amedront', 1), ('ameac', 1), ('lug', 1), ('perd', 1), ('outr', 1), ('jog', 1), ('elimin', 1), ('pav', 1), ('tom', 1), ('cuid', 1), ('lobisom', 1), ('descobr', 1), ('encrenc', 1), ('trem', 1)]


#### Remoção de palavras repetidas

In [12]:
def busca_palavras_unicas(frequencia):
  palavras_unicas = frequencia.keys()
  return palavras_unicas

#### Lista de palavras unicas

In [21]:
palavras_unicas = busca_palavras_unicas(frequencia)

In [22]:
print(palavras_unicas)

dict_keys(['admir', 'muit', 'sint', 'complet', 'am', 'maravilh', 'sent', 'anim', 'nov', 'bem', 'hoj', 'bel', 'dia', 'dirig', 'carr', 'bonit', 'cont', 'result', 'test', 'fiz', 'ont', 'lind', 'amizad', 'vai', 'dur', 'sempr', 'amedront', 'ameac', 'deix', 'apavor', 'lug', 'perd', 'outr', 'jog', 'elimin', 'pav', 'tom', 'cuid', 'lobisom', 'descobr', 'encrenc', 'trem', 'med'])


### Extração de palavras/caracteristicas de cada frase

In [14]:
def extrator_palavras(documento):
  doc = set(documento)
  caracteristicas = {}
  for palavras in palavras_unicas:
    caracteristicas['%s' % palavras] = (palavras in doc)
  return caracteristicas

#### Lista com caracteristicas (True / False) de palavras

In [23]:
caracteristicas_frase = extrator_palavras(['am', 'nov', 'dia'])

In [24]:
print(caracteristicas_frase)

{'admir': False, 'muit': False, 'sint': False, 'complet': False, 'am': True, 'maravilh': False, 'sent': False, 'anim': False, 'nov': True, 'bem': False, 'hoj': False, 'bel': False, 'dia': True, 'dirig': False, 'carr': False, 'bonit': False, 'cont': False, 'result': False, 'test': False, 'fiz': False, 'ont': False, 'lind': False, 'amizad': False, 'vai': False, 'dur': False, 'sempr': False, 'amedront': False, 'ameac': False, 'deix': False, 'apavor': False, 'lug': False, 'perd': False, 'outr': False, 'jog': False, 'elimin': False, 'pav': False, 'tom': False, 'cuid': False, 'lobisom': False, 'descobr': False, 'encrenc': False, 'trem': False, 'med': False}


### Extração das palavras/caracteristicas de todas as frases

In [25]:
base_completa = nltk.apply_features(extrator_palavras, frases_com_stemming)

In [26]:
print(base_completa)

[({'admir': True, 'muit': True, 'sint': False, 'complet': False, 'am': False, 'maravilh': False, 'sent': False, 'anim': False, 'nov': False, 'bem': False, 'hoj': False, 'bel': False, 'dia': False, 'dirig': False, 'carr': False, 'bonit': False, 'cont': False, 'result': False, 'test': False, 'fiz': False, 'ont': False, 'lind': False, 'amizad': False, 'vai': False, 'dur': False, 'sempr': False, 'amedront': False, 'ameac': False, 'deix': False, 'apavor': False, 'lug': False, 'perd': False, 'outr': False, 'jog': False, 'elimin': False, 'pav': False, 'tom': False, 'cuid': False, 'lobisom': False, 'descobr': False, 'encrenc': False, 'trem': False, 'med': False}, 'alegria'), ({'admir': False, 'muit': False, 'sint': True, 'complet': True, 'am': True, 'maravilh': False, 'sent': False, 'anim': False, 'nov': False, 'bem': False, 'hoj': False, 'bel': False, 'dia': False, 'dirig': False, 'carr': False, 'bonit': False, 'cont': False, 'result': False, 'test': False, 'fiz': False, 'ont': False, 'lind':

## Classificando textos com o Naïve Bayes

### Construindo a tabela de probabilidade


In [27]:
classificador = nltk.NaiveBayesClassifier.train(base_completa)

In [34]:
print(classificador.labels())
print(classificador.show_most_informative_features(5))

['alegria', 'medo']
Most Informative Features
                     dia = True           alegri : medo   =      2.3 : 1.0
                      am = False            medo : alegri =      1.6 : 1.0
                     med = False          alegri : medo   =      1.4 : 1.0
                     dia = False            medo : alegri =      1.3 : 1.0
                  apavor = False          alegri : medo   =      1.2 : 1.0
None


### Testes

In [43]:
teste = 'estou com medo'

teste_stemming = []
stemmer = nltk.stem.RSLPStemmer()
for (palavras) in teste.split():
  com_stem = [p for p in palavras.split()]
  teste_stemming.append(str(stemmer.stem(com_stem[0])))
# print(teste_stemming)

novo = extrator_palavras(teste_stemming)
# print(novo)

print(classificador.classify(novo))
distribuicao = classificador.prob_classify(novo)
for classe in distribuicao.samples():
  print("%s: %f" % (classe, distribuicao.prob(classe)))


medo
alegria: 0.041046
medo: 0.958954
