## Algoritmo de Naive Bayes em textos
***

Iremos criar a mesma tabela de probabilidade, porém agora utilizando textos. Usaremos o algoritmo de naive bayes e usando os dados pré-processados que fizemos anteriormente.

Ficará algo parecido com a tabela abaixo:

![img](https://user-images.githubusercontent.com/14116020/50662644-4e9a0480-0f8e-11e9-8dcf-9b8a0fd4ff30.png)

Vamos supor que foi inserido uma nova frase "Me sinto completamente apavorado por este lugar". Qual a probabilidade dessa frase ser de **alegria** ou **medo**?

Primeiro extraia as stopwords e o radical das palavras, ficará: "sint completa pavor lug", com isso verificamos na tabela:

* **sint**: S
* **complet**: S
* **am**: N
* **bem**: N
* **hoje**: N
* **apavor**: S
* **lug**: S

Vamos calcular as probabilidades agora:

* **Probabilidade(Alegria)** = $\frac{2}{2} \times \frac{1}{1} \times \frac{1}{3} \times \frac{2}{4} \times \frac{2}{4} \times \frac{3}{4} \times 0 \times 0 = 0,0375 = \frac{0,0375}{0,0541}\times100 = 69,31\%$


* **Probabilidade(Medo)** = $0 \times 0 \times \frac{2}{3} \times \frac{2}{4} \times \frac{2}{4} \times \frac{1}{4} \times \frac{2}{2} \times \frac{1}{1} = 0,0166 = \frac{0,0166}{0,0541}\times100 = 30,69\%$

Mesmo que tenha multiplicação por zero, o naive bayes tem uma codificação adicional que é chamada de correção laplaceana, que é para evitar essas multiplicações por 0. Ele adiciona um registro onde tem 0 para não prejudicar na multiplicação. Esse registro não tem muito influência nos calculos.

De acordo com a base de dados, que no caso é extremamente pequena, essa frase é de alegria, porém, em uma base com milhares de registro é bem provavel que ela seria de medo.

$0,0375 + 0,0166 = 0,0541$ esse número equivale a $100\%$


***

In [1]:
from pre_processamento import base_completa, extrair_radicais, inseri_tabela
import nltk

In [2]:
# Vamos pegar uma classe especifica para esse algoritmo
# essa classe irá montar essa tabela de probabilidades
# com a base de dados inserida, porém formatada extraindo stopwords e radicais
classificador = nltk.NaiveBayesClassifier.train(base_completa)

In [3]:
print(classificador.labels())

['medo', 'alegria']


In [4]:
# Pega as caracteristicas mais informativa e mostra sua probabilidade
# de acordo com as labels
print(classificador.show_most_informative_features(5))
# Quando o radical dia = True, a frase tem 2.3 vezes mais chances de ser de alegria do que de medo

Most Informative Features
                     dia = True           alegri : medo   =      2.3 : 1.0
                      am = False            medo : alegri =      1.6 : 1.0
                     med = False          alegri : medo   =      1.4 : 1.0
                     dia = False            medo : alegri =      1.3 : 1.0
                     nov = False            medo : alegri =      1.2 : 1.0
None


In [5]:
frase = "Estou com medo"

In [6]:
radicais = extrair_radicais(frase)
print(radicais)

['est', 'med']


In [7]:
nova_linha = inseri_tabela(radicais)
print(nova_linha)

{'sent': False, 'apavor': False, 'tom': False, 'cuid': False, 'ont': False, 'sempr': False, 'bonit': False, 'cont': False, 'deix': False, 'bel': False, 'vai': False, 'anim': False, 'ameac': False, 'med': True, 'pav': False, 'amedront': False, 'muit': False, 'elimin': False, 'test': False, 'hoj': False, 'sint': False, 'descobr': False, 'complet': False, 'jog': False, 'lug': False, 'trem': False, 'nov': False, 'admir': False, 'carr': False, 'dirig': False, 'result': False, 'encrenc': False, 'maravilh': False, 'fiz': False, 'dur': False, 'perd': False, 'amizad': False, 'dia': False, 'am': False, 'outr': False, 'bem': False, 'lobisom': False, 'lind': False}


In [8]:
# Vamos ver a classificação dessa frase
emocao = classificador.classify(nova_linha)
print(emocao)

medo


In [9]:
# Vamos verificar a % de medo e alegria da frase
distribuicao = classificador.prob_classify(nova_linha)
for emocao in distribuicao.samples():
    print("%s: %.2f%s" % (emocao, distribuicao.prob(emocao) * 100, "%"))

medo: 95.90%
alegria: 4.10%
