# 2.2 O classificador Naive Bayes
O algoritmo **Naive Bayes** é um classificador probabilístico simples, que aplica o **teorema de Bayes** e que supõe **independência entre os preditores**. Isso significa que, caso seja constatada a presença de um elemento dentro de uma classe, **esse elemento não possui relação alguma com os outros elementos da mesma classe**. Vamos a um exemplo.

Imagine uma laranja:
1. quão laranja ela é?
2. quão dura é sua casca?
3. quão grande ela é?
4. quão redonda ela é?

Mesmo que essas quatro características juntas possuem o poder de definir uma laranja, eles contribuem de forma independente para a probabilidade dessa fruta ser uma laranja. É por conta dessa "injenuidade" que o classificador se chama **Naive Bayes** (literalmente, **Bayes Ingênuo**). Ele compartilha diversas similariedades com o método de Regressão Logística

Você pode ter duvidado que ele seja realmente eficaz. Acredite, ele é **simples**, **fácil de construir** e **muito útil**. Chega a ser melhor do que muitos outros algoritmos de classificação. 

É por esses motivos que vamos estudá-lo e utilizá-lo em nosso sistema de **análise automática de sentimento**.

### 2.2.1 Aplicando o classificador em Análise do Sentimento
#### Vamos novamente utilizar o **corpus de tweets** do NLTK, que está separado em "Tweets **Positivos**" e "Tweets **Negativos**";
1. Precisamos contar **quantas vezes** cada palavra aparece em cada um desses _sets_;
2. Então será necessário calcular a **probabilidade condicional** de cada palavra dos conjuntos;
3. Incluir o **valor** de todas as probabilidades em uma nova tabela;
4. Somar os valores de cada uma das duas colunas e **perceber como a soma resultou no número "1"*.

<img src="images/naive bayes tabela probabilidade.png" width=60%>

#### Por fim, se seguirmos as instruções, obteremos a **tabela de probabilidades** abaixo:
<img src="images/naive bayes tabela probabilidade2.png" width=25%>

Repare nos valores da coluna **Pos** e da coluna **Neg**, pois ambos possuem uma **probabilidade condicional** muito próxima ou até mesmo idêntica. Vamos listar quais são essas palavras:
* I
* am
* learning
* NLP

Viu como essas são exatamente as **palavras que não adicionam qualquer tipo de significado sentimental** para seus tweets? Agora perceba como as outras palavras possuem (com razão) uma **probabilidade maior ou menor**, a depender da classificação de seu tweet original.

Temos um problema em nosso _dataset_. É a palavra **because**. Ela possui **probabilidade zero** em 'Neg', portanto não possui probabilidade alguma de ocorrer em tweets negativos. Isso aconteceu pois, por diversos fatores no colhimento dos dados (e **azar** pode ser um deles), não possuímos nenhum tweet Negativo que contenha a palavra 'because'.

Para resolver esse problema, temos que **manipular** esse dado, **suavizando-o**.

### 2.2.2 Classificação binária com Naive Bayes
Quando recebermos **um novo input de tweet**, podemos facilmente calcular a probabilidade de este ser Positivo ou Negativo. Como estas duas classes são **binárias** (bom/ruim, ligado/desligado, alto/baixo, etc), vamos utilizar a expressão abaixo:

<img src="images/naive bayes inference condition rule.png" width=20%>

A expressão diz respeito à **Naive Bayes Inference Condition Rule for binary classification**. Que nome grande não? Rsrs. Vamos chamar apenas de **classificação binária** (binary classification) utilizando Naive Bayes. Essa expressão nos diz isso:
1. Em $P(w_i|pos)$, você deve trazer o **produto** (w) da **probabilidade** (P) de **cada palavra** (i) da coluna **Pos** (pos);
2. e então **dividir** por $P(w_i|neg)$, que é o produto da probabilidade de cada palavra da coluna **Neg**

Não sabe o que é um **produto**? É simplesmente **o resultado da aplicação do operador de multiplicação**.

Vamos calcular e classificar a frase "I am happy today; I am learning", baseado nos dados da tabela abaixo:

<img src="images/naive bayes tabela probabilidade3.png" width=25%>

Pegue os valores das probabilidades (Pos e Neg) de cada palavra (se ela existir no vocabulário), multiplique-os e assim obtenha o **produto** dos valores de **Pos** e **Neg**. Agora é só dividir um pelo outro!

| Tweet | I | am | happy | I | am | learning |
| :-: | :-: | :-: | :-: | :-: | :-: | :-: |
| 'Pos'| 0.20|0.20|0.14|0.20|0.20|0.10|
| 'Neg'|0.20|0.20|0.10|0.20|0.20|0.10|

Podemos então **riscar as palavras neutras**, ou seja, aquelas que a probabilidade de ser 'Pos' e 'Neg' é **idêntica**. Por fim, só nos resta a palavra **happy**. Vamos **dividir as probabilidades** e chegar ao resultado final dessa expressão.

$\dfrac {0.14}{0.10} = 1.4 $

Chegamos a conclusão de que **o novo tweet** é classificado como '**Positive**', pois sua **classificação binária** utilizando as **probabilidades** obtidas pelo método **Naive Bayes**:
1. resultou em um valor **maior que 1** (1.4);
2. é portanto '**Positive**'.

Prontinho! 
- Acabamos de criar uma **tabela** para inserir os valores das **probabilidades condicionais** de cada palavra do nosso vocabulário, separadas entre tweets Positivos e Negativos.
- Depois aplicamos a **classificação binária Naive Bayes** para classificar um tweet nunca antes visto.