# Multinomial Naive Bayes

O algoritmo Multinomial Naive Bayes é uma variação do classificador Naive Bayes e é especialmente útil para dados que representam contagens ou frequências de eventos. 

### EXEMPLOS

**EXEMPLO 1**

Vamos supere que você queria classificar automaticamente quem é o proprietário de uma cesta de frutas. O dataset registra quantas frutas existem em cada cesta (representada por `id`) e seu respectivo propriério.

| ID | Maçãs | Bananas | Laranjas | Uvas | Proprietário da cesta |
|----|-------|---------|----------|------|-------|
| 1 | 5 | 3 | 2 | 0 | A |
| 2 | 0 | 6 | 1 | 3 | B |
| 3 | 3 | 0 | 5 | 2 | A |
| 4 | 1 | 3 | 0 | 6 | B |
| 5 | 4 | 2 | 3 | 1 | A |
| 6 | 1 | 5 | 0 | 4 | B |

**EXEMPLO 2**

O Naive Bayes multinomial é frequentemente utilizado quanto o dataset contém textos. Um caso comum é a classificação de sentimento em um conjunto de `reviews` de produtos. Então, vamos supor que você queira classificar automaticamente se as revisões dos produtos são positivas (1) ou negativas (0). O conjunto de dados poderia ser similar ao seguinte:

| ID |  Revisão do produto |  Classificação |
|----|-------------------|----------------|
| 1 |	Este produto é incrível! | 1 |
| 2 |	Não gostei do produto, me decepcionou. | 0 |
| 3 |	O produto é bom, mas poderia ser melhor. | 1 |
| 4 |	Terrível! Não compraria de novo. | 0 |
| 5 |	Melhor compra que fiz este ano. | 1 |
| 6 |	Produto de péssima qualidade. | 0 |
| 7 |	Estou extremamente satisfeito com este produto. | 1 |
| 8 |	Não vale a pena, muito caro para o que oferece. | 0 |
| 9 |	A qualidade do produto excedeu minhas expectativas. | 1 |
| 10 |	Muito ruim, quebrou após um mês de uso. | 0 |

*Vetorizando o conjunto de dados*

O algoritmo Multinomial Naive Bayes funnciona bem porque podemos converter as sentenças em um vetor de frequências. A tabela a seguir mostra uma simplificação de como cada sentença acima poderia ser convertida em um vetor de frequências. Cada palalavra (mais precisamente, *token*) do vocabulário do conjunto de dados vira um atributo que registra a frequência de ocorrência do *token* no texto. 

| ID | este | produto | incrível | não | gostei | me | decepcionou | o | bom | mas | poderia | ser | melhor | terrível | compraria | novo |
|----|------|---------|----------|-----|--------|----|-------------|---|-----|-----|---------|-----|--------|----------|-----------|------| 
| 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| 2 | 0 | 1 | 0 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| 3 | 0 | 1 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 |
| 4 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 1 | 1 | 1 |

## Considerações

A aplicação correta de um algoritmo de *Machine Learning* envolve várias considerações importantes relacionadas aos dados. Assim, aqui estão algumas ponderações que você deve considerar antes de aplicar esse algoritmo.

* As variáveis preditoras seguem uma distribuição multinomial (i.e., contagens)?

* Existem *outliers* ou *ruídos* no conjunto de treinamento?

* Os classes estão balanceadas?

* Você considerou o 'problema da frequência zero'?

* As variáveis estão altamente correlacionadas?

## O Algoritmo na Prática

**Bibliotecas**

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

**Ingestão**

In [None]:
# Primeiro obtemos um conjunto de dados
textos = ['Este produto é incrível!',
          'Não gostei do produto, me decepcionou.',
          'O produto é bom, mas poderia ser melhor.',
          'Terrível! Não compraria de novo.',
          'Melhor compra que fiz este ano.',
          'Produto de péssima qualidade.']


# Anotamos cada review (1 para sentimento positivo e 0 para negativo)
etiquetas = [1, 0, 1, 0, 1, 0]

**Preparação**

In [None]:
# Dividimos os dados em treinamento e teste
textos_treino, textos_teste, etiquetas_treino, etiquetas_teste = train_test_split(textos, etiquetas, test_size=0.2)

In [None]:
# Criamos o objeto CountVectorizer e transformamos os textos de treinamento em uma matriz de contagens de palavras
vetorizador = CountVectorizer()
X_treino = vetorizador.fit_transform(textos_treino)

# Fazemos o mesmo com os textos de teste. Desta vez só usamos o transform (não queremos aprender novas palavras no conjunto de teste)
X_teste = vetorizador.transform(textos_teste)

**Treinamento**

In [None]:
# Criamos e treinamos o modelo Multinomial Naive Bayes
modelo = MultinomialNB()
modelo.fit(X_treino, etiquetas_treino)

**Testes**

In [None]:
# Fazemos previsões sobre os dados de teste e calculamos a precisão
etiquetas_previstas = modelo.predict(X_teste)
print("Precisão: ", accuracy_score(etiquetas_teste, etiquetas_previstas))