# Modelos probabilisticos - Naive Bayes

* Em determinados problemas, é possível fazer uma relação entre variáveis por meio de probabilidades
* O naive bayes é um modelo voltado para esta visão, tendo como base o teorema de Bayes
* Suposição de independência ou não correlação entre as variáveis do conjunto de dados sendo utilizadas para resolver um determinado problema
* Variáveis igualmente importantes
* Formulação de acordo com o teorema de Bayes
  * Utilizado para cálculo da probabilidade de um evento A dado que um evento B ocorreu
  * P(B|A): probabilidade de B acontecer dado que A ocorreu
  * P(A): probabilidade de A ocorrer
  * P(B): probabilidade de B ocorrer
![Title](../imgs/teorema_bayes.webp)

# Como assim professora?
![Title](../imgs/fine.jpg)

# Exemplo
![Title](../imgs/tabela-bayes.png)

𝑃(𝑆𝑖𝑚|𝐸𝑛𝑠𝑜𝑙𝑎𝑟𝑎𝑑𝑜)=(𝑃(𝐸𝑛𝑠𝑜𝑙𝑎𝑟𝑎𝑑𝑜|𝑆𝑖𝑚)∗𝑃(𝑆𝑖𝑚))/𝑃(𝐸𝑛𝑠𝑜𝑙𝑎𝑟𝑎𝑑𝑜)


𝑃(𝑆𝑖𝑚)=9/14=0,64

𝑃(𝐸𝑛𝑠𝑜𝑙𝑎𝑟𝑎𝑑𝑜)=5/14=0,36

𝑃(𝐸𝑛𝑠𝑜𝑙𝑎𝑟𝑎𝑑𝑜|𝑆𝑖𝑚)=3/9=0,33

P(Sim | Ensolarado) = 0,33 * 0,64 / 0,36 = 0,60

# Uso em NLP

* O algoritmo de Bayes é uma das técnicas simples mais utilizadas para NLP em aplicações de classificação
* Palavras com maior probabilidade de ocorrer em uma determinada classe determinam um padrão

![Title](../imgs/bayes_nlp.png)

## Variações do Naive Bayes

Algoritmos de ML dependem principalmente da natureza dos seus dados! Sendo assim, naturalmente, diferentes formas de organizar a base de dados retornam diferentes resultados para o algoritmo de Bayes. Dessa forma, temos variações:

* Gaussian Naive Bayes: Utilizado na classificação assumindo uma distribuição normal.
* Bernoulli Naive Bayes: O modelo binomial é útil se os vetores são binários (0 ou 1)
* Multinomial Naive Bayes: Esse algoritmo usa os dados em uma distribuição multinomial, que é uma generalização da distribuição binomial. Se, por exemplo, considerarmos um problema de classificação de texto. Podemos considerar tentativas de Bernoulli, onde ao invés de verificarmos a palavra que ocorre no documento, verificamos a contagem de vezes que a palavra apareceu no texto.

In [39]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import nltk
from nltk.stem.porter import *
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import re
from sklearn.metrics import classification_report
from sklearn.naive_bayes import MultinomialNB

# Bibliotecas para o modelo
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import GaussianNB

In [2]:
nltk.download('stopwords')
nltk.download('punkt')

# Define as stopwords em inglês
sw_english = set(stopwords.words('english'))

# Instância o PorterStemmer
stemmer = PorterStemmer()

[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/cecilia/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /Users/cecilia/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### MultinomialNB

Como vimos que o Multinomial Naive Bayes é indicado quando nossos dados estão em uma estrutura baseada em contagens, podemos utiliza-lo para o nosso problema e comparar os resultados obtidos anteriormente

### Outros algoritmos de ML