# Naive Bayes

O teorema de Bayes é o principal método para entender a probabilidade de algum evento $P(A|B)$, dada alguma informação nova, $P(B|A)$, e uma crença prévia na probabilidade do evento, $P(A)$:
$$
P(A | B) = \frac{P(B|A)P(A)}{P(B)}
$$

Em aprendizado de máquina, uma aplicação do teorema de Bayes para classificar vem na forma do classificador Bayes ingênuo. Os classificadores Naive Bayes combinam várias qualidades desejáveis ​​em aprendizado de máquina prático em um único classificador:

1. Uma abordagem intuitiva
2. A capacidade de trabalhar com dados pequenos
3. Baixos custos de computação para treinamento e previsão
4. Muitas vezes, resultados sólidos em uma variedade de configurações

Especificamente, um classificador naive bayes é baseado em:
$$
P(y | x_1, ..., x_j) = \frac{P(x_1, ..., x_j | y)P(y)}{P(x_1,...,x_j)}
$$
Onde,
* $P(y | x_1, ..., x_j)$ é chamado de *posterior* e é a probabilidade de que uma observação seja de classe y dados os valores da observação para as j features, $x_1, ..., x_j$
* $P(x_1, ..., x_j)$ é chamado de probabilidade e é a *probabilidade* dos valores de uma observação para características, $x_1, ..., x_j$, dada sua classe y.
* $P(y)$ é chamado de *anterior* e é nossa crença para a probabilidade da classe y antes de analisar os dados
* P($x_1, ..., x_j$) é chamado de *probabilidade marginal*

Em Naive Bayes, comparamos os valores a posteriori de uma observação para cada classe possível. Especificamente, como a probabilidade marginal é constante nessas comparações, comparamos os numeradores da posterior para cada classe. Para cada observação, a classe com o maior numerador posterior torna-se a classe prevista, $\hat y$.

Há duas coisas importantes a serem observadas sobre os classificadores Naive Bayes.

1. para cada característica nos dados, temos que assumir a distribuição estatística de verossimilhança, $P(x_1, ..., x_j)$.
- as distribuições comuns são as distribuições normal (Gaussiana), multinomial e de Bernoulli.
- a distribuição escolhida é frequentemente determinada pela natureza dos recursos (contínuo, binário, etc.)

2. Naive Bayes recebe esse nome porque assumimos que cada recurso e sua probabilidade resultante são independentes. Essa suposição "ingênua" é frequentemente errada, mas na prática não é suficiente para evitar a construção de classificadores de alta qualidade.

## Treinando um classificador para recursos contínuos

O tipo mais comum de classificador Naive Bayes é o Gaussiano. Em Naive Bayes Gaussiano, assumimos que a probabilidade dos valores de característica, x, dada uma observação ser de classe y, segue uma distribuição normal:
$$
p(x_j | y) = \frac{1}{\sqrt{2\pi \sigma_y^2}} e^{-\frac{(x_j - \mu_y)^2}{2\sigma_y^2}}
$$
onde $\sigma_y^2$ e $\mu_y$ são a variância e os valores médios do recurso x_j para a classe y. Por causa da suposição da distribuição normal,  Naive Bayes é melhor usado nos casos em que todas as nossas características são contínuas.

Um dos aspectos interessantes dos classificadores Naive Bayes é que eles nos permitem atribuir uma crença prévia sobre as classes alvo. Podemos fazer isso usando o parâmetro `priors` do `GaussianNB`, que recebe uma lista das probabilidades atribuídas a cada classe do vetor alvo

In [10]:
from sklearn import datasets
from sklearn.naive_bayes import GaussianNB

iris = datasets.load_iris()
features = iris.data
target = iris.target

classifier = GaussianNB()

model = classifier.fit(features, target)

new_observation = [[4, 4, 4, 0.4]]
model.predict(new_observation)

array([1])

## Treinando um classificador para recursos discretos e de contagem

In [11]:
import numpy as np
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer

text_data = np.array(['I love Brazil. Brazil!', 'Brazil is best', 'Germany beats both'])

count = CountVectorizer()
bag_of_words = count.fit_transform(text_data)

features = bag_of_words.toarray()

target = np.array([0, 0, 1])

classifier = MultinomialNB()
model = classifier.fit(features, target)

new_observation = [[0, 0, 0, 1, 0, 1, 0]]
model.predict(new_observation)

array([0])

O Naive Bayes Multinomial funciona de maneira semelhante ao Naive Bayes Gaussiano, mas os recursos são assumidos como distribuídos multinomial. Na prática, isso significa que esse classificador é comumente usado quando temos dados discretos. Um dos usos mais comuns é a classificação de texto usando o saco de palavras ou abordagens tf-idf

## Treinando um classificador Naive Bayes para recursos binários

In [12]:
import numpy as np
from sklearn.naive_bayes import BernoulliNB

features = np.random.randint(2, size=(100, 3))
target = np.random.randint(2, size=(100, 1)).ravel()

classifier = BernoulliNB()
model = classifier.fit(features, target)

O classificador Naive Bayes de Bernoulli assume que todos os nossos recursos são binários, de modo que eles assumem apenas dois valores (por exemplo, um recurso categórico nominal que foi codificado com one hot). Como seu primo multinomial, Bernoulli naive Bayes é frequentemente usado na classificação de texto, quando nossa matriz de atributos é simplesmente a presença ou ausência de uma palavra em um documento