Os métodos **Naive** (ingênuos) **Bayes** são um conjunto de algoritmos de aprendizado supervisionado com base na aplicação do teorema de Bayes com a suposição "ingênua" de independência condicional entre cada par de features. 

Dada a variável $y$ (classes) e o vetor de características $[x_1,x_2,...x_n]$, o teorema de Bayes afirma que:

$P(y|x_1,x_2,...x_n) = \frac{P(y)P(x_1,x_2,...x_n|y)}{P(x_1,x_2,...x_n)}$

Supondo de indepencia condicional temos:

$P(y|x_1,x_2,...x_n) = \frac{P(y) \prod_i^n  P(x_i|y)}{P(x_1,x_2,...x_n)}$

Finalmente, temos que a regra de classificação para várias classes resulta:

$\hat{y} = \text{argmax}_y \ P(y) \prod_i^n  P(x_i|y)$

**Métodos existentes:**

1. Gaussian Naive Bayes (dados reais)
2. Multinomial Naive Bayes (texto, $\theta_y = (\theta_{y1},\theta_{y2},\theta_{y3},...\theta_{yn})$)
3. Bernoulli Naive Bayes (colunas de features binárias)
4. Categorical Naive Bayes (asume que cada feature segue uma distribuição em categorias)

**Gaussian NB**

In [None]:
# imports


Talvez o classificador Gaussian NB seja o mais fácil de entender. Nesse classificador, supõe-se que os dados de cada rótulo sejam extraídos de uma distribuição gaussiana simples. Imagine que você tem os seguintes dados:

In [None]:
# gerando um dataset toy


Distribuiçãão Gaussiana:

$f(x)=\frac{1}{\sigma \sqrt{2 \pi}} \mathrm{e}^{- \frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}$

Uma para cada classe, lembrando que desejamos calcular $P(x_i|y_c)$

In [None]:
# Explorando as superficies gausianas


Com isto poderiamos criar a seguinte regra de decisão:

$\frac{P(l_1|x_1,x_2)}{P(l_2|x_1,x_2)} = \frac{P(l_1)P(x_1,x_2|l_1)}{P(l_2)P(x_1,x_2|l_2)}$

Mas, no lugar de fazer manualmente vamos usar o método do Sklearn

In [None]:
# teinando um NB Gaussiano



**Discretzação de dados contínuos em intervalos (bins + one-hot)**

A discretização (também conhecida como quantização ou **binning**) é uma maneira de particionar features contínuas em valores discretos. 

Certos conjuntos de dados com features contínuas podem se beneficiar da discretização porque a discretização pode transformar em atributos nominais, e com isso introduzir não-linearidade nos modelos lineares.

As features discretizadas são codificados em um vetor binário chamado **one-hot**.

Não confundir com Feature binarization.

In [None]:
# discretizador 


In [None]:
# podemos ver os intervalos dos bins e inferir que o métdo teve que escalar os 
# dados antes da transormação, senão iam cair todos no mesmo bin.

# est.bin_edges_
# est.inverse_transform(Xt)

A regra de decisão para o Bernoulli NB é baseada em:

$P(x_i|y) = P(i|y)x_i + (1-P(i|y)(1-x_i))$,

onde $i$ é a feature.

O que difere da regra do NB multinomial, pois penaliza explicitamente a não ocorrência de uma feature para a classe.

In [None]:
# treinando um NB Bernoulli


**Quando utilizar NB**

Como os classificadores bayesianos fazem suposições rigorosas sobre os dados, eles geralmente não apresentam um desempenho tão bom quanto um modelo mais complexo. 

**Vantagens:**

  1. são extremamente rápidos para treinamento e previsão
  2. fornecem previsão probabilística direta
  3. são frequentemente muito facilmente interpretáveis
  4. têm muito poucos (se houver) parâmetros ajustáveis

Essas vantagens significam que um classificador bayesiano costuma ser uma boa escolha como classificação inicial baseline. Se funcionar adequadamente, parabéns: você tem um classificador muito rápido e muito interpretável para o seu problema. Se não funcionar bem, você poderá começar a explorar modelos mais sofisticados.

**Desempenho especialmente bom nas seguintes situações:**

1. Quando as suposições realmente coincidem com os dados (muito raro na prática)
2. Para classes linearmente separáveis (quando a complexidade do modelo é menos importante)
3. Para dados de alta dimensão (quando a complexidade do modelo é menos importante)

Os dois últimos pontos parecem distintos, mas na verdade estão relacionados: à medida que a dimensão de um conjunto de dados aumenta, é muito menos provável que dois pontos sejam encontrados próximos (afinal, eles devem estar próximos em todas as dimensões para estarem próximos no geral). 

Isso significa que, no geral, grupos de dadas em dimensões elevadas tendem a ser mais separváveis do que os grupos em dimensões baixas (sempre que cada feature contribua com informações novas). Por esse motivo, classificadores simples como Bayes tendem a funcionar tão bem quanto classificadores complexos à medida que a dimensionalidade cresce.