# Apresentação:

O objetivo desse código é dar prosseguimento no estudo de **Classificadores Lineares**, agora tratando sobre **Navie Bayes** que é um tipo de classificador baseado em **Probabilidade Condicional**.

## Material de Estudo:

O estudo aqui será pautado na documentação das bibliotecas utilizadas, tanto o [sklearn](https://scikit-learn.org/stable/api/sklearn.naive_bayes.html) quanto o [tensorflow](https://www.tensorflow.org/probability/overview?hl=pt-br), e será complementado por livros e notas de aula de disciplinas universitárias.

* **The Elements of Statistical Learning** de _Trevor Hastie_, _Robert Tibshirani_ , _Jerome Friedman_;
* **Probabilistic Machine Learning: An Introduction** de _Kevin P. Murphy_;
* **Notas de Aula do Curso de Machine Learning** - Curso de Verão **IMPA**.

## Abordagens Bibliográficas:

O livro **Probabilistic Machine Learning: An Introduction** apresenta o _Naive Bayes_ como um tipo de caso do _Linear Discriminant Analisys_, introduzino o **LDA** como uma **classe de modelos** e não como um modelo em si. Uma classe de **modelos probabilisticos de classificação** que são baseados na **Teoria de Bayes**, ou seja, se dão na forma de,

$$p(y=a|\mathbf{x},\boldsymbol{\theta})=\frac{p(\mathbf{x}|y=a,\boldsymbol{\theta})p(y=a|\boldsymbol{\theta})}{\sum_{b}p(\mathbf{x}|y=b, \boldsymbol{\theta}p(y=b|\boldsymbol{\theta})}$$

onde $a \neq b,\ \forall{a,b \in C}$, sendo $b$ **todas as classes possíveis** e $C$ nosso conjunto de classes, lembrando que na classificação $C \subseteq \mathbb{Z}$.

Já o **The Elements of Statistical Learning** apresenta o _Naive Bayes_ dentro do tópico de **Métodos de Suavização de Kernel**, _Kernel Smooth Methods_ que não tem nada a ver com _kernel methods_, métodos de manipulação da dimensão de espaços vetoriais de alta dimensão (como nos algoritmos de _Support Vector Machines_ - **SVM**), mas sim são usados para suavizar dados e estimar e classificar densidades sem assumir uma forma paramétrica pré-definida para essas distribuições.

In [2]:
# Importando datasets:
from sklearn.datasets import load_iris

# Bibliotecas Auxiliares:
import pandas as pd
import numpy as np

# Bibliotecas para visualização:
from matplotlib import pyplot as plt
import seaborn as sns

In [7]:
# Instanciando dados:
X, y = load_iris(return_X_y=True);
print(X.shape,y.shape)

(150, 4) (150,)


# Navie Bayes:

O **Naive Bayes** é uma técnica de classificação _multclasses_ útil quando temos muitas $p$ previsoras no nosso modelo. Todavia, a matemática do modelo pressupõe **independência condicional** em cada par de características dadas as valor da variável de classe. 

No entanto, mesmo que a suposição de **Naive Bayes** não seja verdadeira, ela funciona razoavelmente bem. Uma razão para isso é que o modelo é bastante simples tendo complexidade da ordem de $O(CD)$ parâmetros, para $C$ classes e $D$ características, e, por isso, é relativamente **imune** ao **overfitting**.

A **suposição ingênua de Bayes** corresponde ao uso de uma **densidade condicional** de classe da seguinte forma:

$$p(\mathbf{x}|y=c, \mathbf{\theta})=\prod_{d=1}^Dp(x_d|y=c,\mathbf{\theta}_{dc})$$

Onde $\theta_{dc}$ são os parâmetros para a densidade condicional para a classe $c$ e a feature $d$. Portanto os rótulos posteriores sobre a classe são dados por,

$$p(y=c|\mathbf{x},\mathbf{\theta})=\frac{p(y=c|\boldsymbol{\pi}\prod_{d=1}^Dp(x_d|y=c,\boldsymbol{\theta_{dc}})}{\sum_c'p(y=c'|\boldsymbol{\pi}\prod_{d=1}^Dp(x_d|y=c',\boldsymbol{\theta}_{dc'})}$$

onde $\pi_c$ é a probabilidade a priori da classe $c$ e $\boldsymbol{\theta}=(\boldsymbol{\pi},\{\boldsymbol{\theta}_{dc}\})$ são todos os parametros. Assim então definimos o Classificador **Naive Bayes** ou **NBC**.

* No caso $Normal$, $\boldsymbol{\Sigma}_k$ é **diagonal**, então,
    * $$\delta_k(x) \propto \log\left( \pi_k \prod_{j=1}^{p} f_{kj}(x_j) \right) = \log \pi_k - \frac{1}{2}\sum_{j=1}^p\left[\frac{(x_j - \mu_{kj})^2}{\sigma_{kj}^2}+\log{\sigma_{kj}^2}\right]
$$

* **Naive Bayes** pode ser usado também para **variáveis quantitativas**: basta usar uma estimativa da 
função de probabilidade (e.g., histogramas.
*  Ele é um método considerado **generativos**, porque, diferente de métodos  **discriminativos** como **Regressão Logistica** e **Regressão Multinomial**, que estimam $p[Y|X]$, eles estimam $p[X|Y]$.) 