# Classificador Gaussiano Naive Bayes

<p>Naive Bayes é um algoritmo de classificação baseado na teoria de Bayes (<a href="https://pt.wikipedia.org/wiki/Teorema_de_Bayes">teorema</a>) em que consiste na probabilidade de cada evento ocorrer, não levando em consideração a correlação entre as variáveis (<i>features</i>), ou seja, o algoritmo assume que os preditores são condicionalmente independentes um dos outros.</p>

<p>À propósito, a biblioteca <b>scikit learn</b> possui três tipos de aprendizado por máquina que permite construir modelos bayesianos, incluindo <b>Gaussiano</b> que assume que os preditores (<i>features</i>) seguem uma distribuição normal; <b>Multinominal</b> destinado para dados de contagens discretas; e <b>Bernoulli</b> utilizado quando os preditores são vetores binários.</p>

## Vantagens

<ul>
<li>Fácil implementação</li>
<li>Simples e muito rápido</li>
<li>Resistênte a dados com ruídos</li>
<li>Não há risco de <i>overfitting</i></li>
<li>Eficiente para grandes conjuntos de dados</li>
<li>Não requer recursos computacionais</li>
<li>Desempenho melhor que outros algoritmos de aprendizado de máquina com poucos dados de treinamento</li>
</ul>

## Desvantagens

<ul>
<li>Assume que as variáveis são independentes o que é muito difícil no mundo real. Nesse caso o ideal é remover variáveis com alta correção, pode-se utilizar correlações de <i>Pearson</i> (variaveis seguem uma relação linear ou distribuição normal) ou <i>Spearman</i> (variáveis não seguem uma relação linear ou nem uma distribuição normal), <a href="https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.corr.html">aqui</a></li>
<li>As preditores devem seguir uma distribuição normal, caso não siga é necessário utilizar alguma técnica de transformação para convertê-las numa distribuição normal (<i><a href="https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PowerTransformer.html#sklearn.preprocessing.PowerTransformer">PowerTransformation</a></i>)</li>
<li>Não possibilita trabalhar com regressão</li>
<li>Quando o conjunto de dados de teste tem uma variável categórica de uma categoria que não estava presente no conjunto de dados de treinamento, o modelo atribuirá probabilidade zero e não será capaz de fazer quaisquer previsões a esse respeito (conhecido como '<i>Zero Frequency</i>'), portanto será necessário usar uma técnica de suavização (<i>smoothing</i>) para resolver este problema.</li>

# Exemplo

Vejamos um exemplo para criar modelo preditivo utilizando o algoritmo Random Forest para classificação de flores de íris.

Dataset: UCI Iris Dataset
Esse conjunto de dados de íris contém quatro variáveis (features) ​​que medem várias partes das flores da íris de três espécies relacionadas (target). A utilização desse conjunto de dados é muito comum pela comunidade de aprendizado de máquina, pois os dados exigem muito pouco pré-processamento, sendo ideal para o nosso exemplo onde o foco é na utilização do algoritmo.

Caso tenha interesse em conhecer mais sobre esse conjunto de dado, por favor vide [aqui](https://scikit-learn.org/stable/datasets/toy_dataset.html#iris-dataset).



### Importação dos pacotes

In [2]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import RandomizedSearchCV
from sklearn.pipeline import Pipeline

### Carregamento do conjunto de dados

In [3]:
X, y = load_iris( return_X_y = True)

### Configuração dos parâmetros do algoritmo
<p>O algoritmo Naive Bayes requer poucos parâmetros de configuração, por exemplo no Gaussiano apenas um parâmetro é necessário. Vejamos a seguir uma breve descrição do parâmetro e também dos valores mais adequados de utilização.</p>

<ul>
<li><b>var_smoothing</b>: valor para tratar <i>Zero Frequency</i>. O ideial que esse valor seja muito pequeno.</li>
</ul>

In [4]:
params = {
    'gnb__var_smoothing': np.logspace(-2,-15, num=1000)}

pipeline = Pipeline([
    ('scaler', StandardScaler()), 
    ('gnb', GaussianNB())])

### Inicia o treinamento da inteligência com espaço de busca

In [7]:
gnc_search = RandomizedSearchCV(pipeline, 
                                param_distributions=params, 
                                n_iter=300,
                                cv=3,
                                scoring = 'f1_macro',
                                verbose=False,
                                n_jobs=-1)

gnc_search.fit(X, y)

RandomizedSearchCV(cv=3,
                   estimator=Pipeline(steps=[('scaler', StandardScaler()),
                                             ('gnb', GaussianNB())]),
                   n_iter=300, n_jobs=-1,
                   param_distributions={'gnb__var_smoothing': array([1.00000000e-02, 9.70480888e-03, 9.41833153e-03, 9.14031075e-03,
       8.87049689e-03, 8.60864770e-03, 8.35452806e-03, 8.10790981e-03,
       7.86857151e-03, 7.63629826e-03, 7.41088152e-03, 7.19211887e-03...
       1.99204571e-15, 1.93324229e-15, 1.87617469e-15, 1.82079168e-15,
       1.76704353e-15, 1.71488197e-15, 1.66426018e-15, 1.61513269e-15,
       1.56745541e-15, 1.52118552e-15, 1.47628147e-15, 1.43270295e-15,
       1.39041083e-15, 1.34936714e-15, 1.30953502e-15, 1.27087871e-15,
       1.23336350e-15, 1.19695570e-15, 1.16162263e-15, 1.12733256e-15,
       1.09405471e-15, 1.06175918e-15, 1.03041699e-15, 1.00000000e-15])},
                   scoring='f1_macro', verbose=False)

### Resultados
<p>Os resultados apresentados aqui dão uma ideia da qualidade do modelo gerado. Vale ressaltar que o propósito deste exemplo é no entendimento e configuração do algoritmo.</p>

In [9]:
classifier_gn = gnc_search.best_estimator_ 
print(f'Best params:\n{gnc_search.best_params_}')
print(f'Best score: {gnc_search.best_score_}')
print(f'Classifier: {classifier_gn}')

Best params:
{'gnb__var_smoothing': 7.09334120498799e-06}
Best score: 0.9396454340398047
Classifier: Pipeline(steps=[('scaler', StandardScaler()),
                ('gnb', GaussianNB(var_smoothing=7.09334120498799e-06))])
