# Naive Bayes
É um algoritmo baseado no Teorema de Bayes, e parte da suposição de que todas as variáveis preditoras são __independentes__.

__Fórmula do Teorema de Bayes__

$$
P(A|B) = \frac{P(B|A) \cdot P(A)} {P(B)}  
$$

Onde:
- P(A|B) = probabilidade de A ocorrer, sendo que B já ocorreu.
- P(B|A) = probabilidade de B ocorrer, sendo que A já ocorreu.
- P(A) = probabilidade do evento A.
- P(B) = probabilidade do evento B.

Ou seja, o Naive Bayes calcula a probabilidade de uma amostra pertencer a uma determinada classes a partir das características informadas.

1) Realiza o cálculo das probabilidades condicionais para cada uma das características. PAra fazer isso, utiliza as distribuições de probabilidade.

2) Aplica o Teorema de Bayes para combinar as probabilidades de todas as características, obtendo a probabilidade de uma amostra pertencer a cada classe.

3) Então, realiza a escolha da classe. Essa escolha é feita a partir da classe que tiver maior probabilidade obtida.

## Funções de Naive Bayes em programação:
- __MultinomialNB__: É utilizada quando os dados das variáveis _preditoras_ são _discretos_.
- __BernoulliNB__: É utilizado quando os dados das variáveis _preditoras_ são _discretos_ e _binários_.
- __GaussianNB__: É utilizado quando os dados das variáveis _preditoras_ são _contínuos_.

__OBS:__ A função _GaussianNB_ faz o cálculo de forma diferente. Ela pega cada variável preditora, calcula sua média e desvio-padrão e, a partir disso, calcula as probabilidades considerando uma distribuição Gaussiana.

## O problema da probabilidade Zero
Caso a gente queira realizar uma classificação de spam que já possuímos alguns e-mails rotulados como spam ou não spam, tendo como característica para classificação as palavras no corpo do e-mail.

Caso a gente receba um novo e-mail que possui uma palavra que não está no nosso range de conhecimento, ela teria uma probabilidade zero (pois não havia aparecido ainda), o que nos levaria a ter uma probabilidade zero para o cálculo todo da probabilidade do spam.

Para contornar esse problema, utilizamos a __Suavização de Laplace__.
$$
\theta_i = \frac{x_i + \alpha}{N + \alpha \cdot d}
$$

Onde:
- __Theta_i__ é a probabilidade suavizada do evento i.
- __xi__ é o número de ocorrências do evento i.
- __alpha__ é o parâmetro de suavização de Laplace.
- __N__ é o numero total de observações.
- __d__ é o número total de possíveis eventos (classes)

# Codificação do Naive Bayes

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [80]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import pickle
import warnings
warnings.filterwarnings('ignore')
plt.style.use('ggplot')

from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report

In [5]:
df = pd.read_csv('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart_tratado.csv', sep=';', encoding='utf-8')

In [6]:
df.head()

Unnamed: 0,Age,Sex,ChestPainType,RestingBP,Cholesterol,FastingBS,RestingECG,MaxHR,ExerciseAngina,Oldpeak,ST_Slope,HeartDisease
0,40,M,ATA,140,289.0,0,Normal,172,N,0.0,Up,0
1,49,F,NAP,160,180.0,0,Normal,156,N,1.0,Flat,1
2,37,M,ATA,130,283.0,0,ST,98,N,0.0,Up,0
3,48,F,ASY,138,214.0,0,Normal,108,Y,1.5,Flat,1
4,54,M,NAP,150,195.0,0,Normal,122,N,0.0,Up,0


In [7]:
df.shape

(917, 12)

In [20]:
alvo = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas manualmente, sem escalonamento
previsores = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart2.pkl')

# previsores_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart3.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder.
previsores2 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart4.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas em numéricas pelo LabelEncoder e OneHotEncoder, sem escalonamento.
previsores3 = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart5.pkl')

# Variáveis previsoras onde as variáveis categóricas foram transformadas pelo LabelEncoder e OHE, com escalonamento.
previsores3_esc = pd.read_pickle('/content/drive/MyDrive/Udemy/ML com Python/1 - Aprendizado Supervisionado: Classificacao/heart6.pkl')

# Separação entre treino e teste

In [66]:
# Separação usando os previsores
X_tr, X_ts, y_tr, y_ts = train_test_split(previsores3_esc, alvo, test_size=0.3, random_state=0)

In [67]:
X_tr.shape, y_tr.shape

((641, 20), (641,))

In [68]:
X_ts.shape, y_ts.shape

((276, 20), (276,))

## Naive Bayes

In [69]:
# Instanciar o modelo
naive = GaussianNB()

# Realizar o ajuste nos dados de treino
naive.fit(X_tr, y_tr)

## Avaliação do algoritmo

In [70]:
# Realiza as previsões nos dados de TREINO
previsoes_naive = naive.predict(X_ts)
previsoes_naive

array([1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1,
       1, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1,
       1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 1,
       1, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1,
       1, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1,
       0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1,
       1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0,
       1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 1, 1,
       1, 0, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1, 0, 0,
       1, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1,
       1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 0,
       1, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0,
       0, 0, 0, 0, 1, 0, 0, 1, 1, 1, 1, 1])

In [71]:
y_ts

Unnamed: 0,HeartDisease
306,1
710,0
298,1
466,0
253,0
...,...
49,1
456,1
342,1
906,1


In [72]:
# Verificação da acurácia para os dados de TESTE
accuracy_score(y_ts, previsoes_naive)

0.8478260869565217

In [73]:
# Exibição da acurácia em porcentagem para os dados de TESTE
print(f'Acurácia: {accuracy_score(y_ts, previsoes_naive) * 100:.2f}%')

Acurácia: 84.78%


In [74]:
# Matriz de confusão para os dados de TESTE
confusion_matrix(y_ts, previsoes_naive)

array([[100,  21],
       [ 21, 134]])

In [75]:
# Report para os dados de TESTE
print(classification_report(y_ts, previsoes_naive))

              precision    recall  f1-score   support

           0       0.83      0.83      0.83       121
           1       0.86      0.86      0.86       155

    accuracy                           0.85       276
   macro avg       0.85      0.85      0.85       276
weighted avg       0.85      0.85      0.85       276



### Avaliação nos dados de treino

In [76]:
# Realiza as previsões nos dados de TREINO
previsoes_treino = naive.predict(X_tr)
previsoes_treino

array([1, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1,
       1, 1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 1, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1, 1,
       0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1,
       1, 1, 0, 1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1,
       0, 0, 1, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0,
       1, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0,
       1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0,
       0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0,
       0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1,
       1, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 0,
       1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0,
       1, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1,
       0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 0, 1, 1,

In [77]:
# Acurácia nos dados de TREINO
accuracy_score(y_tr, previsoes_treino)

0.8611544461778471

In [78]:
# Matriz de confusão nos dados de TREINO
confusion_matrix(y_tr, previsoes_treino)

array([[248,  41],
       [ 48, 304]])

In [79]:
print(classification_report(y_tr, previsoes_treino))

              precision    recall  f1-score   support

           0       0.84      0.86      0.85       289
           1       0.88      0.86      0.87       352

    accuracy                           0.86       641
   macro avg       0.86      0.86      0.86       641
weighted avg       0.86      0.86      0.86       641



# Validação Cruzada
A validação cruzada é uma técnica aplicada na separação dos dados, para aplicar no modelo posteriormente.

Ao aplicarmos apenas o ```train_test_split```, dividimos o conjunto em uma porcentagem para treino e outra para teste. Neste caso, os dados separados para treino são os dados utilizados para construir e treinar o modelo, enquanto que os dados de teste são usados para avaliar o quão performático o nosso modelo está ao receber dados novos.

Ao fazer essa separação os dados são divididos aleatóriamente, fazendo com que a gente corra o risco de não ter representatividade. Ou então, em caso de possuirmos dados desbalanceados, podemos acabar tendo poucos ou nenhum dado da classe desbalanceada no conjunto de teste.

## __Validação Cruzada K-Fold__
No caso da validação cruzada K-Fold, são criados K-Folds contendo os dados para treino e para teste em cada um desses folds. Vamos a um exemplo:

Vamos supor que definimos um K-Fold (n_splits) de 5. Nesse caso, seriam criadas 5 pastas, e cada uma dessas pastas teria mais 5 subdivisões, 1 para teste e 4 para treino. Dessa forma, a contabilização total seria de 25 pastas, onde teríamos 5 para teste e 20 para treino.

Ao final da execução, serão gerados coeficientes de determinação R2 para cada um dos folds e, após isso, tiramos a média dos 5 resultados de R2 para verificar o resultado geral. Ou seja, usando como exemplo a imagem abaixo, na iteração 1 teremos um valor de coeficiente de determinação R2, na iteração 2 teremos outro, e assim por diante. Então será calculada a média dessas subdivisões, que será o resultado final.

![texto](https://miro.medium.com/v2/resize:fit:800/1*kkMtezwv8qj1t9uG4nw_8g.png)


In [88]:
# Separação dos dados em K-folds
kfold = KFold(n_splits=5, shuffle=True, random_state=5)

In [89]:
# Criação do modelo
modelo = GaussianNB()
resultado = cross_val_score(modelo, previsores3_esc, alvo, cv=kfold)

# Verificação do resultado
print(f"Acurácia: {resultado.mean() * 100:.2f}%")

Acurácia: 85.28%


In [90]:
resultado

array([0.85326087, 0.82065217, 0.89071038, 0.83060109, 0.86885246])