In [44]:
from sklearn.datasets import load_iris
import pandas as pd
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold

import warnings 
warnings.filterwarnings("ignore")

## Naive Bayes

O método de Naive Bayes é um algoritmo de classificação probabilística baseado no teorema de Bayes, que assume independência condicional entre as variáveis.

1. **Teorema de Bayes:**
   O método de Naive Bayes utiliza o teorema de Bayes, que é uma fórmula probabilística que relaciona a probabilidade condicional de eventos. A fórmula do teorema de Bayes é dada por:

$$ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} $$

   Onde:
   - $ P(A|B) $ é a probabilidade condicional de A dado B.
   - $ P(B|A) $ é a probabilidade condicional de B dado A.
   - $ P(A) $ e $ P(B) $ são as probabilidades marginais de A e B, respectivamente.

### Usos da Função em Relação ao Tipo de Dado

- Quando os dados das variáveis preditoras são discretos, devemos utilizar a função 
MultinomialNB.  
- Quando os dados das variáveis preditoras são discretos e binários, devemos utilizar a 
função BernoulliNB.  
- Quando os dados das variáveis preditoras são contínuos, devemos utilizar a função 
GaussianNB.  

### Suavização de Laplace

A suavização de Laplace é uma técnica usada no contexto do método Naive Bayes para lidar com a probabilidade de ocorrência zero de certas características em um conjunto de dados de treinamento no caso de problema de classificação.

$$ P(x_i|C) = \frac{x_i + \alpha}{{C + d*\alpha}} $$

Onde:
- $ P(x_i|C) $ é a probabilidade condicional de uma característica $x_i$ dada a classe $C$.
- $ x_i $ é o número de instâncias em que a característica $x_i$ ocorre na classe $C$.
- $ C $ é o número total de instâncias na classe $C$.
- $ \alpha $ é a constante de Laplace, tem que ser maior queo 0.
- $ d $ número de classes.

In [45]:
iris = load_iris()
x_iris = pd.DataFrame(iris.data, columns= [iris.feature_names])
y_iris = pd.Series(iris.target)

x_iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [46]:
# Swparando em Treino e Teste
X_treino, X_teste, Y_treino, Y_teste = train_test_split(x_iris, y_iris, test_size= 0.3, random_state=67)

#Modelo
modeloNB = GaussianNB()
modeloNB.fit(X_treino, Y_treino)

#Score
resultado = modeloNB.score(X_teste, Y_teste)
print("Acurácia:", round(resultado,3))

Acurácia: 0.978


### Dados de Vinho

In [47]:
df_wine = pd.read_csv('wine_dataset.csv')

# Contar as ocorrências de cada StyleID
contagem_classe = df_wine['style'].value_counts()

percen_wine = round((df_wine.isnull().sum() / df_wine.shape[0] )*100, 2)
percen_wine

fixed_acidity           0.0
volatile_acidity        0.0
citric_acid             0.0
residual_sugar          0.0
chlorides               0.0
free_sulfur_dioxide     0.0
total_sulfur_dioxide    0.0
density                 0.0
pH                      0.0
sulphates               0.0
alcohol                 0.0
quality                 0.0
style                   0.0
dtype: float64

In [49]:
x_wine = df_wine.loc[:, df_wine.columns != 'style']
y_wine = df_wine.loc[:, df_wine.columns == 'style']

#Modelo
modeloNB = GaussianNB()
skfold = StratifiedKFold(n_splits=5)

# Defina os parâmetros a serem testados
parametros_grid = {
    'priors': [None],  # None indica os valores padrão (equiprováveis)
    'var_smoothing': [1e-9]
}

procura_wine = GridSearchCV(estimator= modeloNB,  cv = skfold, param_grid = parametros_grid)
procura_wine.fit(x_wine, y_wine)

#Score
print("Acurácia:", round(procura_wine.best_score_,3))

Acurácia: 0.969
