<a href="https://www.kaggle.com/code/wesleypdasilva/tipo-do-vinho-com-naive-bayes?scriptVersionId=143693024" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

# $\large{\color{CadetBlue}{\textbf{Tipo do Vinho com Naive Bayes üç∑üóø}}}$

### Neste ex√©rcicio foi realizado uma predi√ß√£o do **Tipo de Vinho** _(tinto ou branco),_ usando o modelo de Machine Learning Naive Bayes, devido esta nova vari√°vel alvo ser do tipo de categ√≥rica, sendo este um modelo com boa performance em **classifica√ß√£o probabil√≠stica**

## $\large{\color{RoyalBlue}{1.}}$ $\large{\color{CadetBlue}{\textbf{Carregando as Bibliotecas üìö}}}$

In [None]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import confusion_matrix

import os

## $\large{\color{RoyalBlue}{2.}}$ $\large{\color{CadetBlue}{\textbf{Lendo os dados üëÄ}}}$

In [None]:
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))
        
# Carregando o dataset
dados = pd.read_csv("/kaggle/input/wine-dataset/wine_dataset.csv")

# Resumo
dados.groupby('style').head()

## $\large{\color{RoyalBlue}{3.}}$ $\large{\color{CadetBlue}{\textbf{Pr√©-processamento dos Dados üíª}}}$

##### $\large{\color{RoyalBlue}{3.1.}}$ $\large{\color{CadetBlue}{\textbf{Propor√ß√£o das colunas e linhas üìã}}}$

In [None]:
dados.shape

##### $\large{\color{RoyalBlue}{3.2.}}$ $\large{\color{CadetBlue}{\textbf{Observando o tipo das Vari√°veis üî¢}}}$

In [None]:
dados.dtypes

### Somente a vari√°vel alvo n√£o est√° configurada em um formato num√©rico, se houvesse alguma vari√°vel preditora igual, o tratamento dos dados teria que ser outro, deixando apenas dados num√©ricos como preditores.

##### $\large{\color{RoyalBlue}{3.3.}}$ $\large{\color{CadetBlue}{\textbf{Verificando se h√° Valores Nulos ‚ùå}}}$

In [None]:
faltantes = (dados.isnull().sum()/len(dados['fixed_acidity']))*100
print(faltantes)

### N√£o dados faltantes!

##### $\large{\color{RoyalBlue}{3.4.}}$ $\large{\color{CadetBlue}{\textbf{Separando Vari√°veis Preditoras e Vari√°vel Alvo üéØ}}}$

In [None]:
y = dados['style']
x = dados.drop('style', axis = 1)

##### $\large{\color{RoyalBlue}{3.5.}}$ $\large{\color{CadetBlue}{\textbf{Normalizando as Vari√°veis Preditoras ‚öñÔ∏è}}}$

In [None]:
normalizador = MinMaxScaler(feature_range = (0,1))
X_norm = normalizador.fit_transform(x)

##### $\large{\color{RoyalBlue}{3.6.}}$ $\large{\color{CadetBlue}{\textbf{HeatMap de Correla√ß√£o üó∫Ô∏èüî•}}}$

In [None]:
plt.figure(figsize = (19, 15))
sns.heatmap(dados.groupby('style').corr(), annot = True, vmin = -1, cmap = "coolwarm")
plt.show()

### Primeiro temos um heatmap do **Vinho Tinto** e depois do **Vinho Branco**, al√©m de correla√ß√µes mais √≥bvias, como a *falta de di√≥xido de enxofre* e o *total de di√≥xido de enxofre* serem diretamente correlacionados, √© poss√≠vel perceber que no caso do **Vinho tinto**, existe uma forte correla√ß√£o entre o *√°cido c√≠trico* e a *acidez fixada da bebida*, enquanto esta correla√ß√£o n√£o √© significativa no **Vinho Branco**.

### J√° o **Vinho Branco**, por sua vez, possui uma forte correla√ß√£o entre a sua *densidade* e a *quantidade de a√ß√∫car residual*, esta correla√ß√£o tamb√©m n√£o existe no outro grupo, do **Vinho Tinto**.

### Tornando estas vari√°veis bastantes significativas no processo de classifica√ß√£o dos Tipos de Vinhos.

## $\large{\color{RoyalBlue}{4.}}$ $\large{\color{CadetBlue}{\textbf{Cria√ß√£o do Modelo üß†}}}$

In [None]:
modelo = GaussianNB()

##### $\large{\color{RoyalBlue}{4.1}}$ $\large{\color{CadetBlue}{\textbf{T√©cnica de Valida√ß√£o Cruzada ‚úîÔ∏è}}}$

In [None]:
kfold = StratifiedKFold(n_splits = 5)

resultado = cross_val_score(modelo,X_norm,y,cv = kfold)

# Imprimindo os melhores par√¢metros:
print('Acur√°cia: ',resultado.mean())