<a href="https://www.kaggle.com/code/wesleypdasilva/tipo-do-vinho-com-naive-bayes?scriptVersionId=143693024" target="_blank"><img align="left" alt="Kaggle" title="Open in Kaggle" src="https://kaggle.com/static/images/open-in-kaggle.svg"></a>

# $\large{\color{CadetBlue}{\textbf{Tipo do Vinho com Naive Bayes 🍷🗿}}}$

### Neste exércicio foi realizado uma predição do **Tipo de Vinho** _(tinto ou branco),_ usando o modelo de Machine Learning Naive Bayes, devido esta nova variável alvo ser do tipo de categórica, sendo este um modelo com boa performance em **classificação probabilística**

## $\large{\color{RoyalBlue}{1.}}$ $\large{\color{CadetBlue}{\textbf{Carregando as Bibliotecas 📚}}}$

In [None]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import confusion_matrix

import os

## $\large{\color{RoyalBlue}{2.}}$ $\large{\color{CadetBlue}{\textbf{Lendo os dados 👀}}}$

In [None]:
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))
        
# Carregando o dataset
dados = pd.read_csv("/kaggle/input/wine-dataset/wine_dataset.csv")

# Resumo
dados.groupby('style').head()

## $\large{\color{RoyalBlue}{3.}}$ $\large{\color{CadetBlue}{\textbf{Pré-processamento dos Dados 💻}}}$

##### $\large{\color{RoyalBlue}{3.1.}}$ $\large{\color{CadetBlue}{\textbf{Proporção das colunas e linhas 📋}}}$

In [None]:
dados.shape

##### $\large{\color{RoyalBlue}{3.2.}}$ $\large{\color{CadetBlue}{\textbf{Observando o tipo das Variáveis 🔢}}}$

In [None]:
dados.dtypes

### Somente a variável alvo não está configurada em um formato numérico, se houvesse alguma variável preditora igual, o tratamento dos dados teria que ser outro, deixando apenas dados numéricos como preditores.

##### $\large{\color{RoyalBlue}{3.3.}}$ $\large{\color{CadetBlue}{\textbf{Verificando se há Valores Nulos ❌}}}$

In [None]:
faltantes = (dados.isnull().sum()/len(dados['fixed_acidity']))*100
print(faltantes)

### Não dados faltantes!

##### $\large{\color{RoyalBlue}{3.4.}}$ $\large{\color{CadetBlue}{\textbf{Separando Variáveis Preditoras e Variável Alvo 🎯}}}$

In [None]:
y = dados['style']
x = dados.drop('style', axis = 1)

##### $\large{\color{RoyalBlue}{3.5.}}$ $\large{\color{CadetBlue}{\textbf{Normalizando as Variáveis Preditoras ⚖️}}}$

In [None]:
normalizador = MinMaxScaler(feature_range = (0,1))
X_norm = normalizador.fit_transform(x)

##### $\large{\color{RoyalBlue}{3.6.}}$ $\large{\color{CadetBlue}{\textbf{HeatMap de Correlação 🗺️🔥}}}$

In [None]:
plt.figure(figsize = (19, 15))
sns.heatmap(dados.groupby('style').corr(), annot = True, vmin = -1, cmap = "coolwarm")
plt.show()

### Primeiro temos um heatmap do **Vinho Tinto** e depois do **Vinho Branco**, além de correlações mais óbvias, como a *falta de dióxido de enxofre* e o *total de dióxido de enxofre* serem diretamente correlacionados, é possível perceber que no caso do **Vinho tinto**, existe uma forte correlação entre o *ácido cítrico* e a *acidez fixada da bebida*, enquanto esta correlação não é significativa no **Vinho Branco**.

### Já o **Vinho Branco**, por sua vez, possui uma forte correlação entre a sua *densidade* e a *quantidade de açúcar residual*, esta correlação também não existe no outro grupo, do **Vinho Tinto**.

### Tornando estas variáveis bastantes significativas no processo de classificação dos Tipos de Vinhos.

## $\large{\color{RoyalBlue}{4.}}$ $\large{\color{CadetBlue}{\textbf{Criação do Modelo 🧠}}}$

In [None]:
modelo = GaussianNB()

##### $\large{\color{RoyalBlue}{4.1}}$ $\large{\color{CadetBlue}{\textbf{Técnica de Validação Cruzada ✔️}}}$

In [None]:
kfold = StratifiedKFold(n_splits = 5)

resultado = cross_val_score(modelo,X_norm,y,cv = kfold)

# Imprimindo os melhores parâmetros:
print('Acurácia: ',resultado.mean())