# Wine Dataset

*Para ver o artigo relacionado a este notebook*, [CLIQUE AQUI](https://medium.com/@liliancandido/machine-learning-amor-à-primeira-vista-4545acea89d9)

Nesse projeto, foi abordado o conjunto de dados *Wine Dataset*. Conjunto de dados esse, que retrata informações relacionadas a amostragens de vinho, tanto tinto quanto branco, descrevendo suas características físico-químicas.

## 1. Objetivo
O objetivo em trabalhar com esse conjunto de dados foi de verificar a possibilidade de definir se o vinho é tinto ou branco com base nas características da bebida (acidez, açúcar, volatilidade, etc). Para isso, em relação a métrica de desempenho, o score foi calculado em relação ao número de previsões corretas que o modelo faz. Ou seja, é considerada apenas a acurácia do modelo.

## 2. Obtenção dos Dados

Os dados utilizados estão disponibilizados no site do Kaggle e podem ser acessados [AQUI](https://www.kaggle.com/datasets/dell4010/wine-dataset).

In [1]:
#importando o pacote que será utilizado
#pandas fornece ferramentas de análise de dados e estruturas
import pandas as pd      

In [2]:
#carregando o dataset
arquivo = pd.read_csv('wine_dataset.csv')

## 3. Análise Exploratória

Inicialmente, para conhecer um pouco melhor os dados, foi utilizada a função shape para verificar a dimensão do dataframe, ou seja, quantas colunas e linhas ele possuía. O resultado obtido foi a quantidade de 6497 linhas e 13 colunas:

In [4]:
#Verificando as dimensões do Dataframe
arquivo.shape

(6497, 13)

Apenas olhando as cinco primeiras entradas foi possível tirar uma conclusão importante: A coluna alvo da análise de cor do vinho seria a coluna denominada *style* e a mesma encontrava-se em formato de texto, logo, ficou claro que no momento de preparação dos dados seria necessário realizar uma conversão para números:

In [5]:
#Mostrando as primeiras linhas do dataset
arquivo.head()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,style
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,red
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,red
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,red
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red


Verificando abaixo o resumo estatístico, por meio do método describe(), foi possível confirmar que as variáveis relativas aos componentes principais não tinham nenhuma discrepância aparente:

In [6]:
#Analisando os dados estatísticos
arquivo.describe()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality
count,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0,6497.0
mean,7.215307,0.339666,0.318633,5.443235,0.056034,30.525319,115.744574,0.994697,3.218501,0.531268,10.491801,5.818378
std,1.296434,0.164636,0.145318,4.757804,0.035034,17.7494,56.521855,0.002999,0.160787,0.148806,1.192712,0.873255
min,3.8,0.08,0.0,0.6,0.009,1.0,6.0,0.98711,2.72,0.22,8.0,3.0
25%,6.4,0.23,0.25,1.8,0.038,17.0,77.0,0.99234,3.11,0.43,9.5,5.0
50%,7.0,0.29,0.31,3.0,0.047,29.0,118.0,0.99489,3.21,0.51,10.3,6.0
75%,7.7,0.4,0.39,8.1,0.065,41.0,156.0,0.99699,3.32,0.6,11.3,6.0
max,15.9,1.58,1.66,65.8,0.611,289.0,440.0,1.03898,4.01,2.0,14.9,9.0


Quanto à qualidade do dataset, este não apresentou nenhum valor ausente ou que demandasse uma etapa de limpeza:

In [7]:
#Checando a existência de valores ausentes
arquivo.isnull().values.any()

False

## 4. Preparando os Dados

Conforme necessidade identificada na etapa de exploração dos dados, a coluna *style* necessitou de uma conversão de string em números. Foi feita então, a conversão para que os cálculos pudessem ser realizados pelo python, assim sendo, ‘red’ transformou-se em 0 e ‘white’ transformou-se em 1:

In [8]:
#Classificando as variáveis de text(str) em numéricas
arquivo['style'] = arquivo['style'].replace('red', 0)
arquivo['style'] = arquivo['style'].replace('white', 1)
arquivo.head()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,style
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,0
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,0
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,0
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,0
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,0


Foi feita também a separação das variáveis em variáveis preditorias e variáveis alvo (aquilo que queríamos prever -> se o vinho era tinto ou branco). Dessa forma, a variável ‘y’ recebeu a coluna style e a variável x recebeu os demais dados:

In [9]:
# dividindo variáveis em variáveis preditorias e variáveis alvo
y = arquivo['style']
x = arquivo.drop('style', axis = 1)

Foram criados os conjuntos de dados de treino e de teste, para que o modelo recebesse alguns dados para treinar e aprender a relação dos dados e os demais dados fossem utilizados para testar esse processo. Para isso, foi utilizada a função train_test_split que está dentro do pacote model_selection que por sua vez, pertence ao sklearn.

30% das amostras foram destinadas para teste e 70% para treino:

In [10]:
from sklearn.model_selection import train_test_split

#criando conjunto de dados de treino e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(x, y, test_size = 0.3)
print(arquivo.shape, x_treino.shape, x_teste.shape, y_treino.shape, y_teste.shape)

(6497, 13) (4547, 12) (1950, 12) (4547,) (1950,)


Para criar o modelo, foi importado o algorítimo de Machine Learning ExtraTreesClassifier que faz parte do ensemble que também pertence ao sklearn.

Foi feito o instanciamento do algorítimo dentro da variável modelo e realizado o treinamento:

In [11]:
from sklearn.ensemble import ExtraTreesClassifier

#Criando o modelo
modelo = ExtraTreesClassifier()
modelo.fit(x_treino, y_treino)

ExtraTreesClassifier()

Com o modelo já treinado, foi possível verificar performance obtida:

In [12]:
#Imprimindo o resultado
resultado = modelo.score(x_teste, y_teste)
print("Acurácia:", resultado)

Acurácia: 0.9974358974358974


O resultado nesse caso, foi de 99% de acurácia, um resultado excelente. É claro, que cabe a observação de que se trata de um modelo simples e que os dados foram validados.

In [13]:
#checando os dados de teste
y_teste[100:105]

4346    1
5027    1
3562    1
996     0
4098    1
Name: style, dtype: int64

In [14]:
x_teste[100:105]

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality
4346,7.3,0.26,0.33,11.8,0.057,48.0,127.0,0.99693,3.1,0.55,10.0,6
5027,6.4,0.32,0.27,4.9,0.034,18.0,122.0,0.9916,3.36,0.71,12.5,6
3562,7.4,0.32,0.55,16.6,0.056,53.0,238.0,1.0017,2.96,0.58,8.7,6
996,5.6,0.66,0.0,2.2,0.087,3.0,11.0,0.99378,3.71,0.63,12.8,7
4098,6.9,0.26,0.31,7.0,0.039,37.0,175.0,0.99376,3.32,0.49,11.4,6


In [15]:
#Mostrando as previsões do modelo
previsoes = modelo.predict(x_teste[100:105])
print(previsoes)

[1 1 1 0 1]
