<h1>Classificador de vinhos</h1>
<br>
Dataset disponível no <a href='https://www.kaggle.com/dell4010/wine-dataset'>Kaggle</a>
<br>
Este modelo foi produzido com base no vídeo da Didática Tech no <a href='https://www.youtube.com/watch?v=DNegkxwQJuY&ab_channel=Did%C3%A1ticaTech'>Youtube</a>
<br>
<br>
Este conjunto de dados possui colunas com características dos vinhos, como acidez, pH, densidade, entre outros, que são chamados de atributos. Será usado para classificar se o vinho é tinto ou branco, que é nossa variável alvo.
<br>
<br>
O foco é criar um algoritmo de Supervising Learning, no qual classificará como tinto ou branco através dos atributos do vinho. O conjunto de dados será dividido em um conjunto de treino para o algoritmo e a outra parte será para o teste, para verificarmos qual a porcentagem de acerto dele na classificação.
<br>
<br>
O algoritmo que será usado utiliza <b>árvores de decisão</b>.

<h1>Árvores de decisão (Decision Tree) - Supervising Learning</h1>
<br>
Uma árvore de decisão é um algoritmo de Supervising Learning (Aprendizado supervisionado). <b>O que seria um algoritmo de Supervising Learning?</b>
<br>
<br>
É um algoritmo no qual trabalha com conjuntos de dados que conhecemos e sabemos os rótulos que uma coleção de características destes dados podem ter, mas treinamos o nosso algoritmo para fazer este trabalho de identificação para nós. Um exemplo será feito aqui neste projeto, para identificar se o vinho é tinto ou branco. Mas há também exemplos no qual procura-se um valor (ou um valor contínuo) para essa coleção de características, como por exemplo um preço de uma casa. Este tipo de problema é resolvido com outros tipos de algoritmo, que não convém ser ditos neste projeto e serão explicados em outro.
<br>
<br>
Voltando a explicação de como a Árvore de decisão funciona, ele é uma representação de uma tabela de decisão sob a forma de árvore. Árvores, de um modo geral em computação, são estruturas de dados formadas por um conjunto de elementos que armazenam informações ou regras chamadas nós. Além disso, toda árvore possui um nó chamado raiz, que possui o ponto de partida e ligações para outros elementos, denominados filhos. Esses filhos podem possuir seus próprios filhos que por sua vez também possuem os seus. O nó que não possui filho é conhecido como nó folha. 
<br>
<br>
Ou seja, este tipo de algoritmo cria regras para indicar qual classe um conjunto de características pertence.
<br>
<br>
Um jeito simples de se pensar em árvores de decisão são os fluxogramas que não possuem um loop.

<h1>Por que usar um algoritmo de classificação para este conjunto de dados?</h1>
<br>
Os algoritmos de classificação tem como objetivo classificar itens ou amostras de acordo com as características observadas em classes. No conjunto de dados dos vinhos, classificarei em duas classes: Vinho tinto e Vinho branco.
<br>
<br>
Para utilizar algoritmos de classificação, temos uma etapa inicial, com 3 passos.
<br>
<br>
Etapa Inicial
<br>
<br>
Extração de características;
<br>
<br>
Algoritmo de aprendizagem;
<br>
<br>
Modelo aprendido;
<br>
<br>
Primeiramente extraí-se as características, ou seja, coleta-se os dados que serão utilizados para que a máquina possa procurar por padrões e com isso gerar o modelo. Separa-se a classe daquele conjunto de dados em outro conjunto de dados, para posteriormente ser mostrado para o modelo que com aquela linha de características, com padrão X, a classe correta é tinto ou branco.
<br>
No passo do algoritmo de aprendizagem é onde mostra para o modelo a que classe pertence aquele conjunto de características descritos na linha. 
<br>
Agora a máquina usará estes dados para identificar um padrão e com isso aprender.
<br>
<br>
2ª Etapa
<br>
<br>
Extração de características;
<br>
<br>
Modelo aprendido;
<br>
<br>
Na segunda etapa pegamos uma nova amostra, cuja classificação ainda não conhecemos, mas temos as características:
Então é inserido estes dados no modelo aprendido – aquele da etapa inicial – <b>e a máquina classifica a amostra oculta.</b>

<h1>Por que Extra Trees Classifier?</h1>
<br>
<b>fonte: didatica.tech</b>
<br>
<br>
O algoritmo de machine learning ExtraTrees (Extremely Randomized Trees) cria muitas árvores de decisão de maneira aleatória, para então através da combinação dos resultados de cada árvore encontrar a resposta final. Seu principal diferencial está no fato deste processo ser extremamente aleatório, contribuindo assim para modelos mais generalizáveis.
<br>
<br>
Após este processo de aleatoriedade, dentro do modelo são feitos os cálculos necessários para a otimização da árvore.
<br>
<br>
A parte positiva é que cria um modelo menos enviesado, ou seja, é um modelo mais complexo; e a parte negativa é que, se por acaso, existirem muitas variáveis que não estão ajudando no nosso problema e, por consequência, não deveriam estar ali, o algoritmo poderá acabar escolhendo essas variáveis para começar os nós, dando a elas um destaque grande e indevido. 
<br>
<br>
No caso do ExtraTrees, então, o pré-processamento ganha ainda mais importância. Onde, eventualmente, se faça uma seleção das variáveis, eliminando as indesejadas, que só acrescentam ruídos e não ajudam a classificar os dados.

<h1>Importação das bibliotecas</h1>
<br>

In [24]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.ensemble import ExtraTreesClassifier

In [2]:
# Lendo o arquivo
df = pd.read_csv('wine_dataset.csv')

In [3]:
df.head()

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,style
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,red
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,red
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,red
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red


In [4]:
# Tornando a variável alvo númerica, para o algoritmo entender
df['style'] = df['style'].replace('red', 0)

In [5]:
# Tornando a variável alvo númerica, para o algoritmo entender
df['style'] = df['style'].replace('white', 1)

In [6]:
# Separando o DataFrame com as variáveis alvo e preditoras
y = df['style']
x = df.drop('style', axis=1)

In [26]:
# Dividindo o conjunto de dados em treino e teste para o algoritmo
X_treino, X_teste, y_treino, y_teste = train_test_split(x, y, test_size=0.3, random_state=10)

In [27]:
# Criação do modelo
modelo = ExtraTreesClassifier()
modelo.fit(X_treino, y_treino)

ExtraTreesClassifier()

In [28]:
# Resultado do modelo
modelo.score(X_teste, y_teste)

0.9958974358974358

In [29]:
# 5 amostras aleatórias do conjunto de dados de teste
x_teste[1750:1755]

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality
1571,6.4,0.38,0.14,2.2,0.038,15.0,25.0,0.99514,3.44,0.65,11.1,6
5601,6.1,0.25,0.48,15.8,0.052,25.0,94.0,0.99782,3.07,0.45,9.2,6
1576,8.0,0.3,0.63,1.6,0.081,16.0,29.0,0.99588,3.3,0.78,10.8,6
2177,6.5,0.28,0.29,2.7,0.038,26.0,107.0,0.9912,3.32,0.41,11.6,7
842,10.6,0.5,0.45,2.6,0.119,34.0,68.0,0.99708,3.23,0.72,10.9,6


In [30]:
# Verificando a classificação para estas amostras
y_teste[1750:1755]

6156    1
4090    1
2318    1
6288    1
4658    1
Name: style, dtype: int64

In [31]:
# Verificando se nosso modelo acertou nas previsões
modelo.predict(X_teste[1750:1755])

array([1, 1, 1, 1, 1], dtype=int64)

<h1>Comentário</h1>
<br>
Este é um modelo bem simples de classificação. O resultado do modelo é muito alto, de 99% o que nos indica que pode estar havendo overfitting, ou seja, o nosso modelo poderia estar "decorando" as respostas. Porém, como estamos usando o Extra Trees Classifier, que traz uma aleatoriedade e generalização no processo, a sua acurácia pode ser alta, realmente.
<br>
<br>
<b>Além disso, foi escolhido apenas a acurácia como métrica de avaliação, pelo fato de o conjunto de dados utilizado ser bem balanceado, ou seja, há um equilíbrio de ocorrências entre vinho tinto e branco.</b>
<br>
<br>
Caso o conjunto de dados fosse desequilibrado, teria que ser usado outras métricas, como por exemplo, Precision, Recall, Confusion Matrix e Curva ROC.