# Classificando Vinhos

## Aqui vamos usar um dataset para classificar vinhos em branco e tinto

Vamos utilizar um Dataset de vinhos do Kaggle, o mesmo já está limpo e livre de dados nulos por esse motivo não faremos a limpeza dos dados, apenas um pouco de analise explorartoria e a modelagem dos dados.

### Primeiro vamos importar as bibliotecas utilizadas

In [1]:
import pandas as pd #para usar os dados e fazer o tratamento dos mesmos
from sklearn.model_selection import train_test_split #Para criar as variaveis de treino e teste
from sklearn.model_selection import GridSearchCV # Para fazer a otimização do modelo
from sklearn.ensemble import ExtraTreesClassifier #Para cirar e testar o modelo de classficiação

### Importanto os dados para podermos utilizar

In [2]:
df=pd.read_csv('wine_dataset.csv') #Vamos chamar os dados

In [3]:
df.head() # verificamos como os dados estão distribuidos

Unnamed: 0,fixed_acidity,volatile_acidity,citric_acid,residual_sugar,chlorides,free_sulfur_dioxide,total_sulfur_dioxide,density,pH,sulphates,alcohol,quality,style
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5,red
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5,red
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6,red
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5,red


### Agora vamos tranformar os valores de str em int para podermos fazer a cassificação

In [4]:
df['style'] = df['style'].replace("red",0) #trasnformamos tinto em 0

In [5]:
df['style'] = df['style'].replace("white",1) #transformamos branco em 1

Separando variaveis em x e y

y = (Variavel alvo)
x = (Todas as outras variaveis)

In [6]:
y=df['style'] # y = target
x=df.drop('style', axis = 1) # X igual a todas menos o target

#### Separando variaveis em traino e teste. vamos utilizar 70% para treino e 30% para teste

In [7]:
x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.3)

In [9]:
x_test.shape #conferindo dados de teste

(1950, 12)

In [10]:
x_train.shape #conferindo dados de treino

(4547, 12)

### Criando modelo de Machine learning para os dados

In [11]:
#hide_output
#Criando modelo de ML para os dados
modelo = ExtraTreesClassifier() #Vamos utilizar a arvore de decisão um algoritmo poderoso de classificação
modelo.fit(x_train,y_train)

ExtraTreesClassifier(bootstrap=False, ccp_alpha=0.0, class_weight=None,
                     criterion='gini', max_depth=None, max_features='auto',
                     max_leaf_nodes=None, max_samples=None,
                     min_impurity_decrease=0.0, min_impurity_split=None,
                     min_samples_leaf=1, min_samples_split=2,
                     min_weight_fraction_leaf=0.0, n_estimators=100,
                     n_jobs=None, oob_score=False, random_state=None, verbose=0,
                     warm_start=False)

Imprimindo acuracidade dos resultados

In [12]:
#imprimindo resultados
resultado = modelo.score(x_test,y_test)
print("Acuracia: ", resultado)

Acuracia:  0.9964102564102564


Notamos que os dados estão muito bons e por isso talvez não precisem de uma otimização, porém os mesmso podem estar sofrendo um overfit e estar trazendo um resultado com base em dados viciados, por esse motivo vamos fazer a otimização para ter certeza do resultado.

## Vamos fazer a otimização do modelo

In [23]:
param_grid = [{'n_estimators' : [50 , 100 , 150,200],'max_depth' : [4,5,6,7,8,9, 10]}] 
#vamos estabelecer alguns parametros para encontrarmos os melhores para utilizarmos

In [17]:
#hide_output
gs = GridSearchCV(modelo, param_grid, return_train_score=True) #Vamos utilizar o otimizador GridSeachCV
gs.fit(x_train,y_train) #Vamos treinar o GridSearch com o nosso modelo

GridSearchCV(cv=None, error_score=nan,
             estimator=ExtraTreesClassifier(bootstrap=False, ccp_alpha=0.0,
                                            class_weight=None, criterion='gini',
                                            max_depth=None, max_features='auto',
                                            max_leaf_nodes=None,
                                            max_samples=None,
                                            min_impurity_decrease=0.0,
                                            min_impurity_split=None,
                                            min_samples_leaf=1,
                                            min_samples_split=2,
                                            min_weight_fraction_leaf=0.0,
                                            n_estimators=100, n_jobs=None,
                                            oob_score=False, random_state=None,
                                            verbose=0, warm_start=False),
             iid='deprec

In [18]:
gs.best_params_ #Vamos retirar os melhores parametros da otimização

{'max_depth': 10, 'n_estimators': 100}

## Agora vamos treinar o modelo com os melheores parametros e retirar os resultados

In [21]:
#hide_output
modelo_opt = ExtraTreesClassifier(max_depth=10 , n_estimators=100) #Agora Vamos rodar nossa arvore de decisão com os melhroes parametros
modelo_opt.fit(x_train,y_train)

ExtraTreesClassifier(bootstrap=False, ccp_alpha=0.0, class_weight=None,
                     criterion='gini', max_depth=10, max_features='auto',
                     max_leaf_nodes=None, max_samples=None,
                     min_impurity_decrease=0.0, min_impurity_split=None,
                     min_samples_leaf=1, min_samples_split=2,
                     min_weight_fraction_leaf=0.0, n_estimators=100,
                     n_jobs=None, oob_score=False, random_state=None, verbose=0,
                     warm_start=False)

In [22]:
resultado = modelo_opt.score(x_test,y_test)
print("Acuracia: ", resultado) #Obtivemos um resultado muito bom e temos a certeza de eficacia do modelo

Acuracia:  0.9923076923076923


# Conclusão

Obtivemos resultados muito parecidos e comprovamos tanto a eficacia do modelo para classificar vinhos, sendo assim agora poderiamos rodar o modelo com dados que o mesmo nunca viu e afirmar com 99% de certeza que ele sabe classificar o vinho entre tinto e branco.