# Esse notebook visa:
## - explorar os dados da tabela wine_quality
## - visualizar a distribuição no datasets
## - classificar os vinhos que nela constam usando algorítmo de árvore de decisão 


O dataset está disponível no endereço: https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009

Primeiro, vamos importar a biblioteca pandas para nosso notebook, a seguir iremos ler o arquivo com os dados e explorar seus dados:

In [None]:
import numpy as np
import pandas as pd

In [None]:
dt = pd.read_csv('../input/winequality-red.csv')

In [None]:
dt.shape


In [None]:
dt.head()

Podemos ver que a tabela traz 12 colunas, todas numéricas, com dados fisico-químicos dos vinhos. A ultima coluna nos traz a classificação do vinho.

Vamos analisar os valores faltantes (missing values) da nossa tabela:


In [None]:
dt.isna().sum()

Rodando os códigos *dt.isnull().sum() -ou st.isna().sum() -* temos a soma de todos os valores que são NaN. Como o método isna() retorna uma tabela de valores Booleanos, podemos soma-los, onde True=1 e False=0. Neste caso, vemos que essa tabela nõa possui valores NaN.

In [None]:
dt.quality.min()

In [None]:
dt.quality.max()

Notasse que a nota mínima de qualidade é 3, e a máxima é 8.

Podemos testar a correlação entre as colunas variáveis e a coluna qualidade, que é nosso target.

In [None]:
for x in dt.columns:
    print(dt[[x,'quality']].corr())
    print()


Analisando o resultado, vemos que a maior correlação com a coluna *quality* é a coluna *alcohol*, mas ainda assim, sendo uma fraca correlação.



# Visualizando os dados usando Matplotlib
Podemos usar também gráficos para analisar melhor os resultados, usando a biblioteca matplotlib.
Primeiro, temos que importar a biblioteca.

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
plt.hist(dt.quality,10,density=False, facecolor='blue')

Sabemos como estão distribuidos os valores da coluna ***quality*** na nossa tabela. A maior parte dos vinhos estão classificados entre 5 e 6.

# Aplicando Machine Learning 

Para nosso estudo, iremos utilizar o algorítmo de árvore de decisão, da biblioteca Scikt-Learn. Importe a biblioteca e suas funções necessárias para a utilização:


In [None]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

## Preparação 



Podemos então começar a preparar nossos dados para serem aplicados ao processo de classificação, com intuito de prever a qualidade dos vinhos através das outras variáveis(colunas).
Primeiro, iremos separar as colunas entre varáveis (x) e nosso alvo (y). Assim, iremos ter as colunas que serão nossa base de calculos para a classificação.


In [None]:
dt.columns

In [None]:
x = dt[['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol']].copy()

In [None]:
y= dt[['quality']].copy()

In [None]:
print(x.shape)
print(y.shape)

Analisando o formato das tabelas geradas, vemos que a tabela *dt* foi dividida em duas, ***x*** com as 11 variáveis e ***y*** com nosso alvo (*quality*) 

## Treinando a Árvore de Decisão

Começamos agora o treinamento do nosso modelo. 
Usamos o metodo train_test_split() para separar nossos dados que serão base dos treinamentos e testes. 

**test_size:** usado para definir o percentual do montante dos dados da tabela original usado na tabela teste. O restante será usado no treinamento.

**random_state:** número inteiro que representa uma versão randomica da divisão dos dados entre a tabela teste e treinamento.
se não for informado, a cada vez que a o código for processado o algorítmo irá gerar uma base diferente para as tabelas teste e treinamento.


In [None]:
x_train, x_test, y_train,y_test = train_test_split(x,y, test_size=0.33, random_state=324)

In [None]:
print(x_train.shape)
print(x_test.shape)
print(y_train.shape)
print(y_test.shape)


Vemos acima que a tabela ***dt*** foi divida em tabelas, com tamanhos conforme definido em test_size.

Próximo passo é criar nosso modelo classificador, que irá receber ***x_train*** e ***y_train*** para treinamento.

**max_leaf_nodes:** define a quantidade de nós na árvore de decisão serão utilizadas.

In [None]:
wine_quality_classifier = DecisionTreeClassifier(max_leaf_nodes=10, random_state=1)
wine_quality_classifier.fit(x_train,y_train)

Com o modelo já treinado, colocaremos em teste usando ***x_test***. Passaremos um conjunto não conhecido para o modelo, onde ele irá classificar a qualidade dos vinhos analisando as variáveis recebidas. Esse resultado será armazenado em ***predictions*** em um formato de numpy.ndarray.

In [None]:
predictions = wine_quality_classifier.predict(x_test)

In [None]:
predictions[:5]


# Mas como nosso modelo se saiu?

Podemos usar ***accuracy_score()*** para medir o percentual de acerto do nosso modelo.

quanto mais próximo de 1, melhor é o seu desempenho.

In [None]:
accuracy_score(y_true=y_test, y_pred=predictions)

### Agora que já fizemos uma breve análise da nossa tabela e aplicamos o algoritmo de árvore de decisão para classificar os vinhos, faça alguns testes, alterando os números de nós, aplicando outro algorítmo de classificação ou até mesmo regressão, e compare os resultados atingidos. Bons estudos.