## Usando análise química para determinar a qualidade de vinhos

Detalhes do conjunto de dados podem ser encontrdos no portal [CI Machine Learning Repository](https://archive.ics.uci.edu/ml/datasets/wine)

<center><img src="https://raw.githubusercontent.com/rauanisanfelice/python-wine/master/img/wine.jpeg", width=500></center> 

Esse dataset contém um conjunto de atributos (dados de sensores) sobre o processo de fabricação de vinhos.
Esses dados são utilizados para classificar, ao final do processo, a qualidade do vinho obtido. Existem informações como o teor alcoólico e nível de acidez. 

In [None]:
#Carregando as bibliotecas
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns
import datetime

In [None]:
#carregando o conjunto de dados
dados = pd.read_csv('winequality-red.csv', sep=';')

# Questão 1
Qual a justificativa em utilizar o **sep=';'** na carga do dados?

# Visualizando o conjunto de dados

In [None]:
dados.head(5)

# Verificando informações do conjunto de dados

In [None]:
dados.info()

# Questão 2 
Quantas instâncias (registros) de vinhos e que atributos (características) cada um deles o conjunto de dados possui?

# Questão 3
Quantos tipos diferentes de dados existem no conjunto de dados?

# Questão 4
Algum registro possui valores nulos?

# Uma visão geral do conjunto de dados

In [None]:
dados.describe()

# Questão 5
Qual é o desvio padrão para a variável "fixed acidity"?

# Questão 6
Qual é a mediana para a variável "residual sugar"?

# Matriz de Correlação de Pearson

In [None]:
plt.figure(figsize=(9,9))
matriz_correlacao=dados.corr(method='pearson')
sns.heatmap(matriz_correlacao,annot=True)
plt.show()

# Questão 7
Qual o valor do coeficiente de correlação de Pearson entre as variáveis "fixed acidity" e "pH"?

# Questão 7.1
- Qual a interpretação do Coeficiente de Correlação?
- Explique Correlação x Causalidade

# Questão 8
Qual é o valor do coeficiente de correlação de Pearson entre as variáveis "quality" e "alcohol" e como podemos [interpretá-la](https://pt.wikipedia.org/wiki/Coeficiente_de_correla%C3%A7%C3%A3o_de_Pearson) (forte, fraca, etc ...) 

# Questão 9
- Quantas instâncias existem para a variável 'quality' (qualidade do vinho) com valor igual a 5?    
- O Conjunto de dados é balanceado?
- Quantas classes (qualidade) distintas o conjunto de dados possui?

# Identificando possíveis outliers

In [None]:
plt.figure(figsize=(10, 10),dpi=100)
dados[['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality']].boxplot()
plt.xticks(rotation='vertical')

# Questão 10

- Observe a figura, consegue identificar os outliers?
- Atente para a escala do lado esquerdo da figura; procure relacionar a escala para cada uma das variáveis.

# Normalizando os dados

Aplicaremos o modelo de normalização MinMaxScaler com os valores "default" para o conjunto de dados

In [None]:
#Normalização o conjunto de dados.
from sklearn.preprocessing import MinMaxScaler

dataset_values = dados.values
#cria o objeto que realiza a normalização dos dados por meio dos valores mínimos e máximos
scaler = MinMaxScaler(feature_range=(0.1, 0.9)) 
dataset = scaler.fit(dataset_values)

#Aplicando a escala, normalizando valores na escala de 0 a 1
dataset = scaler.fit_transform(dataset_values)
#nomeando colunas do novo dataFrame 
colunas = dados.columns 

#cria o dataframe com valore normalizados
dados_normalizados = pd.DataFrame(dataset,columns=[colunas])
dados_normalizados.head()

# Identificando possíveis outliers com valores normalizados

In [None]:
plt.figure(figsize=(20, 10),dpi=100)
dados_normalizados[['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality']].boxplot()
plt.xticks(rotation='vertical')

# Questão 11
- Observe a figura, consegue identificar os outliers?
- Atente para a escala do lado esquerdo da figura; procure relacionar a escala para cada uma das variáveis.
- Compare as visualizações antes e após a normalização.

# Dividindo o conjunto de dados entre entradas (X) e saídas (y)

In [None]:
# Seleção das features pelo nome da coluna
X = dados[['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
           'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
           'pH', 'sulphates', 'alcohol']].values
y = dados['quality'].values

# Questão 12
Normalize as entradas entre 0 e 1, utilizando **MinMaxScaler**

# Questão 13
Divida o conjunto de dados em 65% de dados para treinamento e 35% de dados para testes

# Treinando um Algoritmo KNN 

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score
clf_KNN = KNeighborsClassifier(n_neighbors=5) 
clf_KNN.fit(X_train, y_train) 
y_pred_KNN = clf_KNN.predict(X_test)
print("Acuracia para classificador KNN: ", accuracy_score(y_pred_KNN,y_test))

In [None]:
from sklearn.metrics import classification_report, confusion_matrix

print(confusion_matrix(y_test, y_pred_KNN))


In [None]:
#realiza o plot da matriz de confusão
from sklearn.metrics import plot_confusion_matrix
plt.rcParams["figure.figsize"]=(8, 8)
plot_confusion_matrix(clf_KNN, X_test, y_test)
plt.show()

In [None]:
# Crie um relatório de texto mostrando as principais métricas de classificação.
print(classification_report(y_test, y_pred_KNN))

In [None]:
# Acurácia do modelo
from sklearn.metrics import accuracy_score

acuracia_KNN = accuracy_score(y_test, y_pred_KNN)

In [None]:
print(f'A acurária para o KNN é {acuracia_KNN}')

# Questão 14
Teste o modelo com outros valores para n_neighbors e compare o resultado.

# Questão 15
- Treine um Algoritmo de Árvore de Decisão utilizando os dados de entrada normalizados.
        - Calcule a acurácia;
        - Apresente a matriz de confusão;
        - Apresente precision | recall | f1-score, utilizando o classification_report;
        - Utilize DecisionTreeClassifier.

# Questão 16
- Treine um Algoritmo de Floresta Randômica utilizando os dados de entrada normalizados.
        - Calcule a acurácia;
        - Apresente a matriz de confusão;
        - Apresente precision | recall | f1-score, utilizando o classification_report;
        - Utilize RandomForestClassifier(max_depth=10)

# Questão 17
- Treine um Algoritmo SVM utilizando os dados de entrada normalizados.
        - Calcule a acurácia;
        - Apresente a matriz de confusão;
        - Apresente precision | recall | f1-score, utilizando o classification_report;
        - Utilize SVC(gamma='auto', kernel='rbf')

# Questão 18
- Treine um Algoritmo MLP utilizando os dados de entrada normalizados.
        - Calcule a acurácia;
        - Apresente a matriz de confusão;
        - Apresente precision | recall | f1-score, utilizando o classification_report;
        - Utilize MLPClassifier( alpha=1e-5, hidden_layer_sizes=(5, 5), random_state=1).

# Questão 19
- Compare a acurácia de todos os classificadores utilizados.

# Classificador binário (2 classes)

- Vamos modificar nosso conjunto de dados de forma a implmentar um classificador binário, isto é o vinho é bom ou não 2.    
- Consideraremos as qualidades 3, 4 e 5 como vinhos ruins (valor 0). Já as qualidades 6, 7 e 8 serão vinhos bons (valor 1).

In [None]:
#Fazendo uma cópia dos ados
dados2 = dados.copy()
#Criando a nova coluna e atribuindo valores conforme considerações acima
dados2['new_quality']= dados2['quality'].apply(lambda x: 0 if x<=5 else 1)
#Apagando a coluna qualidade antiga
dados2.drop(labels=['quality'],axis=1, inplace=True)

In [None]:
dados2.head()

# Questão 20
- Para o melhor classificador (maior acurácia) encontrado na questão 19, refaça o processo de:
        - Separação dos daados de entrada e saída;
        - Normalização;
        - Divisão do conjunto de dados (treinamento e testes);
        - Treinamento;
        - Predição; e
        - Métricas de qualidade.