<a href="https://colab.research.google.com/github/otaviomuraca/Bootcamp-Machine-Learning-Engineer/blob/main/IGTI_M%C3%B3dulo_1_WineQuality.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Bootcamp: Engenheiro de Machine Learning
###Módulo 1: Fundamentos de Aprendizado de Máquina
#####Otávio Muraca

Esse dataset contém um
conjunto de atributos (dados de sensores) sobre o processo de fabricação de vinhos (tinto e
branco). Esses dados são utilizados para classificar, ao final do processo, a qualidade do vinho
obtido. Existem informações como o teor alcoólico e nível de acidez.

##Importando Bibliotecas

In [None]:
#Importando Bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import scipy
import pydotplus

from scipy.optimize import curve_fit

from sklearn import neighbors, datasets, metrics
from sklearn.svm import SVC
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split 
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.metrics import classification_report, confusion_matrix
from sklearn.metrics import precision_score, accuracy_score
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.ensemble import RandomForestClassifier
from sklearn.neural_network import MLPClassifier
from sklearn.neighbors import KNeighborsClassifier

from mlxtend.plotting import plot_confusion_matrix

from six import StringIO

from IPython.display import Image

##Carregando a base de dados

In [None]:
#Importando CSV
dados = pd.read_csv('winequality-red.csv', sep=';')

## Analisando o dataset

In [None]:
dados.head()

In [None]:
#Tamanhos do dataset
print(f'O dataset possui {dados.shape[0]} linhas e {dados.shape[1]} colunas')

In [None]:
#Tipos das colunas do dataset
dados.info()

In [None]:
#Verificando valores nulos
dados.isna().sum()

In [None]:
#analisando as "estatísticas do dataset"
dados.describe()

In [None]:
#Mediana
np.median(dados['residual sugar'])

In [None]:
#Verificando a CORRELAÇÃO
dados.corr()

In [None]:
#Gerando Gráfico de CORRELAÇÃO
fig, ax = plt.subplots(figsize= (20, 20))
sns.heatmap(dados.corr(), annot= True, linewidths= 0.5, cmap = 'BuPu')

In [None]:
#Observando os valores únicos de QUALITY
dados['quality'].unique()

In [None]:
#Observando a FREQUÊNCIA dos valores únicos de QUALITY
dados['quality'].value_counts()

In [None]:
#Coeficiente de correlação de Pearson FIXED ACIDITY x pH
sns.scatterplot(data = dados, x="fixed acidity", y = "pH" )

In [None]:
#Coeficiente de correlação de Pearson QUALITY x ALCOHOL
sns.scatterplot(data = dados, x="quality", y = "alcohol" )

##Ajustando ESCALAS

In [None]:
#Verificando as Escalas
teste = sns.boxplot(data=dados)


É possível observar a diferença na escalada dos dados. Essa diferença pode atrapalhar no desempenho dos logoritmos de Machine Learning. Para reverter essa situação, aplicaremos um método de normalização de dados, **MinMaxScaler**.



In [None]:
#Ajustando o método de Escala
scaler = MinMaxScaler()

#Duplicando o dataset
dadosCopy = pd.DataFrame(dados, columns = ['fixed acidity', 'volatile acidity', 'citric acid', 'residual sugar',
       'chlorides', 'free sulfur dioxide', 'total sulfur dioxide', 'density',
       'pH', 'sulphates', 'alcohol', 'quality'])

transformed_dataset = scaler.fit_transform(dadosCopy.drop('quality', axis=1).values)

dadosEscalado = pd.DataFrame(data=transformed_dataset, columns = dados.columns.drop('quality'))
dadosEscalado = pd.concat([dadosEscalado, dadosCopy['quality']], axis=1)
dadosEscalado.head()

In [None]:
teste = sns.boxplot(data=dadosNormalizados)

Após a sua normalização, conseguimos ver melhor sua escala entre 0 e 1. Agora todos os dados possuem a mesma escala, possibilitando assim, um melhor desempenho dos algoritmos de Machine Learning.

##Divisão dos dados TESTE / TREINAMENTO

In [None]:
#Transformando os dados em array
x = dadosEscalado.iloc[:,0:-1].values #Selecionando as colunas com as características
y = dadosEscalado.iloc[:,11].values #Selecionando a coluna com a qualidade final

In [None]:
#Realiza a divisão dos dados entre TREINAMENTO e TESTE (70/30)
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state = 1, test_size = 0.30)

##KNN

In [None]:
dadosEscalado

In [None]:
dadosEscalado['quality'].unique()

In [None]:
#Treina o modelo KNN
classifier = KNeighborsClassifier(n_neighbors=5) #5vizinhos
classifier.fit(x_train, y_train)

#Realiza a previsão
y_pred = classifier.predict(x_test)

#Realiza a previsão
y_pred = classifier.predict(x_test)

#Vendo a ACURÁCIA do logorítmo
print(classification_report(y_test, y_pred))
print(f'A acurácia do algorítmo KNN foi de {round(accuracy_score(y_test, y_pred),2)}% \n')

In [None]:
#Realiza o plot da matriz de confusão
matriz_confusao = confusion_matrix(y_test,y_pred)

fig, ax = plot_confusion_matrix(conf_mat=matriz_confusao)
plt.savefig('KNN.png')
plt.show()


##Árvore de Decisão

In [None]:
#Cria o objeto de classificação
clf = DecisionTreeClassifier()

#realiza o treinamento do classificador 
clf = clf.fit(x_train, y_train)

#Realiza a previsão de classificaçao
y_pred = clf.predict(x_test)

print(classification_report(y_test, y_pred))
print(f'A acurácia do algorítmo KNN foi de {round(accuracy_score(y_test, y_pred),2)}% \n')


In [None]:
#Realiza o plot da Matriz de Confusão
matriz_confusao = confusion_matrix(y_test,y_pred)

fig, ax = plot_confusion_matrix(conf_mat=matriz_confusao)
plt.savefig('ArvodeDecisao.png')
plt.show()

##Algoritmo Floresta Randônica


In [None]:
#Cria o objeto de classificação
clfr = RandomForestClassifier(max_depth=10, random_state=1)

#realiza o treinamento do classificador 
clfr = clfr.fit(x_train, y_train)

#Realiza a previsão de classificaçao
y_pred = clfr.predict(x_test)

print(classification_report(y_test, y_pred))
print(f'A acurácia do algorítmo KNN foi de {round(accuracy_score(y_test, y_pred),2)}% \n')

In [None]:
#Cria o plot da Floresta Randômica

dot_data = StringIO()
export_graphviz(clf, out_file=dot_data,
                filled = True, rounded = True,
                special_characters=True,
                class_names=['0','1','2','3','4','5'])

graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_png('arvore.png')
Image(graph.create_png())

##SVM

In [None]:
#Cria o objeto SVM
clf_svm =SVC(gamma='auto',kernel='rbf')

#Realiza a classificação via SVM
clf_svm = clf_svm.fit(x_train,y_train)

#Realiza a previsão de classificação
y_pred = clf_svm.predict(x_test)

print(classification_report(y_test, y_pred))
print(f'A acurácia do algorítmo KNN foi de {round(accuracy_score(y_test, y_pred),2)}% \n')

In [None]:
#Avalia o modelo

#Realiza o plot da MC
matriz_confusao = confusion_matrix(y_test,y_pred)

from mlxtend.plotting import plot_confusion_matrix

fig, ax = plot_confusion_matrix(conf_mat = matriz_confusao)
plt.savefig('SVM')
plt.show()

##Redes Neurais

In [None]:
#Algoritmo Rede MLP
clf = MLPClassifier(alpha=1e-5, hidden_layer_sizes=(5,5), random_state=1)

clf = clf.fit(x_train, y_train)

y_pred = clf.predict(x_test)


print(classification_report(y_test, y_pred))
print(f'A acurácia do algorítmo KNN foi de {round(accuracy_score(y_test, y_pred),2)}% \n')


##Sistema Binário

Foi solicitado testar os mesmos algorítmos no mesmo dataset, porém com os valores de saída em formato BINÁRIO (0 e 1).

In [None]:
dadosBinarios = dadosEscalado

In [None]:
dadosBinarios

In [None]:
#transformando os valores de saída da coluna 'quality' em 0 e 1
def binarios(dado):
  if (dado == 6) or (dado == 7) or (dado == 8):
    return 1
  elif (dado == 3) or (dado == 4) or (dado == 5):
    return 0

In [None]:
dadosBinarios['quality'] = dadosBinarios['quality'].apply(binarios)

In [None]:
dadosBinarios

In [None]:
#Transformando os dados em array
x = dadosBinarios.iloc[:,0:-1].values #colunas características
y = dadosBinarios.iloc[:,11].values #qualidades

x_train, x_test, y_train, y_test = train_test_split(x, y, random_state = 1, test_size = 0.30)

scaler = MinMaxScaler().fit(x_train)

x_train = scaler.transform(x_train)
x_test = scaler.transform(x_test)


dadosMinMax = MinMaxScaler().fit(dadosBinarios)
dadosMinMaxData = dadosMinMax.transform(dadosBinarios)



modelos = ["KNeighborsClassifier(n_neighbors=5)",
  "DecisionTreeClassifier()",
  "RandomForestClassifier(max_depth=10, random_state=1)",
  "SVC(gamma='auto',kernel='rbf')",
  "MLPClassifier(alpha=1e-5, hidden_layer_sizes=(5,5), random_state=1)"]

for i in modelos:
  modelo = i.replace('"','')
  x = eval(modelo)
  clf = x.fit(x_train, y_train)
  y_pred = clf.predict(x_test)
  acuracia = accuracy_score(y_test, y_pred)
  
  print(f'{i} = {round(acuracia,2)}')