<a href="https://colab.research.google.com/github/nicolegold/AnalistaMachineLearning/blob/master/Desafio2_Modulo2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [0]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# Analise estatística
from scipy.stats import pearsonr

# Bibliotecas dos modelos a serem aplicados
from sklearn.neighbors import KNeighborsClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

# Ferramentas para o pré-processamento
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split

# Métricas para avaliação do modelo
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score, r2_score, plot_confusion_matrix

In [0]:
# Definição do nome das colunas
colunas = ["fixed acidity","volatile acidity","citric acid","residual sugar","chlorides","free sulfur dioxide","total sulfur dioxide","density","pH","sulphates","alcohol","quality"]

In [0]:
# Leitura do dataset
df_wine = pd.read_csv('winequality-red.csv', sep=';', names = colunas, header=0)

In [19]:
# Visualizando as 5 primeiras linhas/observações
df_wine.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,5
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,5
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,6
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,5


# 1) No dataset utilizado para o desafio, quantas instâncias e atributos existem, respectivamente? 1599 instâncias e 12 atributos

In [20]:
df_wine.shape

(1599, 12)

Resposta: 1599 instâncias e 12 atributos

# 2) Quantos tipos diferentes de dados existem no dataset do desafio? 2 tipos: float64 e int64

In [21]:
df_wine.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1599 entries, 0 to 1598
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         1599 non-null   float64
 1   volatile acidity      1599 non-null   float64
 2   citric acid           1599 non-null   float64
 3   residual sugar        1599 non-null   float64
 4   chlorides             1599 non-null   float64
 5   free sulfur dioxide   1599 non-null   float64
 6   total sulfur dioxide  1599 non-null   float64
 7   density               1599 non-null   float64
 8   pH                    1599 non-null   float64
 9   sulphates             1599 non-null   float64
 10  alcohol               1599 non-null   float64
 11  quality               1599 non-null   int64  
dtypes: float64(11), int64(1)
memory usage: 150.0 KB


Resposta: 2 tipos (float64 e int64)

# 3) Qual é a proporção (em %) de valores nulos existente na coluna "residual sugar" (resíduo de açucar)?

In [22]:
df_wine['residual sugar'].isnull().sum() / len(df_wine['residual sugar'] * 100)

0.0

Resposta: 0%

# 4) Qual é o desvio padrão para a variável "fixed acidity" ?

In [23]:
df_wine['fixed acidity'].std()

1.7410963181277006

Resposta: 1.74

#5) Qual é a mediana para a variável "residual sugar"?

In [24]:
df_wine['residual sugar'].median()

2.2

Resposta: 2.2

6) Sobre o coeficiente de correlação de Pearson entre as variáveis "fixed acidity" e "pH" é CORRETO afirmar:

In [25]:
df_wine[['fixed acidity', 'pH']].corr()

Unnamed: 0,fixed acidity,pH
fixed acidity,1.0,-0.682978
pH,-0.682978,1.0


In [26]:
cor_pear6,_ = pearsonr(df_wine['fixed acidity'],df_wine['pH'])
print("coeficiente de correlação de Pearson entre as variáveis 'fixed acidity' e 'pH' é: {}".format(cor_pear6))

coeficiente de correlação de Pearson entre as variáveis 'fixed acidity' e 'pH' é: -0.6829781945685314


Resposta: Existe uma correlação negativa. Quanto maior o "fixed acidity, menor é o "pH".

# 7) Mesmo sendo reduzido, é CORRETO dizer sobre o coeficiente de correlação de Pearson entre as variáveis "quality" e "alcohol":

In [27]:
df_wine[['quality', 'alcohol']].corr()

Unnamed: 0,quality,alcohol
quality,1.0,0.476166
alcohol,0.476166,1.0


In [28]:
cor_pear7, _ = pearsonr(df_wine['quality'],df_wine['alcohol'])
print("O coeficiente de correlação de Pearson entre as variáveis 'quality' e 'alcohol' é: {}".format(cor_pear7))

O coeficiente de correlação de Pearson entre as variáveis 'quality' e 'alcohol' é: 0.47616632400113607


Resposta: Quanto maior o teor alcoolico (alcohol), maior é a qualidade do vinho (quality).

# 8) Quantas instâncias existem para a qualidade do vinho igual a 5?

In [29]:
df_wine['quality'].value_counts()

5    681
6    638
7    199
4     53
8     18
3     10
Name: quality, dtype: int64

In [30]:
print("Existem {} instâncias para a qualidade do vinho 5".format(len(df_wine[df_wine['quality']==5])))

Existem 681 instâncias para a qualidade do vinho 5


In [31]:
print("Instâncias em 5: \n{}".format(len(df_wine[df_wine['quality']==5])))

Instâncias em 5: 
681


In [32]:
print("Instâncias existem para a qualidade do vinho igual a 5:\n {}".format(len(df_wine[df_wine['quality']==5])))

Instâncias existem para a qualidade do vinho igual a 5:
 681


Resposta: 681

# 9) Aplique a normalização MinMaxScaler "default" para os dados. Qual é o menor valor para "fixed acidity"?

In [0]:
# Instanciando a função MinMaxScaler
scaler = MinMaxScaler()

In [0]:
X = df_wine.drop(['quality'], axis=1)
Y = df_wine['quality']

In [0]:
# Aplicando a função MinMaxScaler no conjunto de dados
X = scaler.fit_transform(X)

In [36]:
pd.DataFrame(X, columns=df_wine.columns[:-1])['fixed acidity'].min()

0.0

Resposta: 0

# Treinamento do Modelo

In [0]:
# Gerando dados para treino e teste
trainX, testX, trainY, testY = train_test_split(X, Y, random_state=1, train_size = 0.7)

In [39]:
print(trainX.shape, trainY.shape, testX.shape, testY.shape)

(1119, 11) (1119,) (480, 11) (480,)


In [0]:
# Instanciando o algoritmo
clf_KNN = KNeighborsClassifier(n_neighbors=5)

In [41]:
# Efetuando o treinamento do modelo
clf_KNN.fit(trainX, trainY)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=None, n_neighbors=5, p=2,
                     weights='uniform')

# 10) Após dividir o dataset utilizando o método train_test_split(entradas_normalizadas, saida, test_size=0.30, random_state=1). Qual foi a acurária para o KNN?

In [0]:
knn_predict = clf_KNN.predict(testX)

In [43]:
accuracy_score(testY, knn_predict)

0.5645833333333333

In [44]:
print("A acurácia para o KNN foi de {:.2f}".format(accuracy_score(testY, knn_predict)))

A acurácia para o KNN foi de 0.56


In [45]:
print("Matriz de Confusão:\n",confusion_matrix(testY, knn_predict))

Matriz de Confusão:
 [[  1   0   1   0   0   0]
 [  0   1  14   5   1   0]
 [  0   0 148  54   5   0]
 [  0   1  71 102  21   0]
 [  0   1   9  23  19   0]
 [  0   0   0   1   2   0]]


# 11) Aplicando a árvore de decisão com parâmetros definidos no enunciado e divisão de treinamento e teste. Qual é o valor da acurácia?

In [0]:
# Instanciando o algoritmo
clf_arvore = DecisionTreeClassifier()

In [48]:
# Efetuando o treinamento do modelo
clf_arvore.fit(trainX, trainY)

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [49]:
clf_arvore.score(trainX, trainY)

1.0

In [50]:
print("A acurácia para a Árvore de Decisão foi de {}".format(clf_arvore.score(trainX, trainY)))

A acurácia para a Árvore de Decisão foi de 1.0


# 12) Aplicando a floresta randomica. qual é o valor da acurácia?

In [0]:
# Instanciando o algoritmo
clf_floresta = RandomForestClassifier(max_depth=10, random_state=1)

In [53]:
# Efetuando o treinamento do modelo
clf_floresta.fit(trainX, trainY)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=10, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=1, verbose=0,
                       warm_start=False)

In [0]:
forest_predicted = clf_floresta.predict(testX)

In [56]:
accuracy_score(testY, forest_predicted)

0.6791666666666667

In [60]:
print("A acurácia da Floresta Randômica é de {:.2f}".format(accuracy_score(testY, forest_predicted)))

A acurácia da Floresta Randômica é de 0.68


# 13) Aplicando o SVM, qual é o valor de acurácia obtido?

In [0]:
# Instanciando o algoritmo
clf_svm=SVC(gamma='auto', kernel='rbf')

In [62]:
# Efetuando o treinamento do modelo
clf_svm.fit(trainX, trainY)

SVC(C=1.0, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)

In [0]:
# Efetuando as previsões
prev_svm = clf_svm.predict(testX)

In [64]:
clf_svm.score(trainX, trainY)

0.5567470956210903

In [66]:
print("A acurácia com o SVM é de {:.2f}".format(clf_svm.score(trainX, trainY)))

A acurácia com o SVM é de 0.56


# 14) Aplicando a MLP, qual é a acurácia do modelo?

In [0]:
# Instanciando o algoritmo
clf_mlp = MLPClassifier(alpha=1e-5, hidden_layer_sizes=(5, 5), random_state=1)

In [68]:
# Efetuando o treinamento do modelo
clf_mlp.fit(trainX, trainY)



MLPClassifier(activation='relu', alpha=1e-05, batch_size='auto', beta_1=0.9,
              beta_2=0.999, early_stopping=False, epsilon=1e-08,
              hidden_layer_sizes=(5, 5), learning_rate='constant',
              learning_rate_init=0.001, max_fun=15000, max_iter=200,
              momentum=0.9, n_iter_no_change=10, nesterovs_momentum=True,
              power_t=0.5, random_state=1, shuffle=True, solver='adam',
              tol=0.0001, validation_fraction=0.1, verbose=False,
              warm_start=False)

In [69]:
clf_mlp.score(trainX, trainY)

0.5746201966041108

In [70]:
print("A acurácia para o MLP é de {:.2f}".format(clf_mlp.score(trainX, trainY)))

A acurácia para o MLP é de 0.57


# 15) Modifique o dataset para um sistema binário que considere vinhos com nota maior do que 5 (6, 7, 8) sejam bons e menores ou igual a 5 ruins (5, 4, 3). Aplique o modelo da floresta randômica. Qual a acurácia do modelo para esse novo dataset?

In [0]:
trainY = trainY > 5
trainY = trainY.astype(int)

In [0]:
testY = testY > 5
testY = testY.astype(int)

In [0]:
# Instanciando o algoritmo
clf_floresta = RandomForestClassifier(max_depth=10, random_state=1)

In [74]:
# Efetuando o treinamento do modelo
clf_floresta.fit(trainX, trainY)

RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=10, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=100,
                       n_jobs=None, oob_score=False, random_state=1, verbose=0,
                       warm_start=False)

In [77]:
clf_floresta.score(testX, testY)

0.8041666666666667

In [79]:
print("Acurácia para a Floresta Randômica é de: {}".format(clf_floresta.score(testX, testY)))

Acurácia para a Floresta Randômica é de: 0.8041666666666667
