# Projeto de Ciências de Dados

##### Professor: Francisco Rodrigues
##### Aluna: Andressa Contarato Rodrigues

O desenvolvimento desse projeto se dará através dos seguintes passos:
    
    * Pré-processamento
    
    1- Formulação do problema e preparo dos dados
    2 - Limpeza e normalização dos dados
    3- Transformação para valores numéricos (one-hot-encoding) se precisar.
    
    * Classificação (classificar de acordo com a qualidade)
    
    4 - kvizinhos (encontre o melhor k usando validação cruzada)
    5 - Árvore de decisão
    6 - Naive Bayes
    7 - SVM (encontre o melhor C usando validação cruzada)
    8 - Random Forest (encontre o melhor número de estimadores usando validação cruzada)
    
    * Ordenação dos atributos
    
    9 - Para o algoritmo random forest, mostre a importância de cada atributo.
    
    * Regressão
    
    10 - Usando regressão linear, tente predizer a porcentagem de álcool.
    11 - Compare os métodos Lasso, Ridge Regression, calculando o erro quadrático médio em função dos seus parâmetros (alpha).
    
    * Conclusão
    
    12 - Discussão dos resultados obtidos

<span style="color:yellow"> Objetivo: Vamos considerar o problema de classificação dos de vinhos disponível no portal Kaggle (link: https://www.kaggle.com/uciml/red-wine-quality-cortez-et-al-2009).
Ou seja, objetivamos construir um projeto para classificar os dados, de modo a verificar o quão preciso são nossos resultados comparados com soluções de outros usuários. 
Vamos mostrar todas as fases do projeto e os resultados, mas lembramos que essa é uma possível solução. </span>

Nosso objetivo é classificar o vinho de acordo com a qualidade dele e predizer o teor alcóolico deste vinho.

## Formulação do problema e leitura dos dados

Vamos considerar a base de dados de vinhos.

Atributos contidos nos dados

1 - fixed acidity: a maioria dos ácidos envolvidos no vinho ou fixa ou não volátil (não evapore rapidamente) 

2 - volatile acidity: a quantidade de ácido acético no vinho, que em níveis muito altos pode levar a um sabor desagradável ao vinagre 

3 - citric acid: encontrado em pequenas quantidades, o ácido cítrico pode adicionar 'frescura' e sabor aos vinhos

4 - residual sugar: a quantidade de açúcar restante após o término da fermentação, é raro encontrar vinhos com menos de 1 grama / litro e vinhos com mais de 45 gramas / litro são considerados doces 

5 - chlorides: a quantidade de sal no vinho 

6 - free sulfur dioxide: a forma livre de SO2 existe em equilíbrio entre o SO2 molecular (como um gás dissolvido) e o íon bissulfito; impede o crescimento microbiano e a oxidação do vinho 

7 - total sulfur dioxide: formas livres e ligadas de S02; em baixas concentrações, o SO2 é principalmente indetectável no vinho, mas em concentrações livres de SO2 acima de 50 ppm, o SO2 se torna evidente no nariz e no sabor do vinho 

8 - density: a densidade da água no vinho é próxima à da água, dependendo da porcentagem de teor de álcool e açúcar 

9 - pH: descreve como um vinho é ácido ou básico em uma escala de 0 (muito ácido) a 14 (muito básico); a maioria dos vinhos tem entre 3-4 na escala de pH 

10 - sulphates: um aditivo de vinho que pode contribuir para os níveis de gás dióxido de enxofre (S02), que atua como antimicrobiano e antioxidante 

11 - alcohol: a percentagem de álcool do vinho 

12 - quality: variável de saída de qualidade (com base em dados sensoriais, pontuação entre 0 e 10)

Importando os pacotes necessários

In [None]:
# Dentro da linguagem pandas ha vários métodos e funções pré-definidas, porém muitas das quais vamos utilizar aqui, 
# temos que 'chamar' através de uma estrutura import ou se for um módulo 
# de uma biblioteca, através do from.

import matplotlib.pyplot as plt # módulo matplotlib para construcao de graficos
import numpy as np # biblioteca pandas usada para manipulação de dados, tb da forma big data e construção de métricas
import os # biblioteca python para setar egerenciar arquivos localmente
import pandas as pd # biblioteca Pandas é usada para manipulação de dados
import random # módulo do Numpy de geração de números randomicos
from sklearn.preprocessing import StandardScaler # módulo do sklearn para padronização dos dados do sklearn para padronizacao e normalizacao dos dados
from sklearn.model_selection import train_test_split # módulo do sklearn para separar dados de teste e de treino
from sklearn.model_selection import cross_validate # módulo sklearn para validação cruzada
from sklearn.neighbors import KNeighborsClassifier # módulo sklearn para calcular o modelo de machine learning knn
from sklearn import tree # importando o módulo do sklearn do modelo de árvore de decisão
from sklearn.metrics import accuracy_score # para calculo da acurácia em módulos que nao se tem implementados
from sklearn import tree # importando módulo de visualização da árvore
from sklearn.naive_bayes import GaussianNB # módulo do sklearn para implementação do modelo de Naive Bayes com distribuição normal
from sklearn import metrics # módulo do sklearn para computação de métricas dentro do modelo de naive bayes
from sklearn.naive_bayes import BernoulliNB # módulo do sklearn para implementação do modelo de Naive Bayes com distribuição bernoulli
from sklearn.ensemble import RandomForestClassifier # módulo do sklearn para construção do modelo de Random Forest
from sklearn.linear_model import LinearRegression # módulo sklearn para regressao linear
from sklearn.decomposition import PCA # módulo sklearn para construção da pca
from sklearn.model_selection import train_test_split # módulo sklearn para construcao do split para dataset de teste e de treino num modelo de regressao linear
from sklearn.linear_model import Lasso # módulo sklearn para importacao da métrica de lasso
from sklearn.metrics import mean_squared_error # módulo sklear para importacao da estatistica de teste erro quadrático médio
from sklearn.metrics import r2_score # módulo sklear para importacao da estatistica de teste R2
from sklearn.linear_model import Ridge, RidgeCV # módulo sklearn para importacao da métrica de ridge


1- Formulação do problema e preparo dos dados

In [None]:
random.seed(42) # define a semente (importante para reproduzir os resultados)

dir_file = '' # insira o diretório onde se encontra o dataset
# ex.: /home/andressa/Desktop/
# criando um objeto do meu diretorio do dataset
os.chdir(dir_file) # setando aonde meu dataset está
df = pd.read_csv('winequality-red.csv') # importando os dados

print("Número de linhas e colunas no dataset:", df.shape) # funcao de printar
attributes = list(df.columns) # construindo um objeto tipo lista para armazenar os nomes das variaveis
features_names = df.columns
df.head(10) # funcao head para mostrar uma amostra do dataset

In [None]:
df.describe()

In [None]:
df.shape

Como a classificação há resultados melhores, quanto a acurácia dos modelos, o que será apresentado são os resultados do modelo com uma construção de uma nova target que seja categórica e dicotômica. 

Todavia, há também escrito a comparação entre modelos usando a variável original quality como target e a variável qualidade criada. 

A variável qualidade receberá 1 se o vinho for classificado com uma nota maior ou igual a 6 e 0 caso contrário, considerando a média da qualidade dos vinhos descrito na análise descritiva acima e arredondando uma casa decimal.

In [None]:
# criando uma variavel categorica

qualidade = []
for i in range(0,df.shape[0]):
    if df.iloc[i,11] < 6:
        qualidade.append(0)
    else:
        qualidade.append(1)
df['qualidade'] = qualidade
df.head()

df = df.drop(['quality'], axis=1) # removendo a coluna quality

# Obs: se for analisar a quality, nao rodar esta célula

2 - Limpeza e normalização dos dados

O conjunto de dados pode apresentar valores nulos (not a number: nan). A sua identificação pode ser feita usando métodos da biblioteca Pandas.

In [None]:
df.isnull().sum().sort_values(ascending=False).head(10)# verificação se há valores faltantes

O resultado mostrou que não há valores faltantes na base de dados.

In [None]:
df = df.dropna() # reomoção de valores faltantes

Não apresenta nenhum valor faltante

In [None]:
# Retorna True na posição em que há uma linha duplicada
df.duplicated()

Apresenta valor duplicado

In [None]:
# Remove as linhas duplicadas
df = df.drop_duplicates()
df.head()

Com isso o tamanho da base de dados também se altera.

In [None]:
df.shape

Vamos verificar se as classes estão balanceadas.

In [None]:
classes = df[df.columns[-1]] # considerando quality original do dataset
# classes = df[df.columns[-2]]
cl = np.unique(classes)
ncl = np.zeros(len(cl))
for i in np.arange(0, len(cl)):
    a = classes == cl[i]
    ncl[i] = len(classes[a])
    
numbers = np.arange(0, len(cl))
plt.bar(numbers, ncl,  alpha=.75)
plt.xticks(numbers, cl)
plt.title('Número de elementos em cada classe')
plt.show(True)

Modelo considerando a variável quality original: Há mais vinhos classificados como 5 e 6, tendo um desbalanceamento dos dados.

Modelo considerando a variável qualidade criada: há um melhor balanceamento considerando vinhos classificados maior ou igual a 6 como bons (atributo 1) e 0 caso contrário.

Análise Descritiva

In [None]:
df.describe()

Temos valores muito discrepantes entre as variaveis, vide o maximo da total sulfur dioxide com a density. E, na variável também, vide a total sulfur dioxide novamente. Necessitando de uma normalização dos dados.
Em média, a pontuação do vinho é de boa qualidade (considerando acima de 4 bom).
A variação da quality é muito pequena e a variação do total sulfur dioxide é uma das maiores.

In [None]:
# convertemos em formato numpy para facilitar a manipulacao dos dados
data = df.to_numpy() # dataframe do pandas para array numpy
nrow,ncol = data.shape # atribuindo aos objetos nrow e ncol o tamanho do conjunto de dados

y = data[:,-1] # considerando quality
# X = data[:,0:ncol-2] # construindo o dataset de analise sem a variavel target
# retirando a quality para analisar a qualidade como y, variavel target

X = data[:,0:ncol-1]

print('Dados originais:') # mostrando a média e desvio padrao dos atributos do conjunto de dados X ja transformados
print('Media: ', np.mean(X, axis = 0))
print('Desvio Padrao:', np.std(X, axis = 0))

In [None]:
# normalização dos dados de forma a evitar problemas de escala nos atributos
scaler = StandardScaler().fit(X) # normalização dos dados
X = scaler.transform(X) # tranformação dos dados

print('Dados transformados:') # mostrando a média e desvio padrao dos atributos do conjunto de dados X ja transformados
print('Media: ', np.mean(X, axis = 0))
print('Desvio Padrao:', np.std(X, axis = 0))

Os dados aqui ficaram numa escala variando de -8 até 4 aproximadamente (arredondando). Mas a distancia entre eles ficou menor comparado com o dataset original.

Podemos ter uma ideia da separação entre as classes realizando a projeção dos atributos em duas dimensões usando PCA.

In [None]:
pca = PCA(n_components=2)
pca_result = pca.fit_transform(X)

classes = np.unique(y)

colors = ['b', 'g', 'r', 'c', 'm', 'y', 'k', 'w']
aux = 0
plt.figure(figsize=(8,5))
for c in classes:
    if c == 1:
        lb = 'Bom'
    else:
        lb = 'Ruim'
    nodes = np.where(y == c)
    plt.scatter(pca_result[nodes,0], pca_result[nodes,1], s=50, color = colors[aux], label = lb)
    aux = aux + 1
plt.legend()
plt.xlabel("First component", fontsize=20)
plt.ylabel("Second component", fontsize=20)
plt.xticks(color='k', size=20)
plt.yticks(color='k', size=20)
plt.show(True)

Considerando a variável original quality: temos que o gráfico apresentou uma não separação dos dados e 7 classificações diferentes. 

Considerando a variável criada qualidade: temos que em duas dimensões, a separação não é clara, porém uma hipóteses é que seja mais fácil de se determinar a saída com um menor número de classes e distanciando mais as características.

Além disso, podemos identificar os atributos que mais explicam a variância nos dados.

In [None]:
pca = PCA()
pca_result = pca.fit_transform(X)
var_exp = pca.explained_variance_ratio_

importances = var_exp
attributes = df.columns[1:len(df.iloc[:,0:df.shape[0]-1].columns)] # considerando quality
indices = np.argsort(importances)
attributes_rank = []
for i in indices:
    attributes_rank.append(attributes[i])
plt.title('Feature Importances')
plt.tight_layout()
plt.barh(range(len(indices)), importances[indices], color='b', align='center')
plt.yticks(range(len(indices)), attributes_rank, fontsize=25)
plt.xlabel('Relative Importance',fontsize=25)
plt.xticks(color='k', size=20)
plt.yticks(color='k', size=20)
plt.xlim([0.0, 0.25])

plt.show()

Considerando a variável quality original: tem-se a seguinte análise: as classes maiores (classificando o vinho como bom) estão mais relacionadas as variáveis: volatile acidity, citric acid e residual sugar.


Considerando a variável criada, qualidade: a classe cujo o vinho é classificado como bom (maior ou igual a 6), está intimamente relacionado mais com os atributos volatile acidity, citric acid e residual sugar. Logo, podemos considerar apenas os atributos mais importantes na classificação. No entanto, vamos inicialmente manter esses atributos em nossos dados.

Podemos verificar como a variância muda de acordo com o número de componentes.

In [None]:
pca = PCA().fit(X)
plt.figure(figsize=(8,5))
ncomp = np.arange(1, np.shape(X)[1]+1)
plt.plot(ncomp, np.cumsum(pca.explained_variance_ratio_), 'ro-')
plt.xlabel('number of components', fontsize=20)
plt.ylabel('cumulative explained variance', fontsize=20);
plt.xticks(color='k', size=20)
plt.yticks(color='k', size=20)
plt.grid(True)
plt.show(True)

Notamos que com 7 componentes explicamos cerca de 90% dos dados. No entanto, como o número de atributos não é elevado, vamos considerar os dados sem seleção dos atributos principais, ou seja, os dados sem usar a projeção. (Mesma análise considerando a variável quality original e a variável qualidade criada)

Podemos também analisar o nível de correlação nos dados.

In [None]:
corr = df.corr()
#Plot Correlation Matrix using Matplotlib
plt.figure(figsize=(10, 8))
plt.imshow(corr, cmap='Blues', interpolation='none', aspect='auto')
plt.colorbar()
plt.xticks(range(len(corr)), corr.columns, rotation='vertical')
plt.yticks(range(len(corr)), corr.columns);
plt.suptitle('Correlation between variables', fontsize=15, fontweight='bold')
plt.grid(False)
plt.show()

Verificamos que as variáveis mais correlacionadas são:

volatile acidity x citric acid

density x fixed acidity

(Mesma análise considerando a variável quality original e a variável qualidade criada)

3- Transformação para valores numéricos (one-hot-encoding) se precisar.

Os dados aqui são todos numéricos, não fazendo necessária esta etapa de one-hot-enconding.

In [None]:
# para treinar o classificador, precisamos dividir o dataset em conjunto de teste e de treino

p = 0.3 # fracao de elementos no conjunto de teste
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = p, random_state = 42) # dividindo o dataset em teste e treino, de acordo com p que é a porcentagem de dados que quero ter em cada dataset
# no caso, definimos 0.3 para teste o 0.7 para treino
# A partir desse conjunto de dados, podemos realizar a classificação.

Foi separado 30% para dados de teste e 70% para dados de treino.

4 - kvizinhos (encontre o melhor k usando validação cruzada)

O primeiro método usado aqui para classificação será o método dos vizinhos mais póximos, ou knn. O knn é baseado no conceito de distância entre atributos. Para realizar a classificação, vamos usar a biblioteca scikit-learn.

In [None]:
nkf = 10 # número de folds
vk = [] # armazena os valores de k, criação de lista nula
vscore = [] # armazena a média do test score, criação de lista nula
for k in range(1, 20):
    model = KNeighborsClassifier(n_neighbors=k, metric = 'euclidean') # modelo knn considerando a distancia euclidiana com o argumento metric = 'euclidian'
    cv = cross_validate(model, x_train, y_train, cv=nkf) # realiza a validação cruzada
    print('k:', k, 'accurace:', cv['test_score'].mean()) # mostra a k-ésima acurácia do k-ésimo modelo
    vscore.append(cv['test_score'].mean()) # armazena o resultado numa lista
    vk.append(k) # armazenando o valor de k vizinhos na lista e populando a lista que antes era uma lista nula

plt.plot(vk, vscore, '-bo') # função de se construir um ambiente para plotar o gráfico
plt.xlabel('k', fontsize = 15) # definindo o eixo x
plt.ylabel('Accuracy', fontsize = 15) # definindo o eixo y
plt.show(True) # plotando
best_k = np.argmax(vscore)+1 # mostrando o melhor k com o argumento argmax dentro da lista criada
print('Melhor k:', best_k) # mostrando o resultado

Modelo considerando a variável original quality: O melhor k foi k=1 com uma acurácia de 0.6239480807086614, arrendondando para uma casa decimal, temos acurácia igual a 0.6 

Modelo considerando a variável criada qualidade: o melhor k foi 8 com uma acurácia de 0.7401973684210527 ou 0.7 (arredondando).

5 - Árvore de decisão

In [None]:
# criterio de gini
model = tree.DecisionTreeClassifier(criterion = 'gini', random_state = 101) # Cria o modelo usando o criterio Gini
model.fit(x_train,y_train) # Ajusta o modelo usando os dados de treinamento
y_pred = model.predict(x_test) # realizar a predição
score = accuracy_score(y_pred, y_test) # calcula a acuracia
print('Accuracy:', score) # mostrando a acurácia do modelo

Modelo considerando a variável quality: A acurácia do modelo de árvore de decisão considerando o criterio de gini, resultou numa acurácia de 0.58125, arredondando, temos uma acurácia de 0.6 (arredondando). Ainda, neste modelo, houve uma arvore muito grande e confusa por haver mais possibilidades de classificação, tendo uma análise gráfica mais complexa.

Modelo considerando a variável qualidade: usando o critério de gini temos a acurácia de 0.6642156862745098 ou 0.7 (arredondando). A árvore ficou mais simples.

In [None]:
model = model.fit(x_train,y_train) # modelo de arvore de decisao
plt.figure(figsize=(15,10)) # plotando a figura
tree.plot_tree(model, filled = True) # estrutura da figura
plt.show(True)

In [None]:
# usando a medida de entropia
model = tree.DecisionTreeClassifier(criterion = 'entropy',random_state = 101)
model.fit(x_train,y_train)
y_pred = model.predict(x_test) 
score = accuracy_score(y_pred, y_test)
print('Accuracy:', score)

Modelo considerando a variável quality: a acurácia do modelo de árvore de decisão considerando o criterio de entropia, resultou numa acurácia de 0.578125, arredondando, temos uma acurácia de 0.6 (arredondando). Ainda, neste modelo, houve uma arvore muito grande e confusa por haver mais possibilidades de classificação, tendo uma análise gráfica mais complexa.

Modelo considerando a variável qualidade: usando o critério de entropia temos a acurácia de 0.6421568627450981 ou 0.6 (arredondando). Aqui se obteve uma árvore mais simples.

In [None]:
model = model.fit(x_train,y_train) # modelo de arvore de decisao
plt.figure(figsize=(15,10)) # plotando a figura
tree.plot_tree(model, filled = True) # estrutura da figura
plt.show(True)

In [None]:
# limitando o tamanho da arvore
model = tree.DecisionTreeClassifier(criterion = 'gini', max_depth = 2, random_state = 101) # cria o modelo com número máximo de níveis max_depth
model.fit(x_train,y_train) # ajusta aos dados de treinamento
y_pred = model.predict(x_test) # faz a predição usando os dados de teste
score = accuracy_score(y_pred, y_test) # calcula a acurácia
print('Accuracy:', score) # mostra o resultado

In [None]:
# limitando o tamanho da arvore
model = tree.DecisionTreeClassifier(criterion = 'entropy', max_depth = 2, random_state = 101) # cria o modelo com número máximo de níveis max_depth
model.fit(x_train,y_train) # ajusta aos dados de treinamento
y_pred = model.predict(x_test) # faz a predição usando os dados de teste
score = accuracy_score(y_pred, y_test) # calcula a acurácia
print('Accuracy:', score) # mostra o resultado

Modelo considerndo a variável original quality: O melhor modelo é da árvore de decisão usando o critério de gini, se considerarmos todas as casas decimais, caso contrário os dois modelos são bons. Limitando os dados, temos um decréscimo na acurácia considerando tanto o modelo de gini quanto de entropia, ambos cairam para uma acurácia de 0.53125, ou 0.5. Utilizando a árvore de decisão completa, temos que a árvore com o critério de entropia apresenta um distribuição maior num ramo só da árvore, enquanto considerando o criterio de gini, a distribuição dos ramos são praticamente homogeneas. 

Modelo considerando a variável criada qualidade: considerando o critério de gini temos 0.678921568627451 ou 0.7 (arredondando) e considerando a entropia temos 0.6715686274509803 ou 0.7 (arredondando).

6 - Naive Bayes

No classificador Naive Bayes, podemos assumir que os atributos são normalmente distribuídos.

In [None]:
model = GaussianNB()
model.fit(x_train, y_train)

y_pred = model.predict(x_test)
print('Accuracy: ', model.score(x_test, y_test))

Modelo considerando a variável original quality: A acurácia do modelo de naive bayes considerando os dados com uma distribuição de Normal, resultou numa acurácia de 0.5375, arredondando, temos uma acurácia de 0.5.

Modelo considerando a variável criada qualidade: a acurácia foi de 0.75 ou 0.8.

Outra maneira de efetuarmos a classificação é assumirmos que os atributos possuem distribuição diferente da normal. Uma possibilidade é assumirmos que os dados possuem distribuição de Bernoulli.

In [None]:
# Usamos a função BernoulliNB para realizar a classificação usando a distribuição de Bernoulli
model = BernoulliNB() # modelo considerando os dados com distribuição de bernoulli
model.fit(x_train, y_train) # ajuste dos dados no modelo

y_pred = model.predict(x_test) # calculo da predicao
print('Accuracy: ', model.score(x_test, y_test)) # mostrando a acurácia do modelo

Modelo considerando a variável original quality: A acurácia do modelo de naive bayes considerando os dados com uma distribuição de Bernoulli, resultou numa acurácia de 0.5645833333333333, arredondando, temos uma acurácia de 0.6. Este resultado é melhor comparado com o outro modelo de naive bayes usando distribuição normal.

Modelo considerando a variável criada qualidade: resultou numa acurácia igual a 0.7328431372549019 ou 0.7 (arredondando).

7 - SVM (encontre o melhor C usando validação cruzada)

In [None]:
from sklearn.svm import SVC
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import KFold
from sklearn.metrics import accuracy_score
from sklearn.metrics import roc_auc_score

In [None]:
vk = [] # armazena os valores de k, criação de lista nula
vscore = [] # armazena a média do test score, criação de lista nula
for c in range(1, 20):
    cv = StratifiedKFold(n_splits=10, shuffle=True, random_state=1)
    model = SVC(C = c, gamma = 'auto')
    model.fit(x_train,y_train)
    y_pred = model.predict(x_test) 
    score = accuracy_score(y_pred, y_test)
    print('C:', c, 'accurace:', score) # mostra a c-ésima acurácia do c-ésimo modelo
    vscore.append(score) # armazena o resultado numa lista
    vk.append(c) # armazenando o valor de k vizinhos na lista e populando a lista que antes era uma lista nula

plt.plot(vk, vscore, '-bo') # função de se construir um ambiente para plotar o gráfico
plt.xlabel('c', fontsize = 15) # definindo o eixo x
plt.ylabel('Accuracy', fontsize = 15) # definindo o eixo y
plt.show(True) # plotando
best_c = np.argmax(vscore)+1 # mostrando o melhor k com o argumento argmax dentro da lista criada
print('Melhor c:', best_c) # mostrando o resultado

Modelo considerando a variável original quality: O melhor C foi de 10, C: 10 accurace: 0.625, arredondando a acurácia, temos 0.6.

Modelo considerando a variável criada qualidade: O melhor C foi C=1 com 0.7622549019607843 ou 0.8 de acurácia (arredondando).

8 - Random Forest (encontre o melhor número de estimadores usando validação cruzada)

O método florestas aleatórias considera amostragem de observações e atributos. Vamos realizar a classificação.

In [None]:
model = RandomForestClassifier(n_estimators=100, bootstrap=True, criterion='gini',
            max_features='auto', min_impurity_decrease=0.0, min_samples_leaf=1, 
            min_samples_split=2, min_weight_fraction_leaf=0.0, n_jobs=1,
            oob_score=False, verbose=0, warm_start=False) # modelo de random forest

model.fit(x_train,y_train) # ajuste do modelo com as variáveis utilizadas

y_pred = model.predict(x_test) # Predict the response for test dataset
score = accuracy_score(y_pred, y_test) # acurácia do modelo
print('Accuracy:', score) # mostra a o resultado da acurácia do modelo

Modelo considerando a variável original quality: A acurácia para este modelo foi de 0.6729166666666667, arredondando temos a acurácia equivalente a 0.7. Um dos melhores resultados já vistos até então.

Modelo considerando a variável criada qualidade: Resultou numa acurácia de 0.7647058823529411 ou 0.8 (arredondando).

Podemos analisar como o número de árvores influencia no resultado.

In [None]:
vscore = []
vn = []
for n in range(1,100):
    model = RandomForestClassifier(n_estimators=n)
    model.fit(x_train,y_train)
    y_pred = model.predict(x_test) 
    score = accuracy_score(y_pred, y_test)
    print('Number of Estimators:', n, 'Accuracy:', score)
    vscore.append(score)
    vn.append(n)
best_n = vn[np.argmax(vscore)]
print('Melhor n:', best_n, ' com acurácia:', vscore[np.argmax(vscore)] )
plt.figure(figsize=(10,5))
plt.plot(vn, vscore, '-bo')
plt.xlabel('Number of Estimators', fontsize = 15)
plt.ylabel('Accuracy', fontsize = 15)
plt.show()


Modelo considerando a variável original quality: O melhor número de estimadores para o modelo de random forest foi de 56 estimadores com uma acurácia cravada em 0.7.

Modelo considerando a variável criada qualidade: quantidade de 42 estimadores com 0.7818627450980392 ou 0.8 de acurácia (arredondando).

9 - Para o algoritmo random forest, mostre a importância de cada atributo.

In [None]:
# usando o modelo considerado como o melhor, pela avaliação anterior, temos
model = RandomForestClassifier(n_estimators=42, bootstrap=True, criterion='gini',
            max_features='auto', min_impurity_decrease=0.0, min_samples_leaf=1, 
            min_samples_split=2, min_weight_fraction_leaf=0.0, n_jobs=1,
            oob_score=False, verbose=0, warm_start=False) # modelo de random forest

model.fit(x_train,y_train) # ajuste do modelo com as variáveis utilizadas

y_pred = model.predict(x_test) # Predict the response for test dataset
score = accuracy_score(y_pred, y_test) # acurácia do modelo
print('Accuracy:', score) # mostra a o resultado da acurácia do modelo

importances = model.feature_importances_ # features mais importantes
indices = np.argsort(importances) # os indices de onde estao 
lmeas_order = [] # ordenacao por relevancia das variaveis
for i in indices: # plotagem
    lmeas_order.append(features_names[i])
plt.figure(figsize=(12,8))
plt.barh(range(len(indices)), importances[indices], color='b', align='center')
plt.yticks(range(len(indices)), lmeas_order, fontsize=15)
plt.xlabel('Relative Importance',fontsize=15)
plt.xticks(color='k', size=20)
plt.yticks(color='k', size=20)
plt.show()

A variável que tem a maior importância é alcohol, seguido de sulphates e volatile acidity.

Pesquisando sobre 'como avaliar se um vinho é bom', há um artigo do clube do vinho falando de 3 fatores:álcool, acidez e taninos. (link: https://www.clubedosvinhos.com.br/qualidade-de-um-vinho/)

A primeira variável que se mostrou importante foi realmente o teor alcóolico.
A segunda é o sulfato Os taninos estão ligados a adistringencia, quanto maior quantidade de taninos, os predadores tendem a nao comer a fruta, deixando a fruta intacta e proporcionando um melhor vinho.

E a terceira o volatile acidity que tem a ver com a acidez do vinho.

Nota: tem um tabu com relação aos taninos em relação ao gosto.Caso uma pessoa nao goste do gosto do vinho é adicionado mais taninos artificiais, sem mudar a composição do vinho.

10 - Usando regressão linear, tente predizer a porcentagem de álcool.

O ajuste dos coeficientes da regressão linear é feito usando apenas o conjunto de treinamento.

In [None]:
random.seed(42) # define a semente (importante para reproduzir os resultados)

dir_file = '/home/andressa/Desktop/' # criando um objeto do meu diretorio do dataset

os.chdir(dir_file) # setando aonde meu dataset está
df = pd.read_csv('winequality-red.csv') # importando os dados

print("Número de linhas e colunas no dataset:", df.shape) # funcao de printar
attributes = list(df.columns) # construindo um objeto tipo lista para armazenar os nomes das variaveis
df.head(10) # funcao head para mostrar uma amostra do dataset

In [None]:
alcool = df.alcohol # separando a variavel alcohol do dataset e colocando no final
df.drop(['alcohol'],axis = 1, inplace = True)
df['alcohol'] = alcool
df

In [None]:
# convertemos em formato numpy para facilitar a manipulacao dos dados
df = df.to_numpy() # dataframe do pandas para array numpy
nrow,ncol = df.shape # atribuindo aos objetos nrow e ncol o tamanho do conjunto de dados
y = df[:,-1] # separando a variavel target
X = df[:,0:ncol-1] # construindo o dataset de analise sem a variavel target

print('Dados originais:') # mostrando a média e desvio padrao dos atributos do conjunto de dados X ja transformados
print('Media: ', np.mean(X, axis = 0)) # média dos dados
print('Desvio Padrao:', np.std(X, axis = 0)) # desvio padrao dos dados

In [None]:
# normalização dos dados de forma a evitar problemas de escala nos atributos

scaler = StandardScaler().fit(X) # normalização dos dados
X = scaler.transform(X) # tranformação dos dados

print('Dados transformados:') # mostrando a média e desvio padrao dos atributos do conjunto de dados X ja transformados
print('Media: ', np.mean(X, axis = 0)) # media dos dados padronizados
print('Desvio Padrao:', np.std(X, axis = 0)) # desvio padrao dos dados padronizados

In [None]:
# Split the data into training and testing sets
p = 0.3 # fracao de elementos no conjunto de teste
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size = p, random_state = 42)

In [None]:
lm = LinearRegression() # modelo de regressão linear múltipla
lm.fit(x_train, y_train) # ajuste do modelo de regressao linear multipla

y_pred = lm.predict(x_test) # valores preditos

Notem que como temos várias variáveis, não é possível mostrar os resultados em mais de três dimensões. Nesse caso, uma maneira de visualizar a precisão na predição é graficar os valores reais versus as predições, como mostramos abaixo.

In [None]:
fig = plt.figure() # plotagem
l = plt.plot(y_pred, y_test, 'bo')
plt.setp(l, markersize=10)
plt.setp(l, markerfacecolor='C0')

plt.ylabel("y", fontsize=15) # ajustes dos eixos dos graficos
plt.xlabel("Prediction", fontsize=15)

# mostra os valores preditos e originais
xl = np.arange(min(y_test), 1.2*max(y_test),(max(y_test)-min(y_test))/10)
yl = xl
plt.plot(xl, yl, 'r--')
plt.show(True)

Quanto mais próximo da reta em vermelho, melhor será a predição, pois essa reta representa o caso em que  𝑦̂ =𝑦 .

Para quantificarmos o ajuste, calculamos o coeficiente R2.

In [None]:
from sklearn.metrics import r2_score
R2 = r2_score(y_test, y_pred)
print('R2:', R2)

O modelo de regressão linear apresentou um R2 de 0.706569863175307, arredondamos, temos 0.7 de R2.

In [None]:
# percentagem de alcool predita
pd.DataFrame(y_pred).describe()

A percentagem mínima é de 8 e a máxima de 13, atingindo parametros ideais de acordo com especialistas em vinho e indo de encontro com as análises descritivas da base de teste.

A mediana também está similar a base original de teste e de treino. Assim como a média.O desvio padrão é menor comparado com os dados de treino e de teste.

In [None]:
pd.DataFrame(y_test).describe()

In [None]:
pd.DataFrame(y_train).describe()

11 - Compare os métodos Lasso, Ridge Regression, calculando o erro quadrático médio em função dos seus parâmetros (alpha).

In [None]:
vR2 = []
valpha = []
for alpha in np.arange(0.01,2,0.1):
    lasso = Lasso(alpha = alpha, normalize = True)
    lasso.fit(x_train, y_train)             # Fit a ridge regression on the training data
    y_pred = lasso.predict(x_test)           # Use this model to predict the test data
    r2 = r2_score(y_test, y_pred)
    vR2.append(r2)
    valpha.append(alpha)
plt.plot(valpha, vR2, '-ro')
plt.xlabel("alpha", fontsize=15)
plt.ylabel("R2", fontsize=15)
plt.show(True)

In [None]:
vR2 = []
valpha = []
# variamos os valaores de alpha
for alpha in np.arange(0,10,0.5):
    ridge2 = Ridge(alpha = alpha, normalize = True)
    ridge2.fit(x_train, y_train)             # Fit a ridge regression on the training data
    y_pred = ridge2.predict(x_test)           # Use this model to predict the test data
    r2 = r2_score(y_test, y_pred)
    vR2.append(r2)
    valpha.append(alpha)
plt.plot(valpha, vR2, '-ro')
plt.xlabel("alpha", fontsize=15)
plt.ylabel("R2", fontsize=15)
plt.show(True)

Podemos ver que para o modelo de regressao linear multiplo, obtemos um R2 de 0.7 aproximadamente para para o lasso e ridge os maiores valores, quando alpha é igual a 0, equiparam-se ao valor obtido no modelo de regressao linear multipla. Em termos computacionais mais se vale usar o modelo de regressao linear multipla do que se gastar processamento com otimizacoes que nao vao dar resultados melhores para a analise

12 - Discussão dos resultados obtidos

Classificação

Modelo com variável original quality:
    
    KNN ============= k=1 ====== 0.6239480807086614 === 0.6
    Arvore gini ================ 0.58125 ============== 0.6
    Arvore entropia ============ 0.578125 ============= 0.6
    Naive Bayes normal ========== 0.5375 ============== 0.5
    Naive Bayes bernoulli ======= 0.5645833333333333 == 0.6
    SVM ============= C=10 ====== 0.625 =============== 0.6
    Random Forest === E=56 ====== 0.7 ================= 0.7

Modelo com variável criada qualidade (1 se maior ou igual a 6, 0 c.c.):
    
    KNN === k=8 ================ 0.7401973684210527 === 0.7
    Arvore gini ================ 0.6642156862745098 === 0.7
    Arvore entropia ============ 0.6421568627450981 === 0.6
    Naive Bayes normal ========= 0.75 ================= 0.8
    Naive Bayes bernoulli ====== 0.7328431372549019 === 0.7
    SVM ============= C=1 ======= 0.7622549019607843 == 0.8
    Random Forest === E=42 ====== 0.7818627450980392 == 0.8

* Modelo de classificação

Modelo considerando a variável original quality:
    
    Temos que o melhor modelo (com maior acurácia) foi o random forest, com 0.7.

Modelo considerando a variável criada qualidade:
    
    Todos os modelos deram melhor resultados comparado com o uso da variável original. 
    Sendo o melhor deles o Random Forest seguido do SVM e Naive Bayes com critério da Normal.
    
* Modelo de Regressão para prever o teor alcoolico
    
    O melhor modelo foi o linear múltiplo, comparando com Lasso e Ridge.

Em prol de todos estes resultadosvistos, podemos avaliar bem a classificação da qualidade de um vinho (bom ou ruim) considerando o modelo Random Forest, pois tem uma acurácia alta na hora de se prever uma nova nota ou novo vinho quanto a qualidade. E, para prever o teor de alcóol dele, podemos usar o modelo de regressão linear múltipla que tem uma explicação do modelo de 0.7 aproximadamente.