# Regressão Linear Multivariada - Trabalho

## Estudo de caso: Qualidade de Vinhos

Nesta trabalho, treinaremos um modelo de regressão linear usando descendência de gradiente estocástico no conjunto de dados da Qualidade do Vinho. O exemplo pressupõe que uma cópia CSV do conjunto de dados está no diretório de trabalho atual com o nome do arquivo *winequality-white.csv*.

O conjunto de dados de qualidade do vinho envolve a previsão da qualidade dos vinhos brancos em uma escala, com medidas químicas de cada vinho. É um problema de classificação multiclasse, mas também pode ser enquadrado como um problema de regressão. O número de observações para cada classe não é equilibrado. Existem 4.898 observações com 11 variáveis de entrada e 1 variável de saída. Os nomes das variáveis são os seguintes:

1. Fixed acidity.
2. Volatile acidity.
3. Citric acid.
4. Residual sugar.
5. Chlorides.
6. Free sulfur dioxide. 
7. Total sulfur dioxide. 
8. Density.
9. pH.
10. Sulphates.
11. Alcohol.
12. Quality (score between 0 and 10).

O desempenho de referencia de predição do valor médio é um RMSE de aproximadamente 0.148 pontos de qualidade.

Utilize o exemplo apresentado no tutorial e altere-o de forma a carregar os dados e analisar a acurácia de sua solução. 


In [57]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from csv import reader
from random import randrange
from math import sqrt
from sklearn.metrics import accuracy_score, classification_report

In [58]:
def predict(row, coefficients):
    yhat = coefficients[0]
    for i in range(len(row)-1):
        yhat += coefficients[i + 1] * row[i]
    return yhat

def coefficients_sgd(train, l_rate, n_epoch):
    coef = [0.0 for i in range(len(train[0]))]
    for epoch in range(n_epoch):
        sum_error = 0
        for row in train:
            yhat = predict(row, coef)
            error = yhat - row[-1]
            sum_error += error**2
            coef[0] = coef[0] - l_rate * error
            for i in range(len(row)-1):
                coef[i + 1] = coef[i + 1] - l_rate * error * row[i] 
    return coef

In [59]:
df = pd.read_csv('winequality-white.csv',names = ["fixed acidity","volatile acidity","citric acid","residual sugar","chlorides","free sulfur dioxide","total sulfur dioxide","density","pH","sulphates","alcohol","quality"])
df.head()
#Por algum motivo que não sei qual é, em casa está dando erro de vez em quando na hora da leitura dos dados

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,"fixed acidity;""volatile acidity"";""citric acid""...",,,,,,,,,,,
1,7;0.27;0.36;20.7;0.045;45;170;1.001;3;0.45;8.8;6,,,,,,,,,,,
2,6.3;0.3;0.34;1.6;0.049;14;132;0.994;3.3;0.49;9...,,,,,,,,,,,
3,8.1;0.28;0.4;6.9;0.05;30;97;0.9951;3.26;0.44;1...,,,,,,,,,,,
4,7.2;0.23;0.32;8.5;0.058;47;186;0.9956;3.19;0.4...,,,,,,,,,,,


In [60]:
for f in ["fixed acidity","volatile acidity","citric acid","residual sugar","chlorides","free sulfur dioxide","total sulfur dioxide","density","pH","sulphates","alcohol","quality"]:
    df[f] = df[f].astype('category')
    df[f] = df[f].cat.codes

In [61]:
features = ["fixed acidity","volatile acidity","citric acid","residual sugar","chlorides","free sulfur dioxide","total sulfur dioxide","density","pH","sulphates","alcohol","quality"]
X = df.get(features)
X

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,3961,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1
1,3485,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1
2,952,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1
3,3591,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1
4,2584,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1
5,2584,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1
6,3591,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1
7,750,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1
8,3485,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1
9,952,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1,-1


In [62]:
Y = df['quality'].values

Y

array([-1, -1, -1, ..., -1, -1, -1], dtype=int8)

In [63]:
X = MinMaxScaler().fit_transform(X)
ds = np.column_stack([X, Y])
print(ds)

[[ 1.          0.          0.         ...,  0.          0.         -1.        ]
 [ 0.87982833  0.          0.         ...,  0.          0.         -1.        ]
 [ 0.24034335  0.          0.         ...,  0.          0.         -1.        ]
 ..., 
 [ 0.31557687  0.          0.         ...,  0.          0.         -1.        ]
 [ 0.03635446  0.          0.         ...,  0.          0.         -1.        ]
 [ 0.57233022  0.          0.         ...,  0.          0.         -1.        ]]


In [64]:
train, test = train_test_split(ds, test_size = 0.3)

In [65]:
l_rate = 0.0001
n_epoch = 100

coefs = coefficients_sgd(train, l_rate, n_epoch)
print(coefs)

[-0.97411004182526784, -0.048095405333204354, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]


In [66]:
predictions = list()
for row in test:
    predicted = predict(row, coefs)
    predictions.append(predicted)

In [67]:
y_test = list()
for i in range(1470):
    y_test.append(test[i][11])

In [68]:
predicted = predictions

In [69]:
soma = 0
for i in range(len(y_test)):
    erro = predicted[i] - y_test[i]
    soma += (erro**2)
    erroMedio = soma/float(len(y_test))
acc = sqrt(erroMedio)   

In [70]:
acc

0.9990290936297678

In [71]:
#erro deixou o resultado de acuracia absurdamente certeiro, oq quer dizer que está inválido, caso le-se corretamente os dados