# Regressão Linear Multivariada - Trabalho

## Estudo de caso: Qualidade de Vinhos

Nesta trabalho, treinaremos um modelo de regressão linear usando descendência de gradiente estocástico no conjunto de dados da Qualidade do Vinho. O exemplo pressupõe que uma cópia CSV do conjunto de dados está no diretório de trabalho atual com o nome do arquivo *winequality-white.csv*.

O conjunto de dados de qualidade do vinho envolve a previsão da qualidade dos vinhos brancos em uma escala, com medidas químicas de cada vinho. É um problema de classificação multiclasse, mas também pode ser enquadrado como um problema de regressão. O número de observações para cada classe não é equilibrado. Existem 4.898 observações com 11 variáveis de entrada e 1 variável de saída. Os nomes das variáveis são os seguintes:

1. Fixed acidity.
2. Volatile acidity.
3. Citric acid.
4. Residual sugar.
5. Chlorides.
6. Free sulfur dioxide. 
7. Total sulfur dioxide. 
8. Density.
9. pH.
10. Sulphates.
11. Alcohol.
12. Quality (score between 0 and 10).

O desempenho de referencia de predição do valor médio é um RMSE de aproximadamente 0.148 pontos de qualidade.

Utilize o exemplo apresentado no tutorial e altere-o de forma a carregar os dados e analisar a acurácia de sua solução. 


In [79]:
### Importar o dataset

import pandas as pd
from sklearn.model_selection import train_test_split
import numpy

dataset = pd.read_csv('winequality-white.csv', sep=';')

### Normalizar dados

from sklearn import preprocessing

x = dataset.values #returns a numpy array
min_max_scaler = preprocessing.MinMaxScaler()
x_scaled = min_max_scaler.fit_transform(x)
dataset = pd.DataFrame(x_scaled)
print(dataset)

### Separar dados de treino e dados de teste

X = dataset.iloc[:, :11]
y = dataset.iloc[:, 11:]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

X_train = X_train.values
X_test = X_test.values
y_train = y_train.values
y_test = y_test.values


            0         1         2         3         4         5         6   \
0     0.307692  0.186275  0.216867  0.308282  0.106825  0.149826  0.373550   
1     0.240385  0.215686  0.204819  0.015337  0.118694  0.041812  0.285383   
2     0.413462  0.196078  0.240964  0.096626  0.121662  0.097561  0.204176   
3     0.326923  0.147059  0.192771  0.121166  0.145401  0.156794  0.410673   
4     0.326923  0.147059  0.192771  0.121166  0.145401  0.156794  0.410673   
5     0.413462  0.196078  0.240964  0.096626  0.121662  0.097561  0.204176   
6     0.230769  0.235294  0.096386  0.098160  0.106825  0.097561  0.294664   
7     0.307692  0.186275  0.216867  0.308282  0.106825  0.149826  0.373550   
8     0.240385  0.215686  0.204819  0.015337  0.118694  0.041812  0.285383   
9     0.413462  0.137255  0.259036  0.013804  0.103858  0.090592  0.278422   
10    0.413462  0.186275  0.246988  0.013037  0.071217  0.031359  0.125290   
11    0.461538  0.147059  0.240964  0.055215  0.077151  0.052265

In [96]:
### Definição das funções da regressão linear multivariada

def predict(row, coefficients):
  yhat = coefficients[0]
  for i in range(len(row)-1):
    yhat += coefficients[i + 1] * row[i]
  return yhat

def coefficients_sgd(train, l_rate, n_epoch):
    coef = [0.0 for i in range(len(train[0]))]
    print ('Coeficiente Inicial={0}' % (coef))
    for epoch in range(n_epoch):
        sum_error = 0
        for row in train:
            yhat = predict(row, coef)
            error = yhat - row[-1]
            sum_error += error**2
            coef[0] = coef[0] - l_rate * error
            for i in range(len(row)-1):
                coef[i + 1] = coef[i + 1] - l_rate * error * row[i] 
        print(('epoch=%d, lrate=%.3f, error=%.3f' % (epoch, l_rate, sum_error/n_epoch)))
    return coef

In [98]:
### Achar coeficientes pelo gradiente descendente
l_rate = 0.01
n_epoch = 150
coefficients = coefficients_sgd(X_train, l_rate, n_epoch)

Coeficiente Inicial={0}
epoch=0, lrate=0.010, error=0.852
epoch=1, lrate=0.010, error=0.624
epoch=2, lrate=0.010, error=0.536
epoch=3, lrate=0.010, error=0.488
epoch=4, lrate=0.010, error=0.457
epoch=5, lrate=0.010, error=0.436
epoch=6, lrate=0.010, error=0.419
epoch=7, lrate=0.010, error=0.405
epoch=8, lrate=0.010, error=0.393
epoch=9, lrate=0.010, error=0.382
epoch=10, lrate=0.010, error=0.372
epoch=11, lrate=0.010, error=0.363
epoch=12, lrate=0.010, error=0.355
epoch=13, lrate=0.010, error=0.347
epoch=14, lrate=0.010, error=0.340
epoch=15, lrate=0.010, error=0.333
epoch=16, lrate=0.010, error=0.326
epoch=17, lrate=0.010, error=0.320
epoch=18, lrate=0.010, error=0.313
epoch=19, lrate=0.010, error=0.307
epoch=20, lrate=0.010, error=0.302
epoch=21, lrate=0.010, error=0.296
epoch=22, lrate=0.010, error=0.291
epoch=23, lrate=0.010, error=0.285
epoch=24, lrate=0.010, error=0.280
epoch=25, lrate=0.010, error=0.275
epoch=26, lrate=0.010, error=0.270
epoch=27, lrate=0.010, error=0.266
epoch=

In [None]:
predictions = []
for row in X_test:
    predictions.append(predict(row, coefficients))

In [58]:
predictions

[0.39911672020461769,
 0.40384475138726539,
 0.41427230967358025,
 0.43035849946542248,
 0.43526887265487496,
 0.43920178212965544,
 0.43092171659199674,
 0.37646981803985319,
 0.41765576402305093,
 0.4463405076048782,
 0.44238055268075371,
 0.41341602905827346,
 0.38496584877119161,
 0.40370387216125464,
 0.43744326268425893,
 0.45084935144314869,
 0.36383913509624405,
 0.38326110890819853,
 0.38216977807331109,
 0.41833086225195165,
 0.41898184134012445,
 0.3388817302261804,
 0.42456442292086594,
 0.36285236584118391,
 0.4316425115586312,
 0.38654085273337724,
 0.38973469505766445,
 0.40589255080478376,
 0.40419598810053697,
 0.36654680451875393,
 0.4422318477325145,
 0.40199609881284265,
 0.38532223307125407,
 0.36038904863463722,
 0.40070074808618417,
 0.37638619898678682,
 0.42074243461907729,
 0.39986904871608003,
 0.39993972132866173,
 0.3864680363304232,
 0.45929996901336168,
 0.39557795453438704,
 0.41237497733831407,
 0.43629375624377037,
 0.39715984190380593,
 0.382798778026