In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.utils import shuffle
from sklearn.linear_model import LinearRegression
from __future__ import print_function, division

In [2]:
def predict(row, coefficients):
    return coefficients[0] + sum(x*y for x,y in zip(coefficients[1:], row))

def coef_SGD(X, y, epochs, alpha):
    
    W = np.zeros(shape=(X.shape[1]+1,))
    for epoch in range(epochs):
        for features, label in zip(X, y):
            # calculando predicoes
            preds = predict(features, W)
            # agora com as predicoes, determinamos o erro
            error = preds - label

            # atualizando pesos
            W[0] += -alpha*error
            for i in range(len(features)):
                W[i+1] += -alpha*error*features[i]
                
    return W

def computeSGD(W, test):
    return [predict(row, W) for row in test]

def score(predicted, actual):
    u = sum([(x-y)**2 for x, y in zip(actual, predicted)])
    v = sum([(actual[i] - actual.mean())**2 for i in range(len(actual))])
    return 1 - u/v


In [3]:
matrix = np.loadtxt("bike_sharing.csv", skiprows=1, delimiter=',')

X = matrix[:,:14]

X_train = X[:int(X.shape[0]*0.6),:]
y_train = matrix[:int(X.shape[0]*0.6),14]

X_test = X[int(X.shape[0]*0.6):,:]
y_test = matrix[int(X.shape[0]*0.6):,14]

In [4]:
epochs, alpha = 1, 0.000001
W = coef_SGD(X_train, y_train, epochs, alpha)
score1 = score(computeSGD(W, X_test), y_test)

In [5]:
clf = LinearRegression()
clf.fit(X_train, y_train)
score2 = clf.score(X_test, y_test)

## Questões

### Como você escolheu os parâmetros "número de iterações" e "taxa de aprendizado"? 

A escolha foi feita manualmente, testando, treinando, observando o resultado e escolhendo outros parâmetros novamente.

### Analise os resultados obtidos. O que o modelo diz sobre a importância de cada atributo?

O vetor de pesos nos diz quais atributos possui mais ou menos importância. Assim, as posições referentes aos maiores valores indicam os atributos mais importantes do nosso dataset.

### Compare com o resultado obtido pelo metodo dos minimos quadrados (do scikit-learn)

In [6]:
print("Score da Regressão Linear com SGD:", score1)
print("Score da Regressão Linear do Scikit-Learn:", score2)

Score da Regressão Linear com SGD: 0.998183084484
Score da Regressão Linear do Scikit-Learn: 0.998188952814


Como podemos notar, o valor obtido pela implementação do zero é próximo do valor estimado pela implementação da biblioteca, para os parâmetros passados.