# Implementando Regressão Múltipla do Zero

In [1]:
import numpy as np
import math
import time
from sklearn.linear_model import LinearRegression

Função para iterar sobre o gradiente descendente até que: $||\mathbf{w}||_2$ < $\epsilon$

In [2]:
def gradient_descent_runner_vectorized(starting_w, X,Y, learning_rate, epsilon):
    w = starting_w
    grad = np.array([np.inf,np.inf,np.inf,np.inf,np.inf,np.inf])
    i = 0
    while (np.linalg.norm(grad)>=epsilon):
        w,grad = step_gradient_vectorized(w, X, Y, learning_rate)
#          if i % 1000 == 0:
#             print("MSE na iteração {0} é de {1}".format(i,compute_mse_vectorized(w, X, Y)))
        i+= 1
    return w

Função para fazer a atualização dos parâmetros no Gradiente Descendente:<p>$w_j = -2\sum_{i=1}^N h_j(x^i)(y^i-h(x^i)W)$

In [3]:
def step_gradient_vectorized(w_current,H,Y,learningRate):
    res = Y - np.dot(H,w_current) #calculando resíduo
    gradient = np.multiply(res,H) 
    gradient = np.sum(gradient,axis=0)
    gradient = gradient[:,np.newaxis]
    new_w = w_current + 2 * learningRate * gradient
    return [new_w, gradient]

Função para calcular MSE (Mean Squared Error):<p>$MSE(\hat{w})=\frac{1}{N}(y-\hat{\mathbf{w}}^T\mathbf{x})^T(y-\hat{\mathbf{w}}^T\mathbf{x})$

In [4]:
def compute_mse_vectorized(W,X,Y):
    res = Y - np.dot(X,W)
    totalError = np.dot(res.T,res)
    return totalError / float(len(Y))

Os dados representam o CRA e as notas dos alunos de computação da UFCG, essas são referentes à disciplinas do primeiro período. O objetivo é por meio das notas no primeiro período conseguir explicar o CRA final dos alunos de computação.

In [5]:
points = np.genfromtxt("../data/sample_treino.csv", delimiter=",")
points = np.c_[np.ones(len(points)),points] #acrescentado coluna referente ao intercep w0
X = points[1:,:6] #selecionando atributos
Y = points[1:,6][:,np.newaxis] #selecionando variável de interesse
init_w = np.zeros((6,1))
learning_rate = 0.00001
epsilon = 0.001
print("Iniciando gradiente descendente com todos os w's = 0, error = {0}".format(compute_mse_vectorized(init_w, X,Y)))
print("Executando...")
tic = time.time()
w = gradient_descent_runner_vectorized(init_w, X,Y, learning_rate, epsilon)
toc = time.time()
print("Gradiente descendente convergiu com:")
for i in range(len(w)):
    print "w{0} = {1}".format(i,w[i])
print "error = {0}".format(compute_mse_vectorized(w,X,Y))
print("Versão vetorizada rodou em: " + str(1000*(toc-tic)) + " ms")


Iniciando gradiente descendente com todos os w's = 0, error = [[54.47995386]]
Executando...
Gradiente descendente convergiu com:
w0 = [1.73608351]
w1 = [0.1030706]
w2 = [0.0465112]
w3 = [0.16409463]
w4 = [0.38126109]
w5 = [0.02029819]
error = [[0.41133761]]
Versão vetorizada rodou em: 78636.5709305 ms


Comparando os coeficientes estimados com o valor dos coeficientes da `regressão linear do scikit learn`.

In [6]:
points = np.genfromtxt("../data/sample_treino.csv", delimiter=",")
X = points[1:,:5]
Y = points[1:,5]
regr = LinearRegression()
regr.fit(X, Y)
print "regressão linear scikit learn \t\t algoritmo implementado" 
print "\tw0 = {0} \t\t\tw0 = {1}".format(regr.intercept_, w[0][0])
for i in range(0,len(w)-1):
    print "\tw{0} = {1}\t\t\tw{2} = {3}".format(i+1, regr.coef_[i], i+1, w[i+1][0])

regressão linear scikit learn 		 algoritmo implementado
	w0 = 1.73771151379 			w0 = 1.73608351445
	w1 = 0.103041432463			w1 = 0.103070603866
	w2 = 0.0464367008507			w2 = 0.0465112036584
	w3 = 0.164098344192			w3 = 0.164094634867
	w4 = 0.381178426656			w4 = 0.381261094863
	w5 = 0.0202781576248			w5 = 0.0202981916658


Para os valores learning_rate = 0.00001 e epsilon = 0.001 os coeficientes das duas regressões ficam bem próximos.