# Regressão Mútipla com NumPy (Vetorizada)

In [236]:
from sklearn import linear_model
import numpy as np
import math
import time

$RSS(\mathbf{w})=(y-{\mathbf{H}\mathbf{w}})^T(y-{\mathbf{H}\mathbf{w}})$

In [237]:
def compute_rss_vectorized(w, X, Y):
    res = Y - np.dot(X,w)
    totalError = np.dot(res.T,res)
    return totalError

In [238]:
def step_gradient_vectorized(w_current, X, Y, learningRate):
    res =  Y - np.dot(X, w_current)
    gradient = np.dot(-2*(X.T), res)
    new_w = w_current - learningRate * gradient
    return [new_w, gradient]

In [239]:
def gradient_descent_runner_vectorized(starting_w, X, Y, learning_rate, epsilon):
    w = starting_w
    gradient = np.array([np.inf,np.inf, np.inf, np.inf, np.inf, np.inf])
    i = 0
    while (np.linalg.norm(gradient)>=epsilon):
        w, gradient = step_gradient_vectorized(w, X, Y, learning_rate)
        if i % 1000 == 0:
            print("MSE na iteração {0} é de {1}".format(i,compute_mse_vectorized(w, X, Y)))
        i+= 1
    return w

In [242]:
points = np.genfromtxt("sample_treino.csv", delimiter=",")
points = np.c_[np.ones(len(points)),points]
X = points[:,[0, 1, 2, 3, 4, 5]]
Y = points[:,6][:,np.newaxis]
init_w = np.zeros((6,1))

learning_rate = 0.00002
epsilon = 0.05

print("Starting gradient descent at w0 = {0}, w1 = {1}, w2 = {2}, w3 = {3}, w4 = {4}, w5 = {5}, error = {6}"
      .format(init_w[0], init_w[1], init_w[2], init_w[3], init_w[4], init_w[5], compute_rss_vectorized(init_w, X,Y)))
print("Running...")

tic = time.time()
w = gradient_descent_runner_vectorized(init_w, X, Y, learning_rate, epsilon)
toc = time.time()
print("Gradiente descendente convergiu com w0 = {0}, w1 = {1}, w2 = {2}, w3 = {3}, w4 = {4}, w5 = {5}, error = {6}".
      format(w[0], w[1], w[2], w[3], w[4], w[5], compute_mse_vectorized(w,X,Y)))
print("Versão vetorizada rodou em: " + str(1000*(toc-tic)) + " ms")


Starting gradient descent at w0 = [ 0.], w1 = [ 0.], w2 = [ 0.], w3 = [ 0.], w4 = [ 0.], w5 = [ 0.], error = [[ 4794.2359393]]
Running...
MSE na iteração 0 é de [[ 15.39415211]]
MSE na iteração 1000 é de [[ 0.43036269]]
MSE na iteração 2000 é de [[ 0.42891282]]
MSE na iteração 3000 é de [[ 0.42766679]]
MSE na iteração 4000 é de [[ 0.42650933]]
MSE na iteração 5000 é de [[ 0.42543391]]
MSE na iteração 6000 é de [[ 0.42443472]]
MSE na iteração 7000 é de [[ 0.42350635]]
MSE na iteração 8000 é de [[ 0.42264379]]
MSE na iteração 9000 é de [[ 0.42184238]]
MSE na iteração 10000 é de [[ 0.42109776]]
MSE na iteração 11000 é de [[ 0.42040593]]
MSE na iteração 12000 é de [[ 0.41976314]]
MSE na iteração 13000 é de [[ 0.41916591]]
MSE na iteração 14000 é de [[ 0.41861102]]
MSE na iteração 15000 é de [[ 0.41809545]]
MSE na iteração 16000 é de [[ 0.41761644]]
MSE na iteração 17000 é de [[ 0.41717137]]
MSE na iteração 18000 é de [[ 0.41675786]]
MSE na iteração 19000 é de [[ 0.41637365]]
MSE na iteraçã

In [241]:
ols = linear_model.LinearRegression()
model = ols.fit(X, Y)
print (model.coef_)

[[ 0.          0.10304143  0.0464367   0.16409834  0.38117843  0.02027816]]
