#### Universidade Federal de Campina Grande
#### Departamento de Sistemas e Computação
#### Lucas Nascimento Cabral

#### Linear Regression

Com o intuito de desenvolver o que foi requisitado pelo professor, foi utilizado a versão vetorizada implementada no notebook disponibilizado pelo professor para a regressão simples. O código extraído segue logo abaixo:

In [19]:
import numpy as np
import math
import time

def compute_mse_vectorized(w,X,Y):
    res = Y - np.dot(X,w)
    totalError = np.dot(res.T,res)
    return totalError / float(len(Y))

def step_gradient_vectorized(w_current,X,Y,learningRate):
    res = Y - np.dot(X,w_current)
    b_gradient = np.sum(res)
    X = X[:,1][:,np.newaxis]
    m_gradient = np.sum(np.multiply(res,X))
    new_w = np.array([(w_current[0] + (2 * learningRate * b_gradient)),
             (w_current[1] + (2 * learningRate * m_gradient))])
    return [new_w,b_gradient,m_gradient]

def gradient_descent_runner_vectorized(starting_w, X,Y, learning_rate, epsilon):
    w = starting_w
    grad = np.array([np.inf,np.inf])
    i = 0
    while (np.linalg.norm(grad)>=epsilon):
        w,b_gradient,m_gradient = step_gradient_vectorized(w, X, Y, learning_rate)
        grad = np.array([b_gradient,m_gradient])
        #print(np.linalg.norm(grad))
        if i % 1000 == 0:
            print("MSE na iteração {0} é de {1}".format(i,compute_mse_vectorized(w, X, Y)))
        i+= 1
    return w

points = np.genfromtxt("income.csv", delimiter=",")
points = np.c_[np.ones(len(points)),points]
X = points[:,[0,1]]
Y = points[:,2][:,np.newaxis]
init_w = np.zeros((2,1))
learning_rate = 0.0001
#num_iterations = 10000
epsilon = 0.5
print("Starting gradient descent at w0 = {0}, w1 = {1}, error = {2}".format(init_w[0], init_w[1], compute_mse_vectorized(init_w, X,Y)))
print("Running...")
tic = time.time()
w = gradient_descent_runner_vectorized(init_w, X,Y, learning_rate, epsilon)
toc = time.time()
print("Gradiente descendente convergiu com w0 = {0}, w1 = {1}, error = {2}".format(w[0], w[1], compute_mse_vectorized(w,X,Y)))
print("Versão vetorizada rodou em: " + str(1000*(toc-tic)) + " ms")

Starting gradient descent at w0 = [0.], w1 = [0.], error = [[2946.63449705]]
Running...
MSE na iteração 0 é de [[1192.54554729]]
MSE na iteração 1000 é de [[72.17883367]]
MSE na iteração 2000 é de [[53.76174367]]
MSE na iteração 3000 é de [[43.35384055]]
MSE na iteração 4000 é de [[37.4721053]]
MSE na iteração 5000 é de [[34.14820718]]
MSE na iteração 6000 é de [[32.26979916]]
MSE na iteração 7000 é de [[31.20826943]]
MSE na iteração 8000 é de [[30.60837559]]
MSE na iteração 9000 é de [[30.26936238]]
MSE na iteração 10000 é de [[30.07777855]]
MSE na iteração 11000 é de [[29.9695103]]
MSE na iteração 12000 é de [[29.90832554]]
MSE na iteração 13000 é de [[29.87374868]]
MSE na iteração 14000 é de [[29.85420853]]
MSE na iteração 15000 é de [[29.84316597]]
MSE na iteração 16000 é de [[29.83692557]]
Gradiente descendente convergiu com w0 = [-39.09650898], w1 = [5.57866311], error = [[29.83465362]]
Versão vetorizada rodou em: 389.94908332824707 ms


#### Rode o algoritmo [nesses dados](https://canvas.instructure.com/courses/1389733/files/68372968), onde as linhas representam as notas de alunos de computação de alunos da UFCG em algumas disciplinas do primeiro período. A última coluna é a variável alvo representando o CRA final depois de concluir o curso. As outras colunas são algumas disciplinas do primeiro período. O pressuposto aqui é que as notas em disciplinas no primeiro período ajudam a explicar o CRA final dos alunos de computação.

Foram necessárias as seguintes modificações no algoritmo para aceitarmos a quantidade de atributos dos dados:

In [20]:
def step_gradient_vectorized(w_current,X,Y,learningRate):
    res = Y - np.dot(X,w_current)
    gradient = np.multiply(res,X)
    gradient = np.sum(gradient,axis=0)
    gradient = gradient[:,np.newaxis]
    new_w = w_current + 2 * learningRate * gradient
    return [new_w,gradient]

In [21]:
def gradient_descent_runner_vectorized(starting_w, X,Y, learning_rate, epsilon):
    w = starting_w
    grad = np.array([np.inf])
    i = 0
    while (np.linalg.norm(grad)>=epsilon):
        w,grad = step_gradient_vectorized(w, X, Y, learning_rate)
        if(i % 1000 == 0):
            print("MSE na iteração {0} é de {1}".format(i,compute_mse_vectorized(w, X, Y)))
        i+= 1
    return w

Após alguns testes, o valor de learning_rate e epsilon foram ajustados para atender as necessidades dos dados

In [22]:
points = np.genfromtxt("sample_treino.csv", delimiter=",")
points = np.c_[np.ones(len(points)),points]
X = points[:,0:-1]
Y = points[:,-1][:,np.newaxis]

init_w = np.zeros((len(X[0]),1))
learning_rate = 0.00003
epsilon = 0.01
print("Starting gradient descent at w0 = {0}, w1 = {1}, w2 = {2}, w3 = {3}, w4 = {4}, w5 = {5} and error = {6}".format(init_w[0], init_w[1], init_w[2], init_w[3], init_w[4], init_w[5], compute_mse_vectorized(init_w, X,Y)))
print("Running...")
tic = time.time()
w = gradient_descent_runner_vectorized(init_w, X,Y, learning_rate, epsilon)
toc = time.time()
print("Gradiente descendente convergiu com w0 = {0}, w1 = {1}, w2 = {2}, w3 = {3}, w4 = {4}, w5 = {5}, error = {6}".format(w[0][0], w[1][0], w[2][0], w[3][0], w[4][0], w[5][0], compute_mse_vectorized(w,X,Y)[0][0]))
print("Versão vetorizada rodou em: " + str(1000*(toc-tic)) + " ms")

Starting gradient descent at w0 = [0.], w1 = [0.], w2 = [0.], w3 = [0.], w4 = [0.], w5 = [0.] and error = [[54.47995386]]
Running...
MSE na iteração 0 é de [[15.39415211]]
MSE na iteração 1000 é de [[0.43036269]]
MSE na iteração 2000 é de [[0.42891282]]
MSE na iteração 3000 é de [[0.42766679]]
MSE na iteração 4000 é de [[0.42650933]]
MSE na iteração 5000 é de [[0.42543391]]
MSE na iteração 6000 é de [[0.42443472]]
MSE na iteração 7000 é de [[0.42350635]]
MSE na iteração 8000 é de [[0.42264379]]
MSE na iteração 9000 é de [[0.42184238]]
MSE na iteração 10000 é de [[0.42109776]]
MSE na iteração 11000 é de [[0.42040593]]
MSE na iteração 12000 é de [[0.41976314]]
MSE na iteração 13000 é de [[0.41916591]]
MSE na iteração 14000 é de [[0.41861102]]
MSE na iteração 15000 é de [[0.41809545]]
MSE na iteração 16000 é de [[0.41761644]]
MSE na iteração 17000 é de [[0.41717137]]
MSE na iteração 18000 é de [[0.41675786]]
MSE na iteração 19000 é de [[0.41637365]]
MSE na iteração 20000 é de [[0.41601668

#### Compare o valor dos coeficientes estimados pelo seu algoritmo com o valor dos coeficientes da regressão linear do scikit learn para testar se o seu algoritmo está funcionando corretamente.

In [23]:
from sklearn.linear_model import LinearRegression

linearR = LinearRegression()
linearR.fit(X,Y)
print(linearR.coef_)

[[0.         0.10304143 0.0464367  0.16409834 0.38117843 0.02027816]]


Podemos observar que com exceção do valor para o coeficiente w0, todos os outros coeficientes obtiveram valores muito próximos.
    
| coeficiente | gradiente descendente | regressão linear |
|-------------|-----------------------|------------------|
|     w0      |        1.72143        |       0.         |
|     w1      |        0.10333        |       0.10304    |
|     w2      |        0.04718        |       0.04643    |
|     w3      |        0.16406        |       0.16409    |
|     w4      |        0.38200        |       0.38117    |
|     w5      |        0.02047        |       0.02027    |
    
