# Regressão Linear Múltipla com NumPy

Os dados aqui utilizados representam as notas de alunos de Computação da UFCG em algumas disciplinas do primeiro período. A última coluna é a variável alvo representando o CRA final depois de concluir o curso. As outras colunas são algumas disciplinas do primeiro período. O pressuposto aqui é que as notas em disciplinas no primeiro período ajudam a explicar o CRA final dos alunos de computação.

### Versão Vetorizada

In [1]:
import numpy as np
import time

In [2]:
def compute_mse_vectorized(w, X, Y):
    res = Y - np.dot(X, w)
    totalError = np.dot(res.T, res)
    
    return totalError / float(len(Y))

In [3]:
def step_gradient_vectorized(w_current, X, Y, learningRate):
    res = Y - np.dot(X, w_current)
    
    gradients = -2 * np.dot(X.T, res)
    w = w_current - learningRate * gradients
    
    return [w, gradients]

In [4]:
def gradient_descent_runner_vectorized(starting_w, X, Y, learning_rate, epsilon):
    w = starting_w
    grad = np.array([np.inf, np.inf])
    
    i = 0
    while (np.linalg.norm(grad) >= epsilon):
        w, gradients = step_gradient_vectorized(w, X, Y, learning_rate)
        grad = gradients
        
        if i % 1000 == 0:
            print("MSE na iteração {0} é de {1}".format(i, compute_mse_vectorized(w, X, Y)))
        i += 1
    
    return w

In [5]:
def run():
    points = np.genfromtxt("sample_treino.csv", delimiter=",", skip_header = 1)
    points = np.c_[np.ones(len(points)),points]
    X = points[:, :-1] # independent variables
    Y = points[:, 6][:, np.newaxis] # dependent variables
    init_w = np.zeros((6, 1))
    learning_rate = 0.0003
    epsilon = 0.9
    
    print("Executando...")
    print("Gradiente descendente iniciando com erro = {0}".format(compute_mse_vectorized(init_w, X, Y)))
    tic = time.time()
    w = gradient_descent_runner_vectorized(init_w, X, Y, learning_rate, epsilon)
    toc = time.time()
    
    print("Gradiente descendente convergiu com erro = {0} e:".format(compute_mse_vectorized(w, X, Y)))
    for var in range(0, len(w)):
        print("w_{0} = {1}".format(var, w[var]))
    
    print("Versão vetorizada rodou em: " + str(1000*(toc-tic)) + " ms")


In [6]:
if __name__ == '__main__':
    run()

Executando...
Gradiente descendente iniciando com erro = [[54.47995386]]
MSE na iteração 0 é de [[15.39415211]]
MSE na iteração 1000 é de [[0.43036269]]
MSE na iteração 2000 é de [[0.42891282]]
MSE na iteração 3000 é de [[0.42766679]]
MSE na iteração 4000 é de [[0.42650933]]
MSE na iteração 5000 é de [[0.42543391]]
MSE na iteração 6000 é de [[0.42443472]]
MSE na iteração 7000 é de [[0.42350635]]
MSE na iteração 8000 é de [[0.42264379]]
MSE na iteração 9000 é de [[0.42184238]]
MSE na iteração 10000 é de [[0.42109776]]
MSE na iteração 11000 é de [[0.42040593]]
MSE na iteração 12000 é de [[0.41976314]]
MSE na iteração 13000 é de [[0.41916591]]
MSE na iteração 14000 é de [[0.41861102]]
MSE na iteração 15000 é de [[0.41809545]]
MSE na iteração 16000 é de [[0.41761644]]
MSE na iteração 17000 é de [[0.41717137]]
MSE na iteração 18000 é de [[0.41675786]]
MSE na iteração 19000 é de [[0.41637365]]
MSE na iteração 20000 é de [[0.41601668]]
MSE na iteração 21000 é de [[0.41568501]]
MSE na iteração

### Usando o pacote __scikit learn__

In [7]:
from sklearn import linear_model
from sklearn.metrics import mean_squared_error

In [8]:
def multipleLinearRegression(X, Y):
    # Create linear regression object
    regr = linear_model.LinearRegression()

    # Train the model using all dataset
    regr.fit(X, Y)

    return regr

In [9]:
def run():
    # Load the dataset
    points = np.genfromtxt("sample_treino.csv", delimiter = ",", skip_header = 1)
    X = points[:, :-1] # independent variables
    Y = points[:, 5] # dependent variable
    
    print("Executando...")
    tic = time.time()
    model = multipleLinearRegression(X, Y)
    toc = time.time()
    
    predictions = model.predict(X)
    print("Modelo do sklearn convergiu com erro = {0} e:".format(mean_squared_error(Y, predictions)))
    
    # The coefficients
    for coef in range(0, len(model.coef_)):
        if (coef == 0):
            print("w_{0} = {1}".format(coef, model.intercept_))
        
        print("w_{0} = {1}".format(coef+1, model.coef_[coef]))
    
    
    print("Versão com sklearn rodou em: " + str(1000*(toc-tic)) + " ms")

In [10]:
if __name__ == '__main__':
    run()

Executando...
Modelo do sklearn convergiu com erro = 0.411337589228 e:
w_0 = 1.73771151379
w_1 = 0.103041432463
w_2 = 0.0464367008507
w_3 = 0.164098344192
w_4 = 0.381178426656
w_5 = 0.0202781576248
Versão com sklearn rodou em: 259.8528862 ms


Foram implementadas duas versões do algoritmo de regressão linear múltipla, com o objetivo de encontrar um modelo que mostrasse uma relação entre as notas dos alunos nas disciplinas do primeiro período e o seu CRA final. A primeira versão foi implementada com gradiente descendente e a segunda com os métodos do pacote **sklearn**. O modelo do sklearn executou mais rápido, mas, em ambas as versões, os parâmetros dos modelos ficaram bem parecidos.

A partir dos modelos gerados é possível perceber que a variável (disciplina) que mais influencia no CRA final do aluno é Introdução a Computação, enquanto que a que menos influencia, a partir destes dados, é Cálculo II.