## Lab 1: Implementando Regressão Linear do Zero

Autora: Lília Sampaio

### Código base 

Para iniciar as tarefas descritar para essa atividade, é necessário executar o código original obtido através do GitHub do autor que apresenta o vídeo "How to do Linear Regression using Gradient Descent", que é como segue:

In [1]:
from numpy import *

def compute_error_for_line_given_points(b, m, points):
    totalError = 0
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        totalError += (y - (m * x + b)) ** 2
    return totalError / float(len(points))

def step_gradient(b_current, m_current, points, learning_rate):
    b_gradient = 0
    m_gradient = 0
    N = float(len(points))
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        b_gradient += -(2/N) * (y - ((m_current * x) + b_current))
        m_gradient += -(2/N) * x * (y - ((m_current * x) + b_current))
    new_b = b_current - (learning_rate * b_gradient)
    new_m = m_current - (learning_rate * m_gradient)
    return [new_b, new_m]

def gradient_descent_runner(points, starting_b, starting_m, learning_rate, num_iterations):
    b = starting_b
    m = starting_m

    for i in range(num_iterations):
        b, m = step_gradient(b, m, array(points), learning_rate)
    return [b, m]

def run():
    points = genfromtxt("data.csv", delimiter=",")
    learning_rate = 0.0001
    initial_b = 0
    initial_m = 0
    num_iterations = 1000
    print("Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m, compute_error_for_line_given_points(initial_b, initial_m, points)))
    print("Running...")
    [b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations)
    print("After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m, compute_error_for_line_given_points(b, m, points)))

Executando a função inicial do código acima, ```run()```, com os dados fornecidos também no GitHub do autor, obtemos o seguinte resultado para ```m``` e para ```b``` com $1000$ iterações e taxa de aprendizado de $0.0001$:


In [2]:
run()

Starting gradient descent at b = 0, m = 0, error = 5565.107834483211
Running...
After 1000 iterations b = 0.08893651993741346, m = 1.4777440851894448, error = 112.61481011613473


### 1. Usando dados de escolaridade 

Agora usando os dados de escolaridade trabalhados em classe, o código muda para chamar ```school-data.csv``` e a função ```run``` fica da seguinte forma:

In [3]:
def run(data_path):
    points = genfromtxt(data_path, delimiter=",")
    learning_rate = 0.0001
    initial_b = 0
    initial_m = 0
    num_iterations = 1000
    print("Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m, compute_error_for_line_given_points(initial_b, initial_m, points)))
    print("Running...")
    [b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations)
    print("After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m, compute_error_for_line_given_points(b, m, points)))

Para a mesma configuração anterior de número de iterações e taxa de aprendizado, obtemos o resultado abaixo: 

In [5]:
run("income.csv")

Starting gradient descent at b = 0, m = 0, error = 2946.6344970460195
Running...
After 1000 iterations b = -0.18234255376510086, m = 3.262182267596014, error = 103.39842291729676


### 2. Calculando o valor do RSS a cada iteração

Para calcular o valor do RSS, a função original ```compute_error_for_line_given_points()``` foi reescrita para retornar apenas o valor da soma do quadrado dos erros ao invés de sua média. Dessa forma, foi criada a função ```calculate_rss()```, como segue, e chamada no método ```gradient_descent_runner()``` após o fim de cada iteração:

In [6]:
def calculate_rss(b, m, points):
    totalError = 0
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        totalError += (y - (m * x + b)) ** 2
    return totalError

def gradient_descent_runner(points, starting_b, starting_m, learning_rate, num_iterations, print_rss):
    b = starting_b
    m = starting_m
    rss_array = []

    for i in range(num_iterations):
        b, m = step_gradient(b, m, array(points), learning_rate)
        squared_error = calculate_rss(b, m, points)
        rss_array.append(squared_error)
    
    if print_rss:
        print("RSS values for {0} iterations are {1}.".format(num_iterations, rss_array))
    return [b, m]

def run(data_path, print_rss=False):
    points = genfromtxt(data_path, delimiter=",")
    learning_rate = 0.0001
    initial_b = 0
    initial_m = 0
    num_iterations = 1000
    print("Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m, compute_error_for_line_given_points(initial_b, initial_m, points)))
    print("Running...")
    [b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations, print_rss)
    print("After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m, compute_error_for_line_given_points(b, m, points)))

O resultado se encontra na lista de valores abaixo contendo $1000$ itens, um para cada iteração:

In [8]:
run("income.csv", print_rss=True)

Starting gradient descent at b = 0, m = 0, error = 2946.6344970460195
Running...
RSS values for 1000 iterations are [79447.14379878416, 71435.20777869043, 64264.53040961913, 57846.77849791643, 52102.89394397851, 46962.119845960995, 42361.12886379743, 38243.24310606869, 34557.73592971116, 31259.207051614892, 28307.023274273037, 25664.817935926396, 23300.042919058902, 21183.567698552353, 19289.320490278456, 17593.96707953032, 16076.623372863956, 14718.598132350142, 13503.162723046531, 12415.345037268555, 11441.745057065482, 10570.369782863547, 9790.485494804614, 9092.485526826244, 8467.771924625973, 7908.649529685073, 7408.231184600101, 6960.352891971379, 6559.497881712548, 6200.728651386109, 5879.626142387334, 5592.235302703772, 5335.0163656519635, 5104.801244406793, 4898.754505158914, 4714.338438138678, 4549.28179622555, 4401.551816041983, 4269.329176866909, 4150.985588894107, 4045.0637347510246, 3950.2593171828303, 3865.4049917517095, 3789.4559866225372, 3721.477232288723, 3660.631842

### 3. Plotando Iterações X RSS

Ao longo das iterações o RSS diminui. O gráfico abaixo mostra esse comportamento onde X é o número de iterações 
e Y o valor de RSS:

<img src="graphs/iterations_rss.png" width="650" hight="450" />

### 4. Testando valores de taxa de aprendizado e iterações

Queremos obter os valores de **b = -39** e **m = 5**. Vamos começar modificando a função ```run()``` aumentado a taxa de aprendizado e o número de iterações em 10x (de $0.0001$ para $0.001$ e de $1000$ para $10000$). Vamos ainda reescrever a função ```gradient_descent_runner()``` para não mais imprimir o erro a cada iteração e dessa forma deixar o resultado final mais claro:

In [10]:
def run(data_path, num_iterations, learning_rate, print_rss=False):
    points = genfromtxt(data_path, delimiter=",")
    initial_b = 0
    initial_m = 0
    print("Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m, compute_error_for_line_given_points(initial_b, initial_m, points)))
    print("Running...")
    [b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations, print_rss)
    print("After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m, compute_error_for_line_given_points(b, m, points)))

run("income.csv", num_iterations=10000, learning_rate=0.001)

Starting gradient descent at b = 0, m = 0, error = 2946.6344970460195
Running...
After 10000 iterations b = -24.13302001545096, m = 4.6879171746959, error = 41.01920667729307


Temos agora **b = -24.13** e **m = 4.68**. Vamos tunar o número de iterações mais um pouco, aumentando em 2x:

In [11]:
run("income.csv", num_iterations=20000, learning_rate=0.001)

Starting gradient descent at b = 0, m = 0, error = 2946.6344970460195
Running...
After 20000 iterations b = -33.530504059124134, m = 5.247330204302785, error = 31.49887307365348


Temos agora **b = -33.53** e **m = 5.24**. Vamos agora aumentar um pouco mais a taxa de aprendizado:

In [12]:
run("income.csv", num_iterations=20000, learning_rate=0.0025)

Starting gradient descent at b = 0, m = 0, error = 2946.6344970460195
Running...
After 20000 iterations b = -39.105305893911776, m = 5.579186770311661, error = 29.83436366491363


Chegamos então a valores aproximados de **b = -39** e **m = 5** para uma taxa de aprendizado de $0.0025$ e $20000$ iterações.

### 5. Definindo novo critério de parada

Queremos agora modificar o algoritmo para considerar um critério de parada que é relacionado ao tamanho do gradiente. Aqui vamos estabelecer que, quando o passo do gradiente for menor que um determinado threshold, assumimos que convergimos. O código abaixo mostra uma modificação na função ```step_gradient()``` para retornar além dos novos ```b``` e ```m``` seus respectivos gradientes. Além disso, a função ```gradient_descent_runner()``` considera agora como critério de parada os gradientes de ```m``` e ```b``` serem maiores que o threshold pré-definido. Aqui chamaremos esse threshold de tolerância. Segue o código:

In [14]:
def step_gradient(b_current, m_current, points, learning_rate):
    b_gradient = 0
    m_gradient = 0
    N = float(len(points))
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        b_gradient += -(2/N) * (y - ((m_current * x) + b_current))
        m_gradient += -(2/N) * x * (y - ((m_current * x) + b_current))
    new_b = b_current - (learning_rate * b_gradient)
    new_m = m_current - (learning_rate * m_gradient)
    return [new_b, new_m, b_gradient, m_gradient]

def gradient_descent_runner(points, starting_b, starting_m, learning_rate, tolerance, print_rss):
    b = starting_b
    m = starting_m
    rss_array = []

    num_iterations = 0
    b_gradient = float("inf")
    m_gradient = float("inf")
    
    while abs(b_gradient) > tolerance or abs(m_gradient) > tolerance:
        b, m, b_gradient, m_gradient = step_gradient(b, m, array(points), learning_rate)
        
        squared_error = calculate_rss(b, m, points)
        rss_array.append(squared_error)
        
        num_iterations +=1
        
        with open("graphs/iterations_gradient.csv", "a+") as file:
             file.write("{0},{1},{2}\n".format(num_iterations, b_gradient, m_gradient))
    
    if print_rss:
        print("RSS values for {0} iterations are {1}.".format(num_iterations, rss_array))
    return [b, m, num_iterations]

def run_gradient_descent(data_path, learning_rate, tolerance, print_rss=False):
    points = genfromtxt(data_path, delimiter=",")
    initial_b = 0
    initial_m = 0
    print("Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m, compute_error_for_line_given_points(initial_b, initial_m, points)))
    print("Running...")
    [b, m, num_iterations] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, tolerance, print_rss)
    print("After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m, compute_error_for_line_given_points(b, m, points)))

Executando o código com o novo critério de parada, taxa de aprendizado como a anterior $0.0025$ e tolerância $0.002$, obtemos o seguinte resultado:

In [15]:
run_gradient_descent("income.csv", learning_rate=0.0025, tolerance=0.002)

Starting gradient descent at b = 0, m = 0, error = 2946.6344970460195
Running...
After 31717 iterations b = -39.42523544598863, m = 5.5982315230514725, error = 29.828837286629224


Os gráficos dos tamanhos de gradiente de m e b versus o número de iterações até a convergência é como segue:

<img src="graphs/gradient_m.png" width="650" hight="450" />
<img src="graphs/gradient_b.png" width="650" hight="450" />

### 6. Um valor de tolerância para b = -39 e m = 5

Como executado anteriormente, com uma taxa de aprendizado $0.0025$ e tolerância $0.002$ já obtivemos **b = -39** e **m = 5**, o que é confirmado se executarmos novamente:

In [16]:
run_gradient_descent("income.csv", learning_rate=0.0025, tolerance=0.002)

Starting gradient descent at b = 0, m = 0, error = 2946.6344970460195
Running...
After 31717 iterations b = -39.42523544598863, m = 5.5982315230514725, error = 29.828837286629224


### 7. Calculando coeficientes de regressão com equações normais

Usando como base o pseudo-código visto em sala que calcula coeficientes de regressão usando equações normais, temos a seguinte solução: 

In [17]:
def linear_regression(points):
    tmp_x = 0
    tmp_y = 0
    n = len(points)

    for i in range(n):
        x = points[i, 0]
        y = points[i, 1]
        tmp_x += x
        tmp_y += y
        
    avg_x = tmp_x / n
    avg_y = tmp_y / n
    
    a = 0
    b = 0
    
    for i in range(n):
        x = points[i, 0]
        y = points[i, 1]
        a += (x - avg_x) * (y - avg_y)
        b += (x - avg_x) ** 2
        
    w1 = a / b
    w0 = avg_y - (w1 * avg_x)
    
    print("Coeficientes da reta encontrados são m = {0} e b = {1}".format(w0, w1))
    
def run_linear_regression(data_path):
    points = genfromtxt(data_path, delimiter=",")
    linear_regression(points)

Executando essa solução para o conjunto de dados ```"school-data.csv"```, temos:

In [18]:
run_linear_regression("income.csv")

Coeficientes da reta encontrados são m = -39.44625667909617 e b = 5.599482874119919


Agora queremos comparar o tempo de processamento para a solução com gradiente descendente e a que usa equações normais. Para isso, reformulamos a função ```run()``` de cada uma das soluções para guardar seu tempo de execução. Temos então:

In [19]:
def run_gradient_descent(data_path, learning_rate, tolerance, print_rss=False):
    points = genfromtxt(data_path, delimiter=",")
    initial_b = 0
    initial_m = 0
    
    print("Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m, compute_error_for_line_given_points(initial_b, initial_m, points)))
    print("Running...")
    
    import time;
    initial_time = time.time()
    [b, m, num_iterations] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, tolerance, print_rss)
    final_time = time.time()

    print("After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m, compute_error_for_line_given_points(b, m, points)))
    print("Tempo de processamento para a solução com gradiente descendente: {0}s.".format(final_time - initial_time))

def run_linear_regression(data_path):
    points = genfromtxt(data_path, delimiter=",")
    
    import time; 
    initial_time = time.time()
    linear_regression(points)
    final_time = time.time()
    
    print("Tempo de processamento para a solução com equações normais: {0}s.".format(final_time - initial_time))

In [20]:
run_gradient_descent("income.csv", learning_rate=0.0025, tolerance=0.002)

Starting gradient descent at b = 0, m = 0, error = 2946.6344970460195
Running...
After 31717 iterations b = -39.42523544598863, m = 5.5982315230514725, error = 29.828837286629224
Tempo de processamento para a solução com gradiente descendente: 27.570305824279785s.


In [21]:
run_linear_regression("income.csv")

Coeficientes da reta encontrados são m = -39.44625667909617 e b = 5.599482874119919
Tempo de processamento para a solução com equações normais: 0.00017309188842773438s.


Podemos ver que o tempo de processamento é bem menor para a solução que usa equações normais.