## Lab: regressão linear

Implementando regressão linear com gradiente descendente.

### Implementação de Siraj Raval

Utilizando o vídeo [How to Do Linear Regression using Gradient Descent](https://www.youtube.com/watch?v=XdM6ER7zTLk) como base, implementamos um modelo de regressão linear iterativo.

A implementação original, como vista no vídeo, tem ``learning_rate = 0.0001``, e itera 1000 vezes na descida de gradiente.

In [4]:
from numpy import *


def compute_error_for_line_given_points(b, m, points):
    totalError = 0
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        totalError += (y - (m * x + b)) ** 2
    return totalError / float(len(points))

def step_gradient(b_current, m_current, points, learningRate):
    b_gradient = 0
    m_gradient = 0
    N = float(len(points))
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        b_gradient += -(2/N) * (y - ((m_current * x) + b_current))
        m_gradient += -(2/N) * x * (y - ((m_current * x) + b_current))
    new_b = b_current - (learningRate * b_gradient)
    new_m = m_current - (learningRate * m_gradient)
    return [new_b, new_m]

def gradient_descent_runner(points, starting_b, starting_m, learning_rate, num_iterations):
    b = starting_b
    m = starting_m
    for i in range(num_iterations):
        b, m = step_gradient(b, m, array(points), learning_rate)
    return [b, m]

def run(inputfile):
    points = genfromtxt(inputfile, delimiter=",")
    learning_rate = 0.0001
    initial_b = 0 # initial y-intercept guess
    initial_m = 0 # initial slope guess
    num_iterations = 1000
    print "Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m, compute_error_for_line_given_points(initial_b, initial_m, points))
    print "Running..."
    [b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations)
    print "After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m, compute_error_for_line_given_points(b, m, points))

O conjunto original de dados associa horas de estudo a notas em exames. Executando a implementação acima nesse conjunto de dados (``data.csv``), temos:

In [5]:
run("data.csv")

Starting gradient descent at b = 0, m = 0, error = 5565.10783448
Running...
After 1000 iterations b = 0.0889365199374, m = 1.47774408519, error = 112.614810116


Como se pode observar, a implementação acima nos dá como resposta a reta ```y = 1.47774408519x + 0.0889365199374```, onde ```b = 0.0889365199374``` (o coeficiente linear da reta da função) e ```m = 1.47774408519``` (o coeficiente angular). O erro é 112.614810116.

##### Dados de escolaridade

Executando o mesmo código com os dados de anos de escolaridade vs. salário (```income.csv```), obtemos o seguinte resultado:

In [6]:
run("income.csv")

Starting gradient descent at b = 0, m = 0, error = 2946.63449705
Running...
After 1000 iterations b = -0.182342553765, m = 3.2621822676, error = 103.398422917


A resposta é a reta ```y = 3.2621822676x - 0.182342553765 ```. Onde o coeficiente angular, ```m```, é 3.2621822676, e o coeficiente linear, ```b```, -0.182342553765. O erro é 103.398422917.

### Mostrando RSS a cada iteração

Para que o RSS seja mostrado a cada iteração do gradiente, vamos modificar a função ```gradient_descent_runner```:

In [7]:
def gradient_descent_runner(points, starting_b, starting_m, learning_rate, num_iterations, show_rss=False):
    b = starting_b
    m = starting_m
    for i in range(num_iterations):
        b, m = step_gradient(b, m, array(points), learning_rate)
        # Mostre o RSS a cada iteração:
        if show_rss:
            print "{0},{1}".format(i, compute_error_for_line_given_points(b, m, points))
    return [b, m]

def run(inputfile, show_rss=False):
    points = genfromtxt(inputfile, delimiter=",")
    learning_rate = 0.0001
    initial_b = 0 # initial y-intercept guess
    initial_m = 0 # initial slope guess
    num_iterations = 1000
    print "Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m, compute_error_for_line_given_points(initial_b, initial_m, points))
    print "Running..."
    [b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations,show_rss=show_rss)
    print "After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m, compute_error_for_line_given_points(b, m, points))

Executando o código atualizado (para ```income.csv```), temos:

In [8]:
run("income.csv", show_rss=True)

Starting gradient descent at b = 0, m = 0, error = 2946.63449705
Running...
0,2648.23812663
1,2381.17359262
2,2142.15101365
3,1928.22594993
4,1736.76313147
5,1565.40399487
6,1412.03762879
7,1274.7747702
8,1151.92453099
9,1041.97356839
10,943.567442476
11,855.493931198
12,776.668097302
13,706.118923285
14,642.977349676
15,586.465569318
16,535.887445762
17,490.619937745
18,450.105424102
19,413.844834576
20,381.391501902
21,352.345659429
22,326.349516493
23,303.082850894
24,282.259064154
25,263.62165099
26,246.941039487
27,232.011763066
28,218.64992939
29,206.690955046
30,195.98753808
31,186.407843423
32,177.833878855
33,170.16004148
34,163.291816839
35,157.144614605
36,151.642726541
37,146.718393868
38,142.310972562
39,138.366186296
40,134.835457825
41,131.675310573
42,128.846833058
43,126.315199554
44,124.049241076
45,122.021061423
46,120.205693528
47,118.580791898
48,117.126357342
49,115.824490612
50,114.659171901
51,113.616063502
52,112.682333183
53,111.846496116
54,111.09827339
55,11

O valor de RSS decresce à medida que as iterações são executadas, como se pode perceber no gráfico abaixo:

<img src="img/rssvsiter.png" width="600" height="400" title="graficozinho" />

Observação: a rigor, o valor do RSS é, na verdade, ```totalError```. A função ```compute_error_for_line_given_points``` retorna o erro médio (já que divide ```totalError``` pelo número de pontos). A constância do número de pontos, no entanto, garante que, ainda que se trate da média, os valores do erro médio e do RSS (soma residual dos quadrados) se comportem de forma semelhante.


### Alterando hiper-parâmetros

O comportamento da regressão linear depende diretamente dos hiperparâmetros passados. Assim, vamos alterar a função ```run``` para receber ```learning_rate``` e ```num_iterations``` como parâmetros, o que permite experimentar diferentes comportamentos e resultados.

In [9]:
def run(inputfile, num_iterations=1000, learning_rate=0.0001, show_rss=False):
    points = genfromtxt(inputfile, delimiter=",")
    learning_rate = learning_rate
    initial_b = 0 # initial y-intercept guess
    initial_m = 0 # initial slope guess
    num_iterations = num_iterations
    print "Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m, compute_error_for_line_given_points(initial_b, initial_m, points))
    print "Running..."
    [b, m] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, num_iterations,show_rss=show_rss)
    print "After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m, compute_error_for_line_given_points(b, m, points))

Para ```learning_rate = 0.001``` e ```num_iterations = 50000```, por exemplo, temos como resultado os valores ```m = 5.57917988341``` e ```b = -39.105190202```, com ```error = 29.8343674303```, gerando a reta ```y = 5.57917988341x - 39.105190202```

In [10]:
run("income.csv", num_iterations=50000, learning_rate=0.001)

Starting gradient descent at b = 0, m = 0, error = 2946.63449705
Running...
After 50000 iterations b = -39.105190202, m = 5.57917988341, error = 29.8343674303


### Mudando condição de parada (tolerância mínima)

A implementação original utiliza um número fixo de iterações. Vamos mudar o código para considerar o tamanho do passo do gradiente como condição de parada: quando o passo for menor que um certo patamar por nós estabelecido (aqui, ```eps_tolerance```), assumimos a convergência.

In [11]:
def step_gradient(b_current, m_current, points, learningRate):
    b_gradient = 0
    m_gradient = 0
    N = float(len(points))
    for i in range(0, len(points)):
        x = points[i, 0]
        y = points[i, 1]
        b_gradient += -(2/N) * (y - ((m_current * x) + b_current))
        m_gradient += -(2/N) * x * (y - ((m_current * x) + b_current))
    new_b = b_current - (learningRate * b_gradient)
    new_m = m_current - (learningRate * m_gradient)
    return [new_b, new_m, m_gradient, b_gradient]


def gradient_descent_runner(points, starting_b, starting_m, learning_rate, eps_tolerance, show_rss=False):
    b = starting_b
    m = starting_m
    
    # Conte iterações
    iterations = 0
    
    # Inicializar valores de tolerância
    eps_m, eps_b = float("inf"), float("inf")
    
    # Rode até que o tamanho do gradiente seja menor
    # do que a tolerância (```eps_tolerance```).
    while abs(eps_m) > eps_tolerance or abs(eps_b) > eps_tolerance:
        b, m, eps_m, eps_b = step_gradient(b, m, array(points), learning_rate)
        
        # Mostre o RSS a cada iteração:
        if show_rss:
            print "{0},{1}".format(i, compute_error_for_line_given_points(b, m, points))
            
        iterations += 1
        # Gravando tamanho do gradiente...
        with open("gradientvsiter.csv", "a+") as f:
             f.write("{0},{1},{2}\n".format(iterations, eps_m, "m"))
             f.write("{0},{1},{2}\n".format(iterations, eps_b, "b"))

            
    return [b, m, iterations]


def run_gradient_descent(inputfile, eps_tolerance=0.01, learning_rate=0.001, show_rss=False, log_runtime=False):
    points = genfromtxt(inputfile, delimiter=",")
    learning_rate = learning_rate
    initial_b = 0 # initial y-intercept guess
    initial_m = 0 # initial slope guess
    
    # Definir a tolerância do tamanho do gradiente (critério de convergência)
    eps_tolerance = eps_tolerance
    
    print "Starting gradient descent at b = {0}, m = {1}, error = {2}".format(initial_b, initial_m, compute_error_for_line_given_points(initial_b, initial_m, points))
    print "Running..."
    
    if log_runtime:
        import time; t0 = time.time()
    
    [b, m, num_iterations] = gradient_descent_runner(points, initial_b, initial_m, learning_rate, eps_tolerance, show_rss=show_rss)
    
    if log_runtime:
        t1 = time.time()
        return t1 - t0
    
    print "After {0} iterations b = {1}, m = {2}, error = {3}".format(num_iterations, b, m, compute_error_for_line_given_points(b, m, points))

In [12]:
run_gradient_descent("income.csv", eps_tolerance=0.0025, learning_rate=0.001)

Starting gradient descent at b = 0, m = 0, error = 2946.63449705
Running...
After 76949 iterations b = -39.4199726612, m = 5.59791824023, error = 29.8288491672


Observando o comportamento do tamanho do gradiente (para ```m``` e para ```b```) com o número de iterações temos.

<img src="img/m_plot.png" /> <img src="img/b_plot.png" /> 

Com uma tolerância de ```0.0025``` e taxa de aprendizagem de ```0.001``` a função nos dá os valores semelhantes aos fornecidos na implementação anterior (50000 iterações e mesma taxa de aprendizagem): ```m = 5.57320055507``` e ```b = -39.0047444854```.

### Fórmula fechada de regressão linear

Também é possível calcular os coeficientes através de equações normais (fórmula fechada da regressão linear):

<img src="img/regressao.png" align="left" title="equações normais" />


In [13]:
def linear_regression(points):
    """Calcula os coeficientes da reta de regressão linear."""
    
    tmp_x = 0
    tmp_y = 0
    n = len(points)
    for i in range(n):
        x = points[i, 0]
        y = points[i, 1]
        tmp_x += x
        tmp_y += y
        
    avg_x = tmp_x / n
    avg_y = tmp_y / n
    a = 0
    b = 0
    
    for i in range(n):
        x = points[i, 0]
        y = points[i, 1]
        a += (x - avg_x) * (y - avg_y)
        b += (x - avg_x) ** 2
        
    w1 = a / b
    w0 = avg_y - (w1 * avg_x)
    
    print "m = {0}, b = {1}".format(w0, w1)
    
    
def run_linear_regression_equation(inputfile, log_runtime=False):
    points = genfromtxt(inputfile, delimiter=",")
    if log_runtime:
        import time; t0 = time.time()
    linear_regression(points)
    
    if log_runtime:
        t1 = time.time()
        return t1 - t0

In [14]:
run_linear_regression_equation("income.csv")

m = -39.4462566791, b = 5.59948287412


### Comparando implementações

Vamos analisar os tempos de execução de ambas as execuções: gradiente descendente com tolerância de ```0.0025``` e taxa de aprendizagem de ```0.001``` *versus* a fórmula fechada via equações normais. Foram executadas 10 repetições de cada abordagem. Os resultados podem ser vistos no gráfico abaixo. O eixo do tempo (y) está em milissegundos:

<img src="img/eqvsgrad.png" />

A implementação fechada é muito mais eficiente, como esperado.