# Regressores & Aprendizagem de Máquina

### ML como um problema de otimização

* _Estimador linear_, considerando $n-1$ atributos: 
    
    $\hat{y}(\textbf{w}) = \hat{y}(\textbf{w}, \textbf{x}) = w_0 x_0 + w_1 x_1 + \ldots + w_{n-1} x_{n-1} + b$
    
    $\hat{y}(\textbf{w}) = w_0 x_0 + w_1 x_1 + \ldots + w_{n-1} x_{n-1} + w_{n} x_{n}$ (bias incorporado em $\textbf{x}$, $b = w_n, x_n = 1$)
    
    $\hat{y}(\textbf{w}) = \textbf{x} \dot~\textbf{w}$

    Se considerarmos todas as $m$ instâncias $\textbf{x}$, temos $\hat{y}(\textbf{w}) = X \dot~\textbf{w}$ (supondo $X^{(m \times n)}$ e $\textbf{w}^{(n \times 1)}$)

* Eventualmente estimador linear poderia incorporar um transformador, uma _função de ativação_ $\alpha$: 
    
    $\hat{y}(\textbf{w}) = \alpha(X \dot~\textbf{w})$
    
    Supondo $\alpha(x) = x$, função identidade, temos o estimador clássico usado na regressão linear, ou seja,     $\hat{y}(\textbf{w}) = X \dot~\textbf{w}$. Funções de ativação podem ser usadas para transformar a saída para um certo intervalo (-1 a 1, 0 a 1, etc) e também modificarem a natureza simples de um estimador polinomial de grau 1, como o usado aqui. 

* _Função de perda_ (_loss_), avalia o quão bom é o seu estimador $\hat{y}(\textbf{w})$ em relação aos valores reais $\textbf{y}$. Por exemplo, ao adotarmos a média das diferenças dos quadrados (MSE -- mean squared error), temos:

    $\ell(\hat{y}(\textbf{w}), \textbf{y}) = \frac{1}{m} \sum_{i}^{m}{(\hat{y}_i(\textbf{w}) - y_i)^2}$
    
    $\ell(\hat{y}(\textbf{w}), \textbf{y}) = mean ((\hat{y}(\textbf{w}) - \textbf{y})^2)$

* Função de perda com _regularizador_ $R$:

    $L(\hat{y}(\textbf{w}), \textbf{y}) = \ell(\hat{y}(\textbf{w}), \textbf{y}) + \lambda R(\textbf{w})$
    
    O regularizador é uma função de penalização que tem por objetivo eliminar certos conjuntos de pesos, privilegiando outros. Ao fazer isso, o modelo se restringe a um menor espaço de pesos, melhorando sua generalização. Exemplos de regularizadores são o L1 ($R(\mathbf{w}) \approx \sum_{\forall i}{\frac{w_i}{|w_i|}}$) e o L2 ($R(\mathbf{w}) \approx \sum_{\forall i}{{\frac{w_i}{|w_i|}}^2}$). Note que enquanto L1 prefere pesos não nulos, o L2 não gosta de _outliers_.

* Objetivo de ML é determinar $\textbf{w}$ que minimiza $L$, ou seja, determinar $\textbf{w}$ tal que $\frac{\partial}{\partial \textbf{w}} L(\hat{y}(\textbf{w}), \textbf{y}) = 0$. No nosso caso, supondo $\lambda = 0$:

    $
    \begin{align}
        \frac{\partial}{\partial \textbf{w}} L(\hat{y}(\textbf{w}), \textbf{y}) &= \frac{\partial}{\partial \textbf{w}} \frac{1}{m} \sum_{i}^{m}{(\hat{y}_i(\textbf{w}) - y_i)^2} = 0 \\
        &= \frac{1}{m} \sum_{i}^{m}{\frac{\partial}{\partial \textbf{w}} (\hat{y}_i(\textbf{w}) - y_i)^2} \\
        &= \frac{1}{m} \sum_{i}^{m}{\frac{\partial}{\partial \textbf{w}} (\textbf{x}_i \dot~\textbf{w} - y_i)^2} \\
        &= \frac{1}{m} \sum_{i}^{m}{\frac{\partial}{\partial \textbf{w}} ({\textbf{x}_i}^2 \dot~\textbf{w}^2 - 2 \textbf{x}_i \dot~\textbf{w} \dot~y_i + {y_i}^2})  \\
        &= \frac{1}{m} \sum_{i}^{m}{(2 {\textbf{x}_i}^2 \dot~\textbf{w} - 2 \textbf{x}_i \dot~y_i)}  \\
        &= \frac{2}{m} \sum_{i}^{m}{({\textbf{x}_i}^2 \dot~\textbf{w} - \textbf{x}_i \dot~y_i)}  \\
        &= \frac{2}{m} (\sum_{i}^{m}{{\textbf{x}_i}^2 \dot~\textbf{w}} - \sum_{i}^{m} {\textbf{x}_i \dot~y_i})  \\
        &= \frac{2}{m} (X^T X\dot~\textbf{w} - X^T \textbf{y}) \text{ supondo } X^{(m \times n)}, \textbf{y}^{(m \times 1)} \text{ e } \textbf{w}^{(n \times 1)}\\ 
        &= \frac{2}{m} X^T (X\dot~\textbf{w} - \textbf{y})  
    \end{align}    
    $

    Esta função corresponde ao gradiente da função de perda $L$ e pode ser usado para obter $\textbf{w}$ tanto diretamente quanto iterativamente. Como a solução direta é limitada a valores pequenos de $n$ e $m$, vamos implementar a solução iterativa, o _Gradiente Descendente_.

### Gradiente Descendente

* GradientDescendente($X^{m \times n}$, $\textbf{y}^{m \times 1}$, taxa de aprendizado $\eta$, número de épocas $N$):
    - inicie $\textbf{w}^{n \times 1}$ com valores aleatorios entre -1 e 1
    - para $N$ épocas:
        - $\hat{y}(\textbf{w}) = X \dot~\textbf{w}$
        - $\ell(\hat{y}(\textbf{w}), \textbf{y}) = mean ((\hat{y}(\textbf{w}) - \textbf{y})^2)$
        - $\nabla\ell = \frac{2}{m} X^T (X\dot~\textbf{w} - ~\textbf{y})$
        - $\textbf{w}' = \textbf{w} - \eta \nabla\ell$
        - $\textbf{w} = \textbf{w}'$
    - retorne $\textbf{w}$


### GD em Numpy

In [1]:
from __future__ import division, print_function

In [2]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline



In [15]:
def gd(X, y, n_epochs = 100, lrating = 0.1):    
    m, n = X.shape # m instancias e n colunas (including bias)
    Y = y.reshape(-1,1)
    W = np.random.uniform(-1, 1, (n, 1))
    for e in range(n_epochs):
        Yhat = np.matmul(X, W)
        error = Yhat - Y
        loss = np.mean(error ** 2)
        gloss = (2./m) * np.matmul(X.T, error)
        Wn = W - lrating * gloss
        W = Wn
        if e%10 == 0:
            print(loss)
    return W

**Exercício**: Compare os otimizadores, usando 40 épocas: 
* GradientDescentOptimizer(learning_rate = 0.1)
* AdadeltaOptimizer(learning_rate = 1.0)
* RMSPropOptimizer(learning_rate = 0.1)
* AdamOptimizer(learning_rate = 1.0)

Uma vez que tiver obtido as curvas de perda para cada método (ls_sgd, ls_adag, ls_rms e ls_adam) você pode plotá-las com o código abaixo:

```python
# gráficos
plt.plot(ls_sgd, label = 'sgd')
plt.plot(ls_adag, label = 'adag')
plt.plot(ls_rms, label = 'rms')
plt.plot(ls_adam, label = 'adam')
plt.legend()
```

<div align="right">
<a href="#losses" class="btn btn-default" data-toggle="collapse">Solução #1</a>
</div>
<div id="losses" class="collapse">
```
# otimizadores
def gdtf_opt(X, y, n_epochs = 100, lrating = 0.1, 
             otimizador = None):
    m, n = X.shape
    
    X = tf.constant(X, dtype = tf.float32, name = "X")
    y = tf.constant(y.reshape(-1, 1), dtype = tf.float32, name = "y")
    W = tf.Variable(tf.random_uniform([n, 1], -1.0, 1.0), name = "W")
    
    Yhat = tf.matmul(X, W, name = "predictions")
    loss = tf.reduce_mean(tf.square(Yhat - y), name = "loss")
    
    training = otimizador.minimize(loss)
    
    init = tf.global_variables_initializer()
    lossvalues = []
    with tf.Session() as s:
        s.run(init)
        for e in range(n_epochs):
            W_e, loss_e = s.run([training, loss])
            lossvalues += [loss_e]
    return W_e, lossvalues

# execução
W, ls_sgd = gdtf_opt(X, y, n_epochs=40, 
             otimizador = tf.train.GradientDescentOptimizer(
                 learning_rate = 0.1))
W, ls_adag = gdtf_opt(X, y, n_epochs=40, 
             otimizador = tf.train.AdagradOptimizer(learning_rate = 1))
W, ls_rms = gdtf_opt(X, y, n_epochs=40, 
             otimizador = tf.train.RMSPropOptimizer(learning_rate = 0.1))
W, ls_adam = gdtf_opt(X, y, n_epochs=40, 
             otimizador = tf.train.AdamOptimizer(learning_rate = 1))

```
</div>