
# Regression
## OLS

Todavía tenemos el mismo problema de un Data-set de la forma $\big\{(x^{(1)},y^{(1)})...(x^{(i)},y^{(i)})\big\}$, donde $x^{(i)} \in \mathbb{R}^d$, pero a diferencia de los valores de classification, tendremos $y \in \mathbb{R}$. Vamos en qué consiste una aproximación al problema mediante Ordinary Least Square (OLS).

####  Hypothesis class

Queremos hacer una predicción para el valor de $y$, para esto usamos $\Theta=\{\theta \in \mathbb{R}^d\;,\; \; \theta_0 \in \mathbb{R}\}$. 
Con esto, para hacer la predicción para un cierto $x$, vamos a utilizar:

$$h(x;\Theta)=\theta^{T}x+\theta_0$$


####  Loss Function

Es válido elegir cualquier función para ver qué tan insatisfechos estamos con determinada predicción, no obstante, una de las más famosas es $\textbf{Regression square loss}$ que tiene la forma:
$$\mathcal{L}(actual, prediction)=(actual-prediction)^2$$
$$$$
Vamos a tratar la regresión como un problema de optimización, si definimos la función como $$J(\theta , \theta _0) = \frac{1}{n}\sum _{i = 1}^ n\left(\theta ^ Tx^{(i)} + \theta _0 - y^{(i)}\right)^2 \; \; $$ entonces nos interesa los parámetros que hagan: $\theta ^*, \theta _0^* = {\rm arg}\min _{\theta , \theta _0} J(\theta , \theta _0)\; \; $.

### Analítical Solution

Para optimizar, vamos a utilizar la idea de cálculo de derivar con respecto a $\Theta$, esto nos va a dar un sistema de ocuaciones que vamos a condensar en una matriz que tiene forma:

$$X = \begin{bmatrix} x_1^{(1)} &  \dots &  x_1^{(n)}\\ \vdots &  \ddots &  \vdots \\ x_ d^{(1)} &  \dots &  x_ d^{(n)}\end{bmatrix} \; \; \; ;  \; \; \;  Y = \begin{bmatrix} y^{(1)} &  \dots &  y^{(n)}\end{bmatrix}\; \; .$$

Con ello definimos $T$ y $W$ como las transpuestas:

$$W = X^ T = \begin{bmatrix} x_1^{(1)} &  \dots &  x_ d^{(1)}\\ \vdots &  \ddots &  \vdots \\ x_1^{(n)} &  \dots &  x_ d^{(n)}\end{bmatrix} \; \; ; \; \; \;  T = Y^ T = \begin{bmatrix} y^{(1)}\\ \vdots \\ y^{(n)}\end{bmatrix} \; \; .$$


Ahora, vamos a poder reescribir la función objetivo en términos de las nuevas matrices nuevas:
$$
J(\theta ) = \frac{1}{n}\underbrace{(W\Theta - T)^ T}_{1 \times n}\underbrace{(W\Theta - T)}_{n \times 1} = \frac{1}{n}\sum _{i=1}^ n \left(\left(\sum _{j=1}^ d W_{ij}\Theta _ j \right) - T_ i\right)^2$$.

Con esto, la derivada que estabamos buscando tiene la forma de un gradiente 
$$\nabla _{\theta }J = \frac{2}{n}\underbrace{W^ T}_{d \times n}\underbrace{(W\theta - T)}_{n \times 1}\; \; $$

con esta optimización quedamos al final simplemente con 
$$W^T \cdot W \cdot \theta-W^T\cdot T=0 \; \; \; \; \iff \;\;\;\; \theta=(W^TW)^{-1}WT$$

Esto se conoce en la jega matemática como $\textbf{closed form OLS solution}$.

Primero nos tenemos que preocupar con algunos riesgos relacionados con que $W$ no sea invertible y después con el gran costo computacional relacionado con invertir una matriz. 

## Regularization: Ridge Regression
A pesar de no ser la única, vamos a usar una función regularizadora conocida como $\textit{Ridge Regression}$:
$$
J_{\text {ridge}}(\theta , \theta _0) = \frac{1}{n}\sum _{i = 1}^ n\left(\theta ^ Tx^{(i)} + \theta _0 - y^{(i)}\right)^2 + \lambda \| \theta \| ^2$$

Esto no sólo evita problemas relacionados con que $W$ no sea invertible, sino también overfitting. Latimosamente optmizar usando $\theta_0$ es difícil, por esta razón vamos a ignorar temporalmente el offset y si es necesario, depués lo devolvemos. Teniendo esto en cuenta, para optimizar la función objetivo:
$$\nabla _{\theta }J_\text {ridge} = \frac{2}{n}W^ T(W\theta - T) + 2 \lambda \theta \; \;=\frac{2}{n}\sum _{i = 1}^ n\left(\theta ^ Tx^{(i)} + \theta _0 - y^{(i)}\right)x^{(i)} + 2\lambda \theta=0 .$$

$$\theta^*_{\text{ridge}}=(W^ TW + n \lambda I)^{-1}W^ TT$$


Acá, $\lambda$ da información acerca de qué tan fuerte estamos regularizando e $I$ es la matriz identidad.

A esta función se le puede aplicar gradient descent, y a pesar de todo, en este preceso es costoso ir calculando los gradientes.
Si se tiene un data-set demasiado grande, conviene un poco más utilizar stochastic gradient descent.

* Stochastic Gradient Descent: (Se puede usar si el gradientetiene forma de suma)

    - Tomar un elemento de la sumatoria aletoria.
    - Hacer un pequeño paso en esa dirección, el tamaño del paso debe ser inversamente proporcional al número de pasos dados. ($1/t$)

## Código MIT

In [1]:
# In all the following definitions:
# x is d by n : input data
# y is 1 by n : output regression values
# th is d by 1 : weights
# th0 is 1 by 1 or scalar
import numpy as np
def lin_reg(x, th, th0):
    return np.dot(th.T, x) + th0

def square_loss(x, y, th, th0):
    return (y - lin_reg(x, th, th0))**2

def mean_square_loss(x, y, th, th0):
    # the axis=1 and keepdims=True are important when x is a full matrix
    return np.mean(square_loss(x, y, th, th0), axis = 1, keepdims = True)

In [None]:
def d_lin_reg_th(x, th, th0):
    """returns the gradient of lin_reg(x, th, th0) with respect to th"""
    return x

def d_square_loss_th(x, y, th, th0):
    """returns the gradient of square_loss(x, y, th, th0) with respect to th."""
    return -2 * (y - lin_reg(x, th, th0)) * d_lin_reg_th(x, th, th0)

def d_mean_square_loss_th(x, y, th, th0):
    """returns the gradient of mean_square_loss(x, y, th, th0) with respect to th."""
    return np.mean(d_square_loss_th(x, y, th, th0), axis = 1, keepdims = True)

In [None]:
def d_lin_reg_th0(x, th, th0):
    """returns the gradient of lin_reg(x, th, th0) with respect to th0"""
    return np.ones((1, x.shape[1]))

def d_square_loss_th0(x, y, th, th0):
    """returns the gradient of square_loss(x, y, th, th0) with respect to th0."""
    return -2 * (y - lin_reg(x, th, th0)) * d_lin_reg_th0(x, th, th0)

def d_mean_square_loss_th0(x, y, th, th0):
    """returns the gradient of mean_square_loss(x, y, th, th0) with respect to th0."""
    return np.mean(d_square_loss_th0(x, y, th, th0), axis= 1, keepdims = True)

Para implementar el ridge objective

In [None]:
# x is d by n : input data
# y is 1 by n : output regression values
# th is d by 1 : weights
# th0 is 1 by 1 or scalar
def ridge_obj(x, y, th, th0, lam):
    return np.mean(square_loss(x, y, th, th0), axis = 1, keepdims = True) + lam * np.linalg.norm(th)**2
def d_ridge_obj_th(x, y, th, th0, lam):
    return d_mean_square_loss_th(x, y, th, th0) + 2* lam * th

def d_ridge_obj_th0(x, y, th, th0, lam):
    return d_mean_square_loss_th0(x, y, th, th0)

Para el Stochstic Gradient Descent

In [None]:
def num_grad(f):
    def df(x):
        g = np.zeros(x.shape)
        delta = 0.001
        for i in range(x.shape[0]):
            xi = x[i,0]
            x[i,0] = xi - delta
            xm = f(x)
            x[i,0] = xi + delta
            xp = f(x)
            x[i,0] = xi
            g[i,0] = (xp - xm)/(2*delta)
        return g
    return df
def sgd(X, y, J, dJ, w0, step_size_fn, max_iter):
    """"
    INPUTS:
    X: a standard data array (d by n)
    y: a standard labels row vector (1 by n)
    J: a cost function whose input is a data point (a column vector), a label (1 by 1) and a weight vector w (a column vector) (in that order), and which returns a scalar.
    dJ: a cost function gradient (corresponding to J) whose input is a data point (a column vector), a label (1 by 1) and a weight vector w (a column vector) (also in that order), and which returns a column vector.
    w0: an initial value of weight vector ww, which is a column vector.
    step_size_fn: a function that is given the (zero-indexed) iteration index (an integer) and returns a step size.
    max_iter: the number of iterations to perform
    
    OUTPUTS:
    w: the value of the weight vector at the final step
    fs: the list of values of JJ found during all the iterations
    ws: the list of values of ww found during all the iterations
    """
    n = y.shape[1]
    prev_w = w0
    fs = []; ws = []
    np.random.seed(0)
    for i in range(max_iter):
        j = np.random.randint(n)
        Xj = X[:,j:j+1]; yj = y[:,j:j+1]
        prev_f, prev_grad = J(Xj, yj, prev_w), dJ(Xj, yj, prev_w)
        fs.append(prev_f); ws.append(prev_w)
        if i == max_iter - 1:
            return prev_w, fs, ws
        step = step_size_fn(i)
        prev_w = prev_w - step * prev_grad