# Regresión Lineal

In [None]:
!git clone https://github.com/nubol23/CursoMLInstituto.git

In [None]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt

from ipywidgets import interact, interactive, fixed, interact_manual
import ipywidgets as widgets

import ipyvolume as ipv

In [None]:
x= np.arange(0,40)
x1 = np.linspace(0,40)
np.random.seed(100)
y = 3.4 + 6.7*x + np.random.randn(x.shape[0])*50

In [None]:
plt.scatter(x,y)
plt.ylabel("$y=f(x)$")
plt.xlabel("x")
plt.ylim(0,400)

Lo que buscamos es encontrar una función que pueda "replicar" nuestros datos de manera coherente, parece razonable plantear una relación lineal para nuestro ejemplo

$$ y_i = \theta_0 + \theta_1 x_i + \epsilon_i$$

PARTE DETERMINISTICA:  
$$  \theta_0 + \theta_1 x_i $$

PARTE ESTOCASTICA:
$$\epsilon_i$$

In [None]:
def f_update(t0,t1):
    plt.scatter(x,y)
    plt.ylabel("y")
    plt.xlabel("x")
    plt.plot(x, t0 + t1*x, c="purple")
    plt.ylim(0,400)

In [None]:
interactive(f_update, t0=(-100,200), t1=(-30,30))

# Necesitamos una medida para saber si estamos cerca de nuestro objetivo:

$$ y_i - (\theta_0 + \theta_1 x_i) = \epsilon_i$$

* $\theta_0$ y $\theta_1$ son parámetros poblacionales, y no los llegaremos a conocer
* Nos aproximaremos a ellos a través de un *ESTIMACIÓN DE PARÁMETROS*
* ADVERTENCIA por temas de notación utilizaremos $\theta_0$, $\theta_1$ en lugar de  $\hat{\theta_0}$, $\hat{\theta_1}$.  

$$h(x_i|\Theta) = \hat{y_i} = \theta_0 + \theta_1 x_i $$
Por simplificar la notación utilizaremos solamente:
$$ h(x_i)$$ en lugar de: $$h(x_i|\Theta)$$

### Definimos como métrica de error, el error cuadrático medio

$$ \frac{1}{2} (y_i - h(x_i))^2 $$

### Sumando los errores

$$ \sum_{i=1}^m{\epsilon_i}  \sum_{i=1}^m{y_i - h(x_i)} $$


* Al existir errores positivos y negativos usar una sumatoria simple tenderá a "eliminar" los errores. 
* Utilizamos la sumatoria de los cuadrados de los errores

 $$ \sum_{i=1}^m{\epsilon_i^2} = \sum_{i=1}^m Loss(y_i, h(x_i))  = \sum_{i=1}^m{[y_i - h(x_i)]^2} $$

### Definimos la funcion de costo como

 $$\tiny J(\Theta) =  \frac{1}{2m} \sum_{i=1}^m{[y_i - h(x_i)]^2} $$

In [None]:
def f_update_e(t0,t1):
    plt.scatter(x,y)
    plt.ylabel("y")
    plt.xlabel("x")
    plt.plot(x, t0 + t1*x, c="purple")
    plt.ylim(0,400)
    print(round(1/len(y)*round(np.sum(np.square(y - (t0 + t1*x))),2 )))

In [None]:
interactive(f_update_e, t0=(-100,200), t1=(-30,30))

 ### Nuestro objetivo es: MINIMIZAR LA FUNCIÓN DE COSTO
 $$\min_{\Theta} \ \  J(\Theta) =  \frac{1}{2m}\sum_{i=1}^m{[y_i - h(x_i)]^2} $$

Tendremos 2 formas de solucionar este problema.  
* De manera Iterativa
* De manera Analítica

### Solución Analítica

Derivamos nuestra función de costo respecto a los parámetros de nuestro vector $\Theta$

$$\min_{\Theta} \ \  J(\Theta) =  \sum_{i=1}^m{[y_i - h(x_i)]^2} $$

Reexpresamos en términos de $\theta_i$

$$\min_{\Theta} \ \  J(\Theta) =  \sum_{i=1}^N{[y_i - \theta_0 - \theta_1x_i]^2} $$

Derivamos y obtenemos el gradiente: 

$$\frac{\partial J}{\partial \theta_0} = 2\sum{(y_i−\theta_0 − \theta_1 x_i)}(-1)$$

$$\frac{\partial J}{\partial \theta_1} = 2\sum{(y_i−\theta_0 − \theta_1 x_i)}(-x_i)$$

Igualamos a 0 

$$\nabla J = \;
\begin{bmatrix}
 \frac{\partial J}{\partial \theta_0} \\
 \frac{\partial J}{\partial \theta_1} 
\end{bmatrix}
=
 \begin{bmatrix}
      2\sum{(y_i−\theta_0 − \theta_1 x_i)}(-1) \\
      2\sum{(y_i−\theta_0 − \theta_1 x_i)}(-x_i)\\
    \end{bmatrix}
     = 
     \begin{bmatrix}
     0 \\ 
     0
     \end{bmatrix}
     $$

$$  \begin{bmatrix}
      \sum{(y_i−\theta_0 − \theta_1 x_i)} \\
      \sum{(y_i−\theta_0 − \theta_1 x_i)}(x_i)\\
    \end{bmatrix}
     = 
     \begin{bmatrix}
     0 \\ 
     0
     \end{bmatrix}
     $$

Resolviendo el sistema de ecuaciones obtenemos:

$$\theta_0^* = \bar{y} - \theta_1 \bar{x}$$

$$\theta_1^* = \frac{\sum x_i y_i - \bar{y}\sum x_i}{\sum x_i^2 - \bar{x} \sum{x_i}}$$

## Esto se puede generalizar a un modelo lineal con más variables:

$$ y_i = \theta_0 + \theta_1x_{1i} + \theta_2x_{2i} + ... + \theta_kx_{ki} + \epsilon_i $$

$$ Y = X\Theta + U $$

### De manera similar, se puede minimizar la función de costo de la función con k variables, llegando al siguiente resultado: 

$$ \Theta^* = (X'X)^{-1}X'Y$$

## Leemos los datos

In [None]:
ex2 = pd.read_csv("CursoMLInstituto/RegresionLineal/ejemplo2.csv", index_col=0)

ex2.head()

In [None]:
ipv.quickscatter(ex2["X1"],ex2["X2"],ex2["Y"], size=1, marker="sphere")

## Implementamos la optimización matricial

$$ \Theta^* = (X'X)^{-1}X'Y$$

In [None]:
def reg_lin_Mat(X,Y):
    """
    X: Matriz de dimensiones (n,k+1) primera columna de 1
    Y: Vector de salidas
    """
    return np.linalg.inv(X.T@X)@(X.T@Y)

In [None]:
Y = ex2["Y"]
type(Y)
Y.head()

Y = Y.values ## Cambiando el tipo de datos a arrays de numpy

In [None]:
X = ex2.iloc[:,1:].copy()
X.insert(0,"X0",1) #index, name, value
X.head()

In [None]:
X = X.values

In [None]:
Theta = reg_lin_Mat(X,Y)

print(Theta)

In [None]:
y_hat = X@Theta

In [None]:
e = Y - y_hat
plt.plot(e)
plt.show()

# Solucion Iterativa

In [None]:
X = np.arange(-2, 2, 0.25)
Y = np.arange(-2, 2, 0.25)
X, Y = np.meshgrid(X, Y)
R = np.sqrt(X**2 + Y**2)
Z = np.sin((1/2)*X**2 - (1/4)*Y**2 + 3)*np.cos(2*X + 1 - np.exp(Y))
colormap = plt.cm.get_cmap('RdYlGn')
znorm = Z - Z.min()
znorm /= znorm.ptp()
znorm.min(), znorm.max()
color = colormap(znorm)

In [None]:
ipv.figure()
ipv.plot_surface(X, Y, Z, color=color[..., :3])
ipv.show()

### Gradient Descent

Obtenemos el gradiente:
    
$$\frac{\partial J}{\partial \theta_0} = \frac{1}{N}\sum{(h(x_i) - y_i)}$$

$$\frac{\partial J}{\partial \theta_1} = \frac{1}{N}\sum{(h(x_i) - y_i)}(x_i)$$

##### Regla de ACTUALIZACIÓN DE LOS PARÁMETROS

$$ \theta_i := \theta_i - \alpha \frac{\partial J}{\partial \theta_i}$$

$$\min_{\Theta} \ \  J(\Theta) =  \frac{1}{2N}\sum_{i=1}^N{[h(X_i)  -y_i]^2 } $$

In [None]:
def costFunc(X,Y,Theta_gd):
    """
    Calcula la función de costo con un Theta dado
    y el gradiende de la regresión lineal 
    """
    h_x = X@Theta_gd
    e2  = np.square(h_x - Y)
    J = np.sum(e2)/2*Y.shape[0]
    J_grad = (1/Y.shape[0])*(X.T@(h_x-Y))
    return J, J_grad

Matricialmente
$$ \nabla J = \frac{1}{N}X'(X\Theta - Y) $$

In [None]:
np.random.seed(2018)
Theta_gd = np.random.randn(4)

In [None]:
J , J_grad = costFunc(X,Y,Theta_gd)
J_grad

$$ \theta_i := \theta_i - \alpha \frac{\partial J}{\partial \theta_i}$$

In [None]:
def act_Theta(Theta,J_grad, alpha = 0.01):
    return Theta - alpha*J_grad

### Gradient Descent

In [None]:
def gradientDescent(X,Y,Theta_gd,alpha=0.01,iteraciones=1000):
    histJ = []
    Jgrad = []
    J , J_grad = costFunc(X,Y,Theta_gd)
    histJ.append(J)
    for i in range(1,iteraciones+1):
        Theta_gd = act_Theta(Theta_gd,J_grad,alpha=alpha)
        J , J_grad = costFunc(X,Y,Theta_gd)
        histJ.append(J)
        Jgrad.append(J_grad)
        if i%500 ==0:
            print("Función de costo en la iteración ", i, ": ",round(J,2))
    return Theta_gd , histJ, Jgrad

### Optimizamos

In [None]:
Theta_opt , hist_J , Jhist= gradientDescent(X,Y,Theta_gd,
                                      alpha=0.001,
                                     iteraciones=10**5)
plt.plot(hist_J)

## Evaluamos

In [None]:
costFunc(X,Y,reg_lin_Mat(X,Y)) # La funcion de costo con los parámetros óptimos

In [None]:
print(Theta) # Solucion Analïtica 
print(Theta_opt) #Soluciòn iterativa

Jhist[-1]

### Visualizamos

In [None]:
pred = X@Theta

print(pred.shape)

In [None]:
ipv.quickscatter(X[:, 1], X[:, 2], pred, size=1, marker="sphere")

# Sklearn

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
model = LinearRegression()

model.fit(X, Y)

In [None]:
pred = model.predict(X)