# Regresion multivariada

Supongamos que tenemos un conjunto de caracteristicas $X = X_1,X_2...X_j...X_n$ para realizar una  predicción $y$ con valores esperados $\hat{y}$.  

Cada X, puede ser escrito como:
 $X_1 = x_1^{(1)},x_1^{(2)}, x_1^{(3)}...x_1^{(m)}$,

 $X_2 = x_2^{(1)},x_2^{(2)}, x_2^{(3)}...x_2^{(m)}$,

 .

 .

 .

 $X_n = x_n^{(1)},x_n^{(2)}, x_n^{(3)}...x_n^{(m)}$.


Siendo n el número de caracteristicas y m el número de datos de datos,
$\hat{y} = \hat{y}_1^{(1)}, \hat{y}_1^{(2)}...\hat{y}_1^{(m)} $, el conjunto de datos etiquetados  y $y = y_1^{(1)}, y_1^{(2)}...y_1^{(m)} $ los valores predichos por un modelo




Lo anterior puede ser resumido  como:



|Training|$\hat{y}$      | X_1  | X_2  |  .  | .|. |. | X_n|
|--------|-------|------|------|-----|--|--|--|----|
|1|$\hat{y}_1^{1}$ | $x_1^{1}$|$x_2^{1}$| .  | .|. |. | $x_n^{1}$|
|2|$\hat{y}_1^{2}$ | $x_1^{2}$|$x_2^{2}$| .  | .|. |. | $x_n^{2}$|
|.|.         | .        |.| .  | .|. |. | |
|.|.         | .        |.| .  | .|. |. | |
|.|.         | .        |.| .  | .|. |. | |
|m|$\hat{y}_1^{m}$ | $x_1^{m}$  |$x_2^{m}$| .  | .|. |. | $x_n^{m}$|


y el el modelo puede ser ajustado como sigue:

Para un solo conjunto de datos de entrenamiento tentemos que:

$y = h(\theta_0,\theta_1,\theta_2,...,\theta_n ) = \theta_0 + \theta_1 x_1+\theta_2 x_2 + \theta_3 x_3 +...+ \theta_n x_n $.

\begin{equation}
h_{\Theta}(x) = [\theta_0,\theta_1,...,\theta_n ]\begin{bmatrix}
1^{(1)}\\
x_1^{(1)}\\
x_2^{(1)}\\
.\\
.\\
.\\
x_n^{(1)}\\
\end{bmatrix} = \Theta^T X^{(1)}
\end{equation}



Para todo el conjunto de datos, tenemos que:

Sea $\Theta^T = [\theta_0,\theta_1,\theta_2,...,\theta_n]$ una matrix $1 \times (n+1)$ y  


\begin{equation}
X =
\begin{bmatrix}
1& 1 & 1 & .&.&.&1\\
x_1^{(1)}&x_1^{(2)} & x_1^{(3)} & .&.&.&x_1^{(m)}\\
.&. & . &.&.&.& .\\
.&. & . & .&.&.&.\\
.&. & . & .&.&.&.\\
x_n^{(1)}&x_n^{(2)} & x^{(3)} & .&.&.&x_n^{(m)}\\
\end{bmatrix}_{(n+1) \times m}
\end{equation}




luego $h = \Theta^{T} X $ con dimension $1\times m$




La anterior ecuación, es un hiperplano en $\mathbb{R}^n$. Notese que en caso de tener una sola característica, la ecuación puede ser análizada según lo visto en la sesión de regresion lineal.


Para la optimización, vamos a definir la función de coste **$J(\theta_1,\theta_2,\theta_3, ...,\theta_n )$** , como la función  asociada a la minima distancia entre dos puntos, según la metrica euclidiana.

- Metrica Eculidiana

\begin{equation}
J(\theta_1,\theta_2,\theta_3, ...,\theta_n )=\frac{1}{2m} \sum_{i=1}^m ( h_{\Theta} (X)-\hat{y}^{(i)})^2 =\frac{1}{2m} \sum_{i = 1}^m (\Theta^{T} X - \hat{y}^{(i)})^2
\end{equation}

Otras métricas pueden ser definidas como sigue en la siguiente referencia.  [Metricas](https://jmlb.github.io/flashcards/2018/04/21/list_cost_functions_fo_neuralnets/).

Nuestro objetivo será encontrar los valores mínimos
$\Theta = \theta_0,\theta_1,\theta_2,...,\theta_n$ que minimizan el error, respecto a los valores etiquetados y esperados $\hat{y}$


Para encontrar $\Theta$ opmitimo, se necesita  minimizar la función de coste, que permite obtener los valores más cercanos,  esta minimización podrá ser realizada a través de diferentes metodos, el más conocido es el gradiente descendente.








## Gradiente descendente

Consideremos la función de coste sin realizar el promedio  de funcion de coste:
\begin{equation}
\Lambda^T =
\begin{bmatrix}
(\theta_0 1 + \theta_1 x_1^1+\theta_2 x_2^2 + \theta_3 x_3^3 +...+ \theta_n x_n^n - \hat{y}^{1})^2 \\
(\theta_0 1+ \theta_1 x_1^1+\theta_2 x_2^2 + \theta_3 x_3^3 +...+ \theta_n x_n^n - \hat{y}^{2})^2\\
.\\
.\\
.\\
(\theta_0 1 + \theta_1 x_1^m+\theta_2 x_2^m + \theta_3 x_3^m +...+ \theta_n x_n^m - \hat{y}^{m})^2\\
\end{bmatrix}
\end{equation}

$\Lambda= [\Lambda_1,\Lambda_2, ...,\Lambda_m]$

$J = \frac{1}{2m} \sum_{i}^m \Lambda_i $

El gradiente descente, puede ser escrito como:

\begin{equation}
\Delta \vec{\Theta} =  - \alpha \nabla J(\theta_0, \theta_1,...,\theta_n)
\end{equation}

escogiendo el valor j-esimo tenemos que:

\begin{equation}
\theta_j :=  - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_j}
\end{equation}

Aplicando lo anterior a a funcion de coste asociada a la metrica ecuclidiana, tenemos que:

Para $j = 0$,


\begin{equation}
\theta_0 :=  - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_0} = \frac{1}{m}\alpha \sum_{i=1}^m (\theta_j X_{ji} - \hat{y}^{(i)}) 1
\end{equation}



Para $0<j<n $

\begin{equation}
\theta_j :=  - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_j} = \frac{1}{m} \alpha\sum_{i=1}^m (\theta_{j} X_{ji} - \hat{y}^{(i)}) X_j
\end{equation}

donde X_j es el vector de entrenamiento j-esimo.

Lo  anterior puede ser generalizado como siguem, teniendo presente que $X_0 = \vec{1}$


Para $0\leq j<n$,

\begin{equation}
\theta_j :=  - \alpha \frac{\partial J(\theta_0, \theta_1,...\theta_j...,\theta_n)}{\partial \theta_j} = \frac{1}{m} \alpha\sum_{i=1}^m (\theta_j X_{ji} - \hat{y}^{(i)}) X_j
\end{equation}



# Vectorizando el grandiente descendete, tenemos que:
\begin{equation}
\nabla J = \Lambda^T X
\end{equation}

Luego:

\begin{equation}
\Theta=\Theta-\alpha \nabla J
\end{equation}


# Laboratorio 05
Objetivo: Programar una regresión multivariada


1. Para simular un conjunto de características $x_1$ , $x_2$,..., $x_n$ trabajaremos en la primera parte con dos características de datos aleatorios que presentan un plano y mostraremos que los párametros optimizados se corresponden con el valor esperado.

- Definir la ecuación  $y = 2.1*x_1 - 3.1*x_2$, y generar números aleatorios que pertenecen al plano.

- Realizar un diagrama 3D de los puntos generados aleatoriamente.


Nuestro objetivo será encontrar los valores $\theta_0 = 0, \theta_1=2.1, \theta_1=3.1$ que mejor ajustar el plano, empleando cálculos vectorizados.

2. Inicializar conjunto de parámetros $\Theta$ de manera aleatoria.
3. Construir la matrix X con dimensiones $(n+1, m)$, m es el numero de datos de entrenamiento y (n) el número de caracteristicas.
4. Calcular la función de coste(revise cuidosamente las dimensiones de cada matriz):

  - $h = \Theta^{T} X $
  - $\Lambda= (h -Y) $
  - $\Lambda*= (h -Y)^2 $
  - $\Lambda= [\Lambda_1,\Lambda_2, ...,\Lambda_m]$
  - $J = \frac{1}{2m} \sum_{i}^m \Lambda_i $

5. Aplicar el gradiente descendente:
  - Encontrar el gradiente.
    $\nabla J$ = \Lambda X.T
  
  - Actualizar los nuevos parametros:
    $\Theta_{n+1}=\Theta_{n}-\alpha\nabla J$


6. Iterar para encontrar los valores $\Theta$ que se ajustan el plano.

##R//

In [1]:
def model(theta, X):
  return theta.T@X

def costo(h, Y):
  J= (h-Y)**2
  return J.mean()

def update_params(theta, h, Y, learning_rate):
  """
  Gradiente descendente
  """
  grad = np.dot((h-Y), X.T).T
  theta = theta - learning_rate*grad
  return theta

###1. Para simular un conjunto de características $x_1$ , $x_2$,..., $x_n$ trabajaremos en la primera parte con dos características de datos aleatorios que presentan un plano y mostraremos que los párametros optimizados se corresponden con el valor esperado.

- Definir la ecuación  $y = 2.1*x_1 - 3.1*x_2$, y generar números aleatorios que pertenecen al plano.

- Realizar un diagrama 3D de los puntos generados aleatoriamente.


Nuestro objetivo será encontrar los valores $\theta_0 = 0, \theta_1=2.1, \theta_1=3.1$ que mejor ajustar el plano, empleando cálculos vectorizados.



In [2]:
import numpy as np
import matplotlib.pylab as plt
import pandas as pd
import plotly.graph_objects as go

In [3]:
N=100
x1=np.linspace(-1, 1, N)
x2=np.linspace(-1, 1, N)
X_1,X_2 =np.meshgrid(x1, x2)
Y = 2.1 * X_1 + 3.1 * X_2

In [4]:
x_1= 2*np.random.random(N)-1
x_2= 2*np.random.random(N)-1
y_label = 0.2 * x_1 - 0.5 * x_2

In [5]:
fig = go.Figure(go.Surface(x=X_1, y=X_2, z=Y))
fig.update_layout(title='Y = 2.1 * X_1 + 3.1 * X_2')
fig.add_trace(go.Scatter3d(x=x_1, y=x_2, z=y_label, mode='markers', marker=dict(size=4, color='blue')))
fig.show()

###2. Inicializar conjunto de parámetros $\Theta$ de manera aleatoria.


In [6]:
theta=np.random.random(3).reshape(3, 1)
theta

array([[0.17505194],
       [0.27444261],
       [0.5734434 ]])

###3. Construir la matrix X con dimensiones $(n+1, m)$, m es el numero de datos de entrenamiento y (n) el número de caracteristicas.


In [7]:
df = pd.DataFrame({"x1":x_1, "x2":x_2, "y":y_label})
df["ones"]=1
X = df[["ones", "x1", "x2"]].values.T
Y = df.y.values.reshape(1, N)

###4. Calcular la función de coste(revise cuidosamente las dimensiones de cada matriz):

  - $h = \Theta^{T} X $
  - $\Lambda= (h -Y) $
  - $\Lambda*= (h -Y)^2 $
  - $\Lambda= [\Lambda_1,\Lambda_2, ...,\Lambda_m]$
  - $J = \frac{1}{2m} \sum_{i}^m \Lambda_i $




In [8]:
Niter=100
h = model(theta, X)
J = costo(h, Y)
J

0.4224975901578361

###5. Aplicar el gradiente descendente:
  - Encontrar el gradiente.
  $\nabla J = \Lambda X.T$
  
  - Actualizar los nuevos parametros:
  $\Theta_{n+1}=\Theta_{n}-\alpha\nabla J$

In [9]:
grad = np.dot((h-Y), X.T).T
learning_rate=0.01
theta = theta - learning_rate*grad

In [10]:
theta

array([[-0.01347544],
       [ 0.32205052],
       [ 0.20729502]])

###6. Iterar para encontrar los valores $\Theta$ que se ajustan el plano.

Vamos a generar nuevos valores aleatorios de theta, par encontrar distintos valores de j y por lo tanto distintos valores de J

In [11]:
theta=np.random.random(3).reshape(3, 1)
learning_rate=0.01
Niter=100
J = np.zeros(Niter)

for i in range(0, Niter):
  h = model(theta, X)
  J[i] = costo(h, Y)
  theta = update_params(theta, h, Y, learning_rate)

In [12]:
theta

array([[-4.74093546e-16],
       [ 2.00000000e-01],
       [-5.00000000e-01]])