# Clase 2: Modelos lineales y su conectividad con redes neuronales

Objetivo de la clase: plantear un esquema de trabajo donde se establezca un modelo y, definir su importancia en el proceso.

Para definir un modelo es necesario plantear la siguiente pregunta: ¿para qué servirá tal modelo? es decir, si se trabaja con un modelo de predicción, se deberá tener en cuenta el sentido de por qué se está utilizando ese modelo.  

El propósito de la clase es abordar el tema de regresión en una tarea de [Aprendizaje Supervisado](https://trusting-payne-50ed4b.netlify.app/introduccion.html#supervisado-y-no-supervisado).
¿Cómo se define que un problema es resuelto bajo el esquema de aprendizaje supervisado?
aprender en el sentido de aprendizaje máquina (ML), es generar algoritmos que sean capaces de observar un fenómeno (descriptores de un objeto ***x***), y observar en un esquema supervisado la respuesta que nos interesa ***y*** para que el agente de aprendizaje produzca reglas para mejorar el desempeño en alguna tarea. Esto es, aprender de una función ***h*** la relación de las entradas ***x*** con las salidas ***y***.

Se dice que el aprendizaje es **supervisado** porque se tiene conocimiento de lo que se desea predecir, para este caso de predicción, se tiene la capacidad de medir lo que se quiere predecir. Por ejemplo: la estatura de una persona o el ingreso mensual de una familia, todo esto, a partir de ciertos descriptores.

La regla de asociación que deseamos aprender es la siguiente: 
$$y=h(x)\, .$$

es decir, imaginar a ***y*** una variable dependiente como función de un conjunto de variables independientes ***x*** .

## 2.1 Regresión lineal

Deseamos entablar una relación entre ***x*** y ***y***. Es por ello que, pensamos en que ***x*** es un conjunto de descriptores y es denotado por medio de un vector ya que, suponemos que hay ***p*** descriptores posibles:
$X \in \mathbb{R}^P \, .$

Un ejemplo de lo anterior, es cuando consideramos el problema de predecir el precio de venta de una casa:
$Y \in \mathbb{R} \, .$

El conjunto de predictores posibles podrían ser el tamaño de la casa, ubicación de la casa, antiguedad de la casa, número de cuartos, número de baños, entre otros. 
Se asume que hay una regresión lineal entre los datos de entrada y los datos de salida, donde los descriptores se combinan de manera lineal con diferentes pesos para predecir la salida.

#### Datos de entrada:
$$X\in \mathbb{R}^P \, . $$

#### Datos de salida:
$$Y \in \mathbb{R} \, .$$ 

Si deseamos estimar el precio de venta de una casa, tomando como predictores la antiguedad y el área de la casa, entonces el conjunto de predictores es un [vector bivariado](https://www2.stat.duke.edu/courses/Spring12/sta104.1/Lectures/Lec22.pdf)
considerando un peso referente a la antiguedad y un peso referente al área. Mencionado lo anterior, se establece la siguiente relación lineal entre un conjunto de descriptores: $X_{antiguedad}$ 
y $X_{área}$ para predecir una etiqueta ***Precio***, en este caso el objetivo es predecir el precio de venta de una casa:


$$Precio = W_{ant} \, X_{antiguedad} + W_{área} X_{área} + b \, .$$ 

Dado el modelo anterior, es requerida una constante adicional ***b*** que ayude a describir el precio promedio de un objeto, tal constante es un descriptor adicional que no depende de las propiedades que estamos observando. El modelo es un vector de pesos de dos dimensiones y ***b*** representa el precio promedio de una casa:

$$X= \begin{bmatrix}
X_{antiguedad}\\
X_{área}
\end{bmatrix} \in \mathbb{R}^2 \hspace{2em}W \in \mathbb{R}^2 \, . \newline \hspace{11em} b  \in \mathbb{R} \, .$$ 

Mencionado lo anterior, definimos la siguiente notación formal donde queremos predecir una cantidad a través de la combinación lineal de ciertas características. La siguiente ecuación solo describe una casa en particular:

$$\hat{y} = W_1X_1 + W_2X_2 + ... + W_P X_P + b \, .$$

Suponiendo que tenemos una colección de casas, reescribimos la ecuación anterior con un superíndice, haciendo referencia a que podemos tener todo un conjunto de observaciones para entrenar dicho modelo:

$$\hat{y}^ {(i)} = W_1X_1^ {(i)}+ W_2X_2^ {(i)} + ... + W_PX_P^ {(i)} + b \, . \hspace{1em} i = 1,...,n \, .$$

Utilizando notación algebraica con vectores, el producto anterior, más la suma de la combinación de ***W*** con ***X*** como vectores, más ***b*** para cada una de las observaciones ***i***, es representado de la siguiente forma:

$$\hat{y}^ {(i)} = W ^T X ^{(i)} + b \, . \hspace{1em} i = 1,...,n \, .$$

Generalizando en términos matriciales:

$$\hat{y} \hspace{1em} = \hspace{1em} XW \hspace{1em}+ \hspace{1em}b . \newline n*1 \hspace{1em} n*p \hspace{1em} p*1 \hspace{1em} n*1$$

Tenemos que, $\hat{y}$ es un vector ***nx1***, dentro de la matriz ***X*** estamos incluyendo todos los datos que tenemos como una matriz de ***nxp***. ***W*** es un vector de pesos de dimensión ***px1*** (numero de descriptores que tenemos) y, suponemos que estamos multiplicando ***b*** por un vector de unos de tamaño ***n***, de tal forma que, tenemos un vector de ***nx1***, manipulando todo de manera matricial.

Nota: Para escoger ***W*** y ***b*** en un problema, tenemos que definir una métrica que indique qué tan bien ajusta la elección que hagamos sobre ***W*** y ***b***, tal métrica es denominada **función de pérdida**.


### Función de Pérdida

La función de pérdida es denotada de la siguiente forma:
$$l^{(i)} (\hat{y}, {y}) = l^{(i)} (w, b, x, y) \, . $$ 

cuyo propósito es evaluar nuestra predicción del modelo lineal contra lo que registran los datos, es por ello que, tenemos una función de pérdida para cada una de nuestras observaciones denotada por el superíndice ***i***, tal función de pérdida será función de ***w, b, x, y*** en donde, ***(w, b)*** son variables que podemos modificar y ***(x, y)*** estan dadas por la informacion de la tarea anteriormente recabada.

Una función de pérdida para tareas de clasificación es la pérdida cuadratica, donde tenemos: 

$$l^{(i)} (\hat{y}, {y}) = l^{(i)} (w, b, x, y) \, . $$ 
$$= \frac{1}{2} (\hat{y}^ {(i)} - {y} ^ {(i)}) ^ 2 \, . $$

Derivado lo anterior, tenemos que, $\hat{y}$ por construcción es:

$$= \frac{1}{2} ( W ^T X ^{(i)} + b - y ^{(i)}) ^2 \, . $$

Minimizando la función de pérdida lograremos encontrar la mejor recta posible, es decir, los mejores valores posibles para ***W*** y para ***b*** con la finalidad de realizar la predicción.

En la siguiente gráfica, el eje de las ***x*** representa el atributo y el eje de las ***y*** la respuesta, dicha predicción es representada por medio de una línea. La función de pérdida esta evaluando que tan lejos esta la recta de cada uno de los valores observados:
![gr%C3%A1fica-2.jpg](attachment:gr%C3%A1fica-2.jpg)

Esto es una función de pérdida para cada individuo, es por ello que, si deseamos combinar todo lo que pasa en un conjunto de datos requerimos promediar. Entonces, se puede definir una función de pérdida global denotada por:

$${\mathcal L_n (W,b)}=  \frac{1}{n} \sum_{i=1}^n l^{(i)} (W,b) \, .$$

Dada la función de pérdida anterior, es importante mencionar que, el subíndice ***n*** representa el promedio de los ***n*** puntos, es decir, el promedio de las pérdidas individuales. En este caso, no consideramos a ***(x,y)*** como variables que se tienen que ajustar. Para definir los mejores valores y dibujar la recta, se debe minimizar la función de pérdida para encontrar buenos candidatos:

$$ (W^{*},b^{*}) = \arg\min \hspace{.5em} {\mathcal L_n (W,b)} \, . \newline (W,b) $$

Existe una solución análitica para la regresión lineal, para ello adicionamos una entrada más al valor ***x*** con un valor
igual a 1, incorporando un vector de pesos de dimension ***P+1***, que ya incluye al coeficiente **b**.

#### Solución:
$$X \in \mathbb{R}^P \, . \newline \hat{y} = W ^T X + b :  \newline X \in \mathbb{R}^{P+1} , W \in \mathbb{R}^{P+1} \, . \newline $$
Entonces, la recta será visualizada de la siguiente forma, bajo el suspuesto de que podemos incorporar una variable adicional:

$$\hat{y} = W ^T X \, .$$

Esta es una función de pérdida empírica porque estamos promediando lo que está sucediendo con los datos:

$${\mathcal L_n (W)}=  \frac{1}{2n} \sum_{i=1}^n (W^T X ^{(i)} - y ^{(i)})  ^2 \, .$$

Podemos pensar que, estamos sumando las entradas al cuadrado de un vector con las componentes descritas anteriormente, de tal forma que, se puede reescribir la función anterior. Esto es, calculando la norma II de la diferencia:

$$ =  \frac{1}{2n} \parallel XW - y \parallel ^ 2 \, .$$

Lo que permite hacer la solución anterior es calcular el gradiente e igualar a cero para encontrar una solución óptima:

$$\nabla W \mathcal L_n (W)  = 0 \, . $$
$$\frac{2}{2n} (y-XW)^T X = 0 \, . $$

Eliminando $\frac{2}{2}$, la solución al proceso de optimización resulta de la siguiente forma:

$$ W^* = (X^TX) ^{-1} X ^T y \, .$$

escogemos los pesos haciendo uso del producto matricial descrito anteriormente, con ello podemos elegir la mejor recta que relaciona las variables de entrada con las variables de salida. 

### Gradiente

El [gradiente](https://trusting-payne-50ed4b.netlify.app/regresion.html#descenso-en-gradiente-para-regresion-lineal), es un vector que calcula las derivadas parciales de una función con respecto a cada una de las entradas. Aplicar el gradiente a una función, implica calcular la derivada parcial de cada función con respecto a cada una de las variables
del vector, y su notación es la siguiente:

$$\nabla W = gradiente $$



$$\nabla W = \begin{bmatrix}
\frac{\partial }{\partial W_1}\\
\\.
\\.
\\.
\\
\frac{\partial }{\partial W_{P+1}}
\end{bmatrix} \nabla W\mathcal L(W)  = \begin{bmatrix}
\frac{\partial }{\partial {W_1}} \mathcal L(W)\\
\\.
\\.
\\.
\\
\frac{\partial }{\partial W_{P+1}} \mathcal L(W)
\end{bmatrix}  $$ 

Es importante mencionar que, con la función de pérdida cuadrática se asume un modelo Gaussiano en un término de error, por lo tanto, deberíamos esperar:

$$ \hspace{6em} y = X^TW + b + \varepsilon \, . \hspace{1em} \varepsilon \sim N (0,\sigma^{2}) \, . \newline \hspace{-20em}  y = \hat{y} + \varepsilon \, . $$

La función de pérdida como el promedio de las pérdidas individuales, pueden ser pensadas como el promedio de la $\log$ densidad de una Gaussiana centrada en $ \hat{y}$ y desviación estándar $\sigma ^2 : \, $

$${\mathcal L_n (W)}=  \frac{1}{n} \sum l^{(i)} (\hat{y}, y) \longleftrightarrow  \frac{1}{2} \sum \log {N} (\hat{y}^{(i)}, \sigma^{2}) \, .$$

Tanto la función de pérdida como el promedio, pueden ser incorporadas en la notación de ***l*** a ***x***, en este caso, el promedio es un estimador empírico de algo más formal que es el valor esperado de una función de pérdida en términos de ***W***, es decir, la integral por una densidad (proceso de como se están generando los datos).

$${\mathcal L_n (W)}=  \frac{1}{n} \sum l^{(i)} (\hat{y}, y) = \frac{1}{n} \sum_{i=1}^n l (\hat{y}^{(i)}, {y}^{(i)}, X^{(i)}) \, .$$

$$\mathbb{E} (l{(W)}) = \int l(W,X) \Pi {(X)} \hspace{1em} dX \, .$$

$$ = \int \log \Pi  (X\mid W)  \Pi (X) \hspace{1em} dX \, .$$

Función de pérdida en ***W*** considerando la distribución real en $\Pi:$

$$ = \mathcal L_{\Pi} (W) \, .$$ 

Existe una diferencia entre $\mathcal L_{\Pi} (W)$ **pérdida teórica** y $\mathcal L_{n} (W)$ **pérdida empírica** generando así el problema de **sobreajuste**. 

Si estamos minimizando una cantidad empírica, no tenemos garantía de poder estar minimizando la pérdida bajo cualquier
otro conjunto de datos que observemos, un conjunto de datos que se distribuye de acuerdo a una densidad o una probabilidad que estamos denotando
por $\Pi .$

Para que la pérdida empírica sea una buena aproximación de la pérdida teórica o pérdida general, los datos deberían de estar identicamente distribuidos, esto es, que no sean una secuencia de puntos que dependan de una observación anterior.

Es importante mencionar que, el conjunto de entramiento es lo que nos permite describir la pérdida empírica.

La diferencia que hay entre $\mathcal L_{\Pi} (W)$ y $\mathcal L_{n} (W)$ es promediar de acuerdo a los pesos de una densidad.
$\mathcal L_{\Pi} (W)$ va a ser cercana a lo que estamos aproximando con el estimador empírico.

$$\mathcal L_{\Pi} (W) \approx \mathcal L_{n} (W) \, .$$

Si deseamos aproximar la integral por medio de un promedio, esperaríamos que las observaciones $x^{(i)}$ sean realizaciones de la densidad que sean observaciones independientes:


$$\int l(W,X) \Pi (X)\, \hspace{0em} dX \approx \frac{1}{n} \sum_{i=1}^n l (W, X^{(i)}) \, . \hspace{2em} X^{(i)} \sim ^{(iid)} \Pi \, .$$

Es decir, un estimador insesgado y consistente, conforme más observaciones tengamos, nuestro estimador de la pérdida empírica será un estimador consistente y, utilizar una gran cantidad de datos implica mayor información por lo que, más cerca vamos a estar de la pérdida teórica siempre y cuando los datos se generen de manera independiente y con la misma distribución para poder entablar la relación empírica con la pérdida teórica.

$$\mathbb{E} (\mathcal L_n(W)) = \mathcal L_\Pi(W) \, . \hspace{2em} insesgado; consistente. $$  