<!--  RENAME CURRENT FILE TO MATCH LECTURE NUMBER AND A GOOD DESCRIPTOR OF THE CONTENT -->
<!--  E.g., "01_introduccion.Rmd" -->

<!-- >>>>>>> LECTURE NUMBER AND TITLE -->

# Clase 3: Métodos Iterativos


Previamente, se revisó que el problema de sobreajuste se deriva de la diferencia que existe entre la pérdida calculada y la pérdida empírica de los datos
$$
\mathcal{L}_n (w) \neq \mathcal{L}_{\Pi} (w)  \,.
$$

Donde, en el contexto de regresión podemos escribir la pérdida empírica como promedio de pérdidas individuales:
$$
\mathcal{L}_n (w) = \frac{1}{n} \, \sum_{i=1}^{n} \, \ell^{(i)} (y, \hat{y})
$$
donde se define la pérdida como una pérdida cuadrática y se asume un modelo lineal para $\hat{y}$:
$$
\ell (y, \hat{y}) = \left\| y - \hat{y} \right\|^2 \, , 
$$
$$
\text{con} \, \, \hat{y} = w^T x\, ; \, x,w \in \mathbb{R}^{p+1}
$$

En general, la pérdida es una función convexa y por lo tanto tiene un mínimo global. Para hallar el óptimo $w^{*}$ que minimice esta pérdida, se anula el gradiente y se resuelve el correspondiente sistema de ecuaciones.
$$
\nabla_n \mathcal{L}_n (w) = 0 \, \, \Rightarrow \, \, w^{*} = (x^Tx)^{-1}x^Ty
$$
$$
\text{donde} \, \, w^{*} = \text{argmin} \mathcal{L}_n (w) \, .
$$


## 3.1. Métodos Iterativos
Se quiere encontrar una estrategia que minimice la $ \, \mathcal{L}_n (w)$  iterativamente donde $ \, w_{t+1} = w_t + h(w_t)$ .

Si $h(w_t)$ como la dirección de máximo descenso, ¿cómo definimos esta dirección de descenso? Con el gradiente.Si se define previamente un tamaño o longitud de paso $\eta$, entonces, nos acercaremos al mínimo de la función de manera iterativa de la siguiente forma:
$$
w_{t+1} = w_t - \eta \nabla_{n} \mathcal{L}_n (w) \, \bigg\rvert_{w=w_t}
$$
Lo anterior se puede representar gráficamente como en la figura 1. En este caso, se alcanza una buena aproximación del mínimo en $T$ pasos. Por lo que
$$
w_T = w^{*} \, .
$$

![descenso-en-gradiente](https://i.imgur.com/HXHzXNz.png)

Como se mencionó anteriormente, se debe definir un tamaño de paso. Aquí es donde hay que tener cuidado, pues si se escoge un tamaño de paso muy grande, podemos pasarnos del mínimo y quedarnos oscilando alrededor del mínimo sin llegar nunca a él. Por otra parte, si el tamaño de paso es muy corto, entonces el descenso podríamos requerir muchas iteraciones para llegar al mínimo y el proceso de descenso sería muy lento. Ambas situaciones son problemas de eficiencia y se ilustran en la figura 2.

![descenso-en-gradiente](https://i.imgur.com/NlD8h0s.png)

### Eficiencia computacional

¿Qué pasaría con los cálculos anteriores si el número de observaciones $n$ fuera muy grande? ¿Afectaría el cómputo de $\nabla_{n} \mathcal{L}_n (w)$?

 Recordemos la forma de la función de pérdida:
 $$
 \mathcal{L}_n (w) = \frac{1}{n} \, \sum_{i=1}^{n} \, \ell^{(i)} (w) \, ,
 $$
 
 Y la definición del gradiente:
 
 $$
 \nabla_n = \left [ \begin{array}{cc}
\frac{\partial}{\partial w_0}\\
\frac{\partial}{\partial w_1}\\
\vdots\\
\frac{\partial}{\partial w_p}
\end{array}
\right ] \in \mathbb{R}^{p+1} \, .
 $$
 
 Entonces, para calcular el gradiente de la función de pérdida se tendría que calcular el gradiente de $n$ términos individuales:
 
 $$
 \nabla_n \mathcal{L}_n (w) = \nabla_n \left( \frac{1}{n} \, \sum_{i=1}^{n} \, \ell^{(i)} (w) \right) =  \frac{1}{n} \, \sum_{i=1}^{n} \, \nabla_n \, \ell^{(i)} (w) \, .
 $$
 
 $$\ell^{(i)} (y, \hat{y}) = ||y^{(i)} - \hat{y}^{(i)} || ^2 = ||y^{(i)} - w^T x^{(i)} || ^2 = \ell^{(i)} (w)$$
 
 El cálculo resulta lento cuando se tienen millones o incluso varios miles de datos. ¿Cómo podemos aliviar el costo computacional? 
 
 Una opción es utilizar el método de **descenso estocástico**. 
 
 ### Descenso estocástico
 El descenso estocástico es una aproximación bien comportada al gradiente. En notación matemática:
 $$
 \nabla_n  \mathcal{L}_n (w) \thickapprox \tilde{\nabla}_n \mathcal{L}_n (w) \, .
 $$
 
En este método el gradiente se aproxima utilizando una única observación. Se tienen {1,2,...,n} puntos, se escoge uno al azar y se evalúa el gradiente en este punto. Esta será nuestra aproximación. Es decir,
$$
\tilde{\nabla}_n \mathcal{L}_n (w) = \nabla_n \ell^{(k)} (w) \, , \, \, \text{donde } \, k  \sim U[1,n] \, .
 $$
 
Se espera que este estimador sea  insesgado y que
$$
 \mathbb{E}_{k  \sim U[1,n]} \left(  \tilde{\nabla}_n \mathcal{L}_n (w) \right) = \nabla_n \mathcal{L}_n (w)
$$
$$
\frac{1}{n} \, \sum_{i=1}^{n} \, \nabla_n \, \ell^{(k)} (w) = \nabla_n \mathcal{L}_n (w)
$$
$$
\text{con } \tilde{\nabla}_n^{SGD} \mathcal{L}_n (w) = \nabla_n \, \ell^{(k)} (w)
$$

A pesar de que aquí también utilizamos todas las observaciones, el costo computacional es menor pues los cálculos que se realizan son mucho más sencillas que en el descenso en gradiente.

Sin embargo, este método también presenta algunos problemas:
+ Dado que se utiliza muestreo aleatorio para seleccionar el punto a utilizar, podemos perder la contribución de algunas observaciones.
+ Además, se pueden presentar problemas de eficiencia en los núcleos de la computadora en la que se realice el cálculo pues sólo se evalúan los puntos de uno en uno.

¿Cómo solucionamos estos problemas?

## 3.2. Descenso en gradiente estocástico por bloques
Para este método asignamos el estimador:
$$
\tilde{\nabla}_n^{(B)} \mathcal{L}_n (w) = \frac{1}{|B|} \sum_{i \in B} \nabla_n \, \ell^{(i)} (w)
$$
donde $B$ es un subconjunto de observaciones tal que $B \subset \{ 1,2,...,n \}$ ,  $|B| < n$. Así, se obtienen un total de m bloques de tamaño $|B|$ tales que:

$$
m \, |B| = n \, \, \, \Rightarrow \, \, \, |B| = \frac{n}{m}
$$

![romper-bloques](https://i.imgur.com/EY1ohOr.png)

Por lo general, el número de bloques $m$ se decide teniendo en cuenta la cantidad de datos que se tienen y el número de núcleos de la computadora.

En cada época o *epoch* del descenso se procesan los $m$ bloques de manera secuencial, para conseguir una actualización de lo parámetros y repetimos.

Con este método es mucho menos probable caer en un punto silla cuando se busca el mínimo que con el descenso en gradiente clásico. De hecho, para el descenso por bloques !se tiene probabilidad 1 de escapar de un punto silla!

Además, al pasar por todos los bloques en cada época, se garantiza que estamos tomando en cuenta las contribuciones de todas las observaciones para el cálculo de la dirección de descenso. Por lo que hacer el descenso estocástico por bloques es que logra reducir la varianza en comparación con el descenso estocástico clásico:
$$
\mathbb{V} \left( \tilde{\nabla}_n^{(B)} \mathcal{L}_n (w) \right) \leq \mathbb{V} \left( \tilde{\nabla}_n^{SGD} \mathcal{L}_n (w) \right)
$$

![epoch](https://i.imgur.com/Y5td5uY.png)

Para hacer predicciones entonces se aproxima $w^* \thickapprox w_{\tau}$ para obtener:
$$
y^{*} = w_{\tau}^T x^{*}
$$

También como se ha comentado antes, la pérdida cuadrática se relaciona con la máxima verosimilitud (bajo un modelo de errores gaussianos). En este caso, el valor real es la aproximación obtenida más un error cuyo valor se desconoce. Así,

$$
y = \hat{y} + \epsilon
$$

$$
\text{donde } \, \, \epsilon \sim N(0, \sigma^2)
$$

¿Cómo se relaciona el modelo lineal con una red neuronal?
Para generar estas predicciones en este modelo simple se tienen dos capas: una capa de entrada con $p$ unidades (observaciones con sus componentes) que contribuyen a una capa de salida (predicción) con una sola unidad.

A esto le llamamos una red densa pues se asume que cada uno de los nodos de la capa de entrada está conectada con la capa de salida, es decir, se tienen todas las conexiones posibles.
![capas](https://i.imgur.com/2EJL5NN.png)