# Método Steepest Descent

<a href="https://colab.research.google.com/github/milocortes/mod_04_concentracion/blob/ccm-2023/src/talles/steepest_descent.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Todos los métodos de iteración requieren especificar un punto de inicio $\boldsymbol{\theta}_{0}$. En cada iteración $t$ realizan una actualización siguiendo la siguiente regla:

$$
\begin{equation}
	\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_{t} + \rho_t \boldsymbol{d}_{t}
\end{equation}
$$

donde $\rho_t$ se le conoce como **tamaño de paso** o **tasa de aprendizaje**, y $\boldsymbol{d}_t$ es una **dirección de descenso**. 

Cuando la dirección de descenso es igual al negativo del gradiente ($\textit{i.e}$ $\boldsymbol{d}_t = - \boldsymbol{g}_t $)(Recuerda que el gradiente apunta en la dirección de máximo incremento en $f$, por eso el negativo apunta en la dirección de máxima disminución), la dirección se le conoce como de **steepest descent**.

$$
\begin{equation}
	\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_{t} - \rho_t \boldsymbol{g}_{t}
\end{equation}
$$

Utilizando una tasa de aprendizaje constante $\rho_t = \rho$, la regla de actualización es:

$$
\begin{equation}
	\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_{t} - \rho \boldsymbol{g}_{t}
\end{equation}
$$

Para el caso univariado, la regla de actualización es:


$$
\begin{equation}
	x_{t+1} = x_{t} - \rho f^\prime (x_{t}) 
\end{equation}
$$


## Steepest Descent en 1D

Sea la función univariada:

$$
\begin{equation}
    f(x) = 6x^2 - 12x +3
\end{equation}
$$

Graficamos la función

Como puese verse, la función es una parábola, por lo cual tiene un mínimo local (global). 

Obtengamos el mínimo de forma analítica al obtener la derivada e igualar a cero.

$$
\begin{equation}
    \frac{d}{dx} (6x^2 - 12x +3) = 12x - 12 
\end{equation}
$$

Igualando $ 12x - 12=0$, tenemos que el mínimo es $x=1$.

Obtengamos el minimo mediante el método steepest descent.


## Steepest Descent en 2D

Sea la función que recibe dos argumentos:

$$
    \begin{equation}
        f(x,y) = 6x^2 + 9y^2 - 12x -14y +3
    \end{equation}
$$

Obtenemos el gradiente:


$$
\nabla f(x,y)=  \begin{bmatrix}
\frac{\partial f(x,y)}{\partial x} \\
\frac{\partial f(x,y)}{\partial y}
\end{bmatrix} =
 \begin{bmatrix}
12x -12 \\
18y -14
\end{bmatrix} 
$$



### Cambiemos la tasa de aprendizaje y la forma de la función

La nueva función es:

$$
    \begin{equation}
        f(x,y) = 6x^2 + 40y^2 - 12x -30y +3
    \end{equation}
$$

Obtenemos el gradiente:


$$
\nabla f(x,y)=  \begin{bmatrix}
\frac{\partial f(x,y)}{\partial x} \\
\frac{\partial f(x,y)}{\partial y}
\end{bmatrix} =
 \begin{bmatrix}
12x -12 \\
80y -30
\end{bmatrix} 
$$

## Método de Newton

El método de Newton usa el gradiente e incorporan información sobre la curvatura de la función mediante la matriz Hessiana, ayudando a tener una convergencia más rápida.

En cada iteración $t$ realizan una actualización siguiendo la siguiente regla:

$$
\begin{equation}
	\boldsymbol{\theta}_{t+1} = \boldsymbol{\theta}_{t} -   \rho \mathbf{H}_t^{-1}\mathbf{g}_{t}
\end{equation}
$$

donde $\mathbf{H}_t^{-1}$ es la matriz Hessiana evaluada en $\boldsymbol{\theta}_{t} $.

Usemos la misma función que en el ejemplo anterior:

$$
    \begin{equation}
        f(x,y) = 6x^2 + 40y^2 - 12x -30y +3
    \end{equation}
$$

Obtenemos el gradiente:


$$
\nabla f(x,y)=  \begin{bmatrix}
\frac{\partial f(x,y)}{\partial x} \\
\frac{\partial f(x,y)}{\partial y}
\end{bmatrix} =
 \begin{bmatrix}
12x -12 \\
80y -30
\end{bmatrix} 
$$

La matrix Hessiana es:

$$
\nabla^2 f(x,y) = H=  \begin{bmatrix}
\frac{\partial f(x,y)}{\partial x\partial x} & \frac{\partial f(x,y)}{\partial x\partial y} \\
\frac{\partial f(x,y)}{\partial y\partial x} & \frac{\partial f(x,y)}{\partial y\partial y}
\end{bmatrix} =
 \begin{bmatrix}
12 & 0 \\
0 & 80
\end{bmatrix} 
$$


## Comparemos la convergencia de los tres métodos