(METDESCMASPRONUN)=

# 6.1 Método de descenso más pronunciado para *Unconstrained Convex Optimization* (UCO)

```{admonition} Notas para contenedor de docker:

Comando de docker para ejecución de la nota de forma local:

nota: cambiar `<ruta a mi directorio>` por la ruta de directorio que se desea mapear a `/datos` dentro del contenedor de docker.

`docker run --rm -v <ruta a mi directorio>:/datos --name jupyterlab_optimizacion_2 -p 8888:8888 -p 8787:8787 -d palmoreck/jupyterlab_optimizacion_2:3.0.0`

password para jupyterlab: `qwerty`

Detener el contenedor de docker:

`docker stop jupyterlab_optimizacion_2`

Documentación de la imagen de docker `palmoreck/jupyterlab_optimizacion_2:3.0.0` en [liga](https://github.com/palmoreck/dockerfiles/tree/master/jupyterlab/optimizacion_2).

```

---

Nota generada a partir de [liga1](https://drive.google.com/file/d/16-_PvWNaO0Zc9x04-SRsxCRdn5fxebf2/view)

```{admonition} Al final de esta nota la comunidad lectora:
:class: tip

*

```

En esta nota se asume que los problemas de optimización convexa sin restricciones, *Unconstrained Convex Optimization* (UCO) son de la forma:

$$\min f_o(x)$$

con $f_o:\mathbb{R}^n \rightarrow \mathbb{R}$ función objetivo fuertemente convexa y $f_o \in \mathcal{C}^2(\text{dom}f_o)$.

Además se asume que los puntos iniciales $x^{(0)}$ de los métodos iterativos están en $\text{dom}f_o$ y los conjuntos $f_o(x^{(0)})$-subnivel son conjuntos cerrados. También se asume que existe un punto óptimo $x^*$ por lo que el problema tiene solución y el valor óptimo se denota por $p^* = f_o(x^*) = \inf f_o(x)$

```{admonition} Comentario

Las suposición que una función $f$ sea convexa asegura que una **condición necesaria y suficiente** para que $x^*$ sea óptimo es: $\nabla f(x^*) = 0$ la cual es **en general** es un conjunto de $n$ **ecuaciones no lineales** en $n$ variables y que resuelve el problema de optimización planteado al inicio. Ver {ref}`resultados útiles <RESUT>`. 

```

El método de *steepest descent* o descenso más pronunciado sigue los pasos del algoritmo ya revisado en {ref}`método general de descenso para problemas UCO <METGENDESCPARAUCO>` que a continuación nuevamente se describe.

## Algoritmo: método general de descenso para problemas UCO

```{margin}

Los pasos de un algoritmo representan una guía para la implementación, no implica que se tengan que implementar uno a continuación del otro como se describe. Si una implementación respeta la lógica y al mismo algoritmo, entonces pueden seguirse los pasos de una forma distinta.
```

> **Dado** un **punto inicial** $x$ en $\text{dom}f_o$
>
> **Repetir** el siguiente bloque para $k=0,1,2, \dots$
>>
>> 1. Determinar una dirección de descenso $\Delta x$.
>> 2. Búsqueda de línea. Elegir un tamaño de paso $t > 0$.
>> 3. Hacer la actualización: $x = x + t\Delta x$.
>
> **hasta** convergencia (satisfacer criterio de paro).


## Perspectiva del método de descenso más pronunciado 

Calcular una dirección $\Delta x_{\text{nsd}}$ que satisfaga: 

$$\Delta x_{\text{nsd}} = \text{argmin} \{ \nabla f_o(x)^Tv : ||v|| \leq 1, \nabla f_o(x)^Tv < 0 \}$$ 

donde: $||\cdot||$ es alguna norma en $\mathbb{R}^n$. 

```{admonition} Comentario

El subíndice "nsd" se refiere a *normalized steepest descent*.

```

Posteriormente con $\Delta x_{\text{nsd}}$ se define el paso $\Delta x_{\text{sd}}=||\nabla f_o(x)||_* \Delta x_{\text{nsd}}$ donde: $|| \cdot||_*$ es la **norma dual**. 

```{admonition} Definición

La norma dual asociada a $||\cdot||$ se denota como $||\cdot||_*$ y se define como: 

$$||z||_* = \sup \{z^Tx :||x||= 1\}.$$ 

```

```{admonition} Comentarios

* Se puede probar que: 

    * $||z||_{2*}$ (la norma dual de la norma $2$) es $||z||_2$ y $||z||_{1*}$ (la norma dual de la norma $1$) es $||z||_\infty$ $\forall z \in \mathbb{R}^n$.

    * $\Delta x_{\text{sd}}$ es dirección de descenso.

* En la definición de $\Delta x_{\text{nsd}}$ anterior:

    * Si $||\cdot||$ es la norma $2$: $\Delta x_{\text{nsd}} = \text{argmin} \{ \nabla f_o(x)^Tv : ||v||_2 \leq 1, \nabla f_o(x)^Tv < 0 \} $ entonces 
    
    $$\Delta x_{\text{sd}} = - \nabla f_o(x).$$
    
    Lo cual prueba que el método de descenso más pronunciado generaliza al método de descenso en gradiente.

    * Si $||\cdot||$ es una norma cuadrática con matriz $P \in \mathbb{S}^n_{++}$: $\Delta x_{\text{nsd}} = \text{argmin} \{ \nabla f_o(x)^Tv : ||v||_P \leq 1, \nabla f_o(x)^Tv < 0 \} $ entonces 
    
    $$\Delta x_{\text{sd}} = - P^{-1} \nabla f_o(x).$$
    
    Si $P=\nabla ^2 f_o(x^*)$ tenemos el método de Newton por lo que es un caso particular del método de descenso más pronunciado. Si $P=I$ tenemos el método de descenso en gradiente (punto anterior).

    * Si $||\cdot||$ es la norma $1$: $\Delta x_{\text{nsd}} = \text{argmin} \{ \nabla f_o(x)^Tv : ||v||_1 \leq 1, \nabla f_o(x)^Tv < 0 \} $ entonces 
    
    $$\Delta x_{\text{sd}} = - \frac{\partial f_o(x)}{\partial x_i} e_i$$
    
con $e_i$ $i$-ésimo vector canónico y el índice $i$ es la entrada del vector $\nabla f_o(x)$ de máxima magnitud: $i$ tal que $\left |(\nabla f_o(x))_i \right | = ||\nabla f_o(x)||_\infty$. En este caso el método se nombra ***coordinate descent***, **descenso por coordenadas**. En cada iteración **una única** componente de $x$ es actualizada.
    
* **Interpretación:** $\Delta x_{\text{nsd}}$ es un paso tal que $||\Delta x_{\text{nsd}}|| = 1$ y da el **mayor decrecimiento en la aproximación lineal\* de $f_o$**. Geométricamente es la dirección en la bola unitaria (generada por $||\cdot||$) que se **extiende lo más lejos posible en la dirección $-\nabla f_o(x)$**.

\*Recuérdese que la aproximación lineal a una función $f_o$ está dada por Taylor a primer orden: $f_o(x+v)=\hat{f}_o(x+v) = f_o(x) + \nabla f_o(x)^Tv$.

* Para visualizar el paso $\Delta x_{\text{nsd}}$ se tiene el siguiente dibujo: 

**Con la norma cuadrática:**

<img src="https://dl.dropboxusercontent.com/s/91qivndznw2xfgb/steepest_descent_quadratic_norm.png?dl=0" heigth="750" width="750">

**Con la norma 1:**

<img src="https://dl.dropboxusercontent.com/s/qcbpuhvge9uqgim/steepest_desc_l1_norm.png?dl=0" heigth="750" width="750">

En los dibujos $f = f_o$.

```

## Ejemplos de los métodos de descenso en gradiente y Newton 

### Algoritmo: Método de descenso en gradiente

```{margin}

Los pasos de un algoritmo representan una guía para la implementación, no implica que se tengan que implementar uno a continuación del otro como se describe. Si una implementación respeta la lógica y al mismo algoritmo, entonces pueden seguirse los pasos de una forma distinta.
```

> **Dado** un **punto inicial** $x$ en $\text{dom}f_o$
>
> **Repetir** el siguiente bloque para $k=0,1,2,...$
>>
>> 1. Calcular la dirección de descenso $\Delta x = - \nabla f_o(x)$.
>> 2. Búsqueda de línea. Elegir un tamaño de paso $t > 0$.
>> 3. Hacer la actualización: $x = x + t\Delta x$.
>
> **hasta** convergencia (satisfacer criterio de paro).


### Algoritmo: Método de Newton

> **Dado** un **punto inicial** $x$ en $\text{dom}f_o$
>
> **Repetir** el siguiente bloque para $k=0,1,2,\dots$
>
>> 1. Calcular la dirección de descenso de Newton $\Delta x_{\text{nt}} = - \nabla ^2 f_o(x)^{-1} \nabla f_o(x)$ y el decremento de Newton al cuadrado: $\lambda^2(x)=\nabla f(x)^T \nabla ^2 f(x)^{-1} \nabla f(x)$.
>> 2. Búsqueda de línea. Elegir un tamaño de paso $t > 0$ (usar el cálculo de $\lambda (x)$ del paso anterior).
>> 3. Hacer la actualización: $x = x + t\Delta x_{\text{nt}}$.
>
> **hasta** convergencia (satisfacer criterio de paro).


## Ejemplos del método de descenso por coordenadas

## Ejemplos del método de descenso más pronunciado bajo la norma cuadrática como caso particular del método de descenso en gradiente

Es posible probar que el método de descenso más pronunciado bajo la norma cuadrática $||\cdot||_P$ es el método de descenso en gradiente aplicado al problema de optimización **después del cambio de coordenadas $\hat{x}=P^{1/2}x$**. En este cambio de coordenadas $x$ es la variable original por lo que si deseamos utilizar descenso en gradiente utilizamos la inversa de la matriz raíz cuadrada simétrica $P^{1/2}$ quedando la transformación como: $x = P^{-1/2}\hat{x}$.

$P^{1/2}$ se nombra **raíz cuadrada simétrica** o ***symmetric squareroot*** y está definida para matrices $P$ simétricas semidefinidas positivas como $P^{1/2}=Qdiag(\lambda_1^{1/2},\dots,\lambda_n^{1/2})Q^T$ con $Q$ y $diag(\lambda_1^{1/2},\dots,\lambda_n^{1/2})$ obtenidas con la **descomposición espectral** de $P$.

Ejemplos

**De la nota descenso en gradiente_Python**

1) $$\min \quad (x_1-2)^2+(2-x_2)^2+x_3^2+x_4^4$$

2) El método de descenso en gradiente es **altamente sensible** a la forma de las curvas de nivel de la función objetivo $f_o$. Para observar esto considérese el problema: $$\min \frac{1}{2}\left(x_1^2+Cx_2^2 \right)$$

1) $$\min \quad e^{(x_1+3x_2-0.1)}+e^{x_1-3x_2-0.1}+e^{-x_1-0.1}$$

**Comentarios:**

* Como se observa en los ejemplos anteriores la elección de la norma en el método de descenso más pronunciado tiene un efecto fuerte en la tasa de convergencia. 

* Siempre existe una matriz $P$ para la cual el método de descenso más pronunciado tiene una convergencia buena. El reto está en encontrar tal matriz. La idea es identificar una matriz $P$ para la cual el problema transformado tenga un número de condición moderado.

**De la nota descenso por coordenadas**

1) $$\min \quad (x_1-2)^2+(2-x_2)^2+x_3^2+x_4^4$$

2) $$\min \frac{1}{2}\left(x_1^2+Cx_2^2 \right)$$

1) $$\min \quad e^{(x_1+3x_2-0.1)}+e^{x_1-3x_2-0.1}+e^{-x_1-0.1}$$

**De la nota Método Newton Python**

1) $$\min \quad e^{(x_1+3x_2-0.1)}+e^{x_1-3x_2-0.1}+e^{-x_1-0.1}$$

2) El método de Newton **es insensible** a la forma de las curvas de nivel de la función objetivo $f_o$. Para observar esto considérese el problema: 

$$\min \frac{1}{2}\left(x_1^2+Cx_2^2 \right)$$

```{admonition} Ejercicios
:class: tip

1.Resuelve los ejercicios y preguntas de la nota.
```


**Preguntas de comprehensión**


**Referencias:**

1. S. P. Boyd, L. Vandenberghe, Convex Optimization, Cambridge University Press, 2009.
