# Curso de Optimización (DEMAT)
## Tarea 3

| Descripción:                         | Fechas               |
|--------------------------------------|----------------------|
| Fecha de publicación del documento:  | **Febrero 18, 2022** |
| Fecha límite de entrega de la tarea: | **Febrero 27, 2022** |


### Indicaciones

Puede escribir el código de los algoritmos que se piden en una
celda de este notebook o si lo prefiere, escribir las funciones
en un archivo `.py` independiente e importar la funciones para
usarlas en este notebook. Lo importante es que en el notebook
aparezcan los resultados de la pruebas realizadas y que:

- Si se requieren otros archivos para poder reproducir los resultados,
  para mandar la tarea cree un archivo ZIP en el que incluya
  el notebook y los archivos adicionales. 
- Si todos los códigos para que se requieren para reproducir los
  resultados están en el notebook, no hace falta comprimirlo 
  y puede anexar sólo el notebook en la tarea del Classroom.
- Exportar el notebook a un archivo PDF y anexarlo en la tarea del
  Classroom como un archivo independiente.
  **No lo incluya dentro del ZIP**, porque la idea que lo pueda accesar 
  directamente para poner anotaciones y la calificación de cada ejercicio.

En la descripción de los ejercicios se nombran algunas variables
para el algoritmo, pero sólo es para facilitar la descripción.
En la implementación pueden nombrar sus variables como gusten.

En los algoritmos se describen las entradas de las
funciones. La intención es que tomen en cuenta lo que requiere
el algoritmo y que tiene que haber parámetros que permitan
controlar el comportamiento del algoritmo,
evitando que dejen fijo un valor y que no se puede modificar
para hacer diferentes pruebas. Si quieren dar esta información
usando un tipo de dato que contenga todos los valores o
usar variables por separado, etc., lo pueden hacer y no usen
variables globales si no es necesario.

Lo mismo para los valores que devuelve una función. 
Pueden codificar como gusten la manera en que regresa los cálculos.
El punto es que podamos tener acceso a los resultados,
sin usar variables globales, y que la función no sólo imprima 
los valores que después no los podamos usar.


---

## Ejercicio 1 (4 puntos)

La función de Rosenbrock se define como 

$$ f(x_1, x_2) = 100\left(x_2 − x_1^2 \right)^2 + (1 − x_1)^2. $$

1. Calcule las expresiones del gradiente y la Hessiana de la función de Rosenbrock.
2. Escriba las funciones en Python que evaluan la función de Rosenbrock, su gradiente y Hessiana.
3. Muestre que $x_* = (1,1)^{\top}$ es el único punto estacionario de la función.
4. Calcule los eigenvalores de la matriz Hessiana de $f$ en el punto $x_*$
   para mostrar que es definida positiva, por lo que $x_*$ corresponde
   a un mínimo.
5. Grafique la función de Rosenbrock en el rectángulo $[-1.5, 1.5] \times [-1, 2]$.
   Use las funciones `surface()` e `imshow()` para generar la gráfica 3D y 
   la vista 2D.


### Solución:

# Respuesta 1.1. 
El gradiende de la función Rosenbrock es:

$$\nabla f(x) = (400(x_1^3-x_1x_2)+2(x_1-1),200(x_2-x_1^2)),$$

cuya hessiana es

$$H_f = \begin{bmatrix}
    1200x_1^2-400x_2+2 & -400x_1\\
    -400x_1 & 200
\end{bmatrix}$$




In [58]:
# Respuesta 1.2. En esta celda puede poner el código de las funciones
import numpy as np

# Función Rosenbrock
def f(x):
    return 100*(x[1] - x[0]**2)**2 + (1 - x[0])**2

def gf(x):
    return np.array(
        [400*(x[0]**3-x[0]*x[1])+2*(x[0]-1), 200*(x[1]-x[0]**2)]
    )

def hf(x):
    return np.array(
        [
            [1200*x[0]**2-400*x[1]+2, -400*x[0]],
            [-400*x[0], 200]
        ]
    )

Si $x$ es un punto estacionario es si y sólo si

$$\nabla f(x) = 0,$$

esto es si y sólo si

$$\begin{cases}
    400*(x_1**3-x_1*x_2)+2*(x_1-1) &= 0\\
    200*(x_2-x_1**2) &= 0
\end{cases}$$

cuyas unica solución es

$$x_{*} = (1,1)^T,$$

por lo tanto $x_{*}$ es el único punto estacionario.

In [91]:
# Respuesta 1.4.
import pprint
x = [1,1]
H_0 = hf(x)
eig_v = np.linalg.eigvals(H_0)

print("H_0 = \n", H_0)
print("Auto valores de H_0 = \n", eig_v)
if(any(eig_v <= 0)):
    print("La matriz H_0 en el punto 1,1 no es positiva definida")
else:
    print("La matriz H_0 en el punto 1,1 es positiva definida")

H_0 = 
 [[ 802 -400]
 [-400  200]]
Auto valores de H_0 = 
 [1.00160064e+03 3.99360767e-01]
La matriz H_0 en el punto 1,1 es positiva definida


In [90]:
# Respuesta 1.5.
import itertools
import plotly.graph_objects as go

fig = go.Figure()
xtl = -1.5
xtr = 1.5
ytl = -1
ytr = 2
p = 100
x = np.linspace(xtl,xtr,p)
y = np.linspace(ytl,ytr,p)
fig.add_surface(
    x=x,
    y=y,
    z=np.array([f([x_i,y_i]) for y_i, x_i in itertools.product(y,x)]).reshape(p,p),
    name='Rosenbrock'
)
fig.update_layout(
    template="simple_white",
    title="Rosenbrock",
    width=500,
    height=500
)
fig.show()
fig = go.Figure()
x = np.linspace(xtl,xtr,p)
y = np.linspace(ytl,ytr,p)
fig.add_contour(
    x=x,
    y=y,
    z=np.array([f([x_i,y_i]) for y_i, x_i in itertools.product(y,x)]).reshape(p,p),
    name='Rosenbrock'
)
fig.update_layout(
    template="simple_white",
    title="Rosenbrock",
    width=500,
    height=500
)
fig.show()


## Ejercicio 2 (3 puntos)

Programe la función que devuelve una aproximación del gradiente de una función
en un punto particular usando diferencias finitas.

1. La función que calcula la aproximación debe recibir como parámetros 
   una función escalar $f$, el punto $x$ y el incremento $h>0$.
- Si $n$ es el tamaño del arreglo $x$, cree un arreglo de tamaño $n$
  para almacenar las componentes de las aproximaciones del vector gradiente.
  Para aproximar la $i$-ésima derivada parcial use

$$ \frac{\partial f}{\partial x_i}(x) \approx
\frac{f(x + he_i) - f(x)}{h}, $$

  donde $e_i$ es el $i$-ésimo vector canónico.

2. Pruebe la función comparando el gradiente analítico de la función
   de Rosenbrock en varios puntos y varios valores del parámetro $h$:
   
- Seleccione $h \in \{0.001, 0.0001, 0.00001 \}$.

- Tome $x = (-1.5,2) + \lambda (2.5,-1)$ con $\lambda \in \{0, 0.5, 1.0\}$.
  Imprima el valor $h$, el punto $x$, el gradiente $g_{a}(x)$ obtenido
  con la función analítica programada en el Ejercicio 1, 
  el gradiente $g_{df}(x;h)$ obtenido por diferencias finitas y
  la norma del vector $\|g_{a}(x) - g_{df}(x;h)\|$ (puede elegir la norma
  que quiera usar).
   

### Solución:

In [89]:
# Respuesta 2.1.
def v_e(i, n):
    x = np.zeros(n)
    x[i-1] = 1
    return x

def gf_aprox(f,x,h):
    return [(f(x+h*v_e(i+1,len(x))) - f(x)) / h for i in range(len(x))]


In [88]:
# Respuesta 2.2.

hs = np.array([0.001,0.0001,0.00001])
alpha = np.array([0.0,0.5,1.0])
x_ptl = np.array([xtl,ytl])
x_ptr = np.array([xtr,ytr])
x_ps = [(1-a)*x_ptl + a*x_ptr for a in alpha]
for x,h in itertools.product(x_ps,hs):
    print(f"h = {h}, x = {x}, g_f(x) = {gf(x)}, g_(af)(x,h) = {gf_aprox(f,x,h)}, ||g_f(x) - g_(af)(x,h)|| = {np.linalg.norm(gf(x)-gf_aprox(f,x,h))}")

h = 0.001, x = [-1.5 -1. ], g_f(x) = [-1955.  -650.], g_(af)(x,h) = [[3098.40140016604, 599.8000001454784], [599.8000001454784, 199.9999999497959]], ||g_f(x) - g_(af)(x,h)|| = 5860.748142705137
h = 0.0001, x = [-1.5 -1. ], g_f(x) = [-1955.  -650.], g_(af)(x,h) = [[3101.6400271255407, 599.9799668643391], [599.9799668643391, 199.99995402031345]], ||g_f(x) - g_(af)(x,h)|| = 5863.657632775212
h = 1e-05, x = [-1.5 -1. ], g_f(x) = [-1955.  -650.], g_(af)(x,h) = [[3101.9681046018372, 599.9982022331095], [599.9982022331095, 200.00015865662132]], ||g_f(x) - g_(af)(x,h)|| = 5863.952421334694
h = 0.001, x = [0.  0.5], g_f(x) = [ -2. 100.], g_(af)(x,h) = [[-197.99860000091485, -0.20000000233721948], [-0.20000000233721948, 200.0000000066393]], ||g_f(x) - g_(af)(x,h)|| = 241.78240466193242
h = 0.0001, x = [0.  0.5], g_f(x) = [ -2. 100.], g_(af)(x,h) = [[-197.99998653979856, -0.02000106746891106], [-0.02000106746891106, 199.9999998503199]], ||g_f(x) - g_(af)(x,h)|| = 241.71039634855285
h = 1e-05, x =

## Ejercicio 3 (3 puntos)

Programe la función que devuelve una aproximación de la Hessiana de una función
en un punto particular usando diferencias finitas.

1. La función que calcula la aproximación debe recibir como parámetros 
   una función escalar $f$, el punto $x$ y el incremento $h>0$.
- Si $n$ es el tamaño del arreglo $x$, cree una matriz de tamaño $n \times n$
  para almacenar las entradas de las aproximaciones de las segundas 
  derivadas parciales. Puede usar

$$ \frac{\partial^2 f}{\partial x_i \partial x_j}(x) \approx
\frac{f(x + he_i+he_j) - f(x+he_i)- f(x+he_j) + f(x)}{h^2}, $$

  donde $e_i$ es el $i$-ésimo vector canónico.

2. Pruebe la función comparando el gradiente analítico de la función
   de Rosenbrock en varios puntos y varios valores del parámetro $h$:
- Seleccione $h \in \{0.001, 0.0001, 0.00001 \}$
- Tome $x = (-1.5,2) + \lambda (2.5,-1)$ con $\lambda \in \{0, 0.5, 1.0\}$
  Imprima el valor $h$, el punto $x$, la Hessiana $H_{a}(x)$ obtenido
  con la función analítica programada en el Ejercicio 1, 
  la Hessiana $H_{df}(x;h)$ obtenido por diferencias finitas y
  la norma de la matriz $\|H_{a}(x) - H_{df}(x;h)\|$ (puede elegir la norma
  que quiera usar).
   

In [87]:
# Respuesta 3.1.

def v_e(i, n):
    x = np.zeros(n)
    x[i-1] = 1
    return x

def hf_aprox(f,x,h):
    return [[(f(x+h*v_e(i+1,len(x))+h*v_e(j+1,len(x))) - f(x + h*v_e(i+1,len(x))) - f(x + h*v_e(j+1,len(x))) + f(x)) / h**2 for j in range(len(x))] for i in range(len(x))]

In [86]:
# Respuesta 3.2.
hs = np.array([0.001,0.0001,0.00001])
alpha = np.array([0.0,0.5,1.0])
x_ptl = np.array([xtl,ytl])
x_ptr = np.array([xtr,ytr])
x_ps = [(1-a)*x_ptl + a*x_ptr for a in alpha]
for x,h in itertools.product(x_ps,hs):
    print(f"h = {h}, x = {x}, H_f(x) = {hf(x)}, H_(af)(x,h) = {hf_aprox(f,x,h)}, ||h_f(x) - H_(af)(x,h)|| = {np.linalg.norm(hf(x)-hf_aprox(f,x,h))}")


h = 0.001, x = [-1.5 -1. ], H_f(x) = [[3102.  600.]
 [ 600.  200.]], H_(af)(x,h) = [[3098.40140016604, 599.8000001454784], [599.8000001454784, 199.9999999497959]], ||h_f(x) - H_(af)(x,h)|| = 3.609698138154428
h = 0.0001, x = [-1.5 -1. ], H_f(x) = [[3102.  600.]
 [ 600.  200.]], H_(af)(x,h) = [[3101.6400271255407, 599.9799668643391], [599.9799668643391, 199.99995402031345]], ||h_f(x) - H_(af)(x,h)|| = 0.3610860361596289
h = 1e-05, x = [-1.5 -1. ], H_f(x) = [[3102.  600.]
 [ 600.  200.]], H_(af)(x,h) = [[3101.9681046018372, 599.9982022331095], [599.9982022331095, 200.00015865662132]], ||h_f(x) - H_(af)(x,h)|| = 0.03199696122242826
h = 0.001, x = [0.  0.5], H_f(x) = [[-198.   -0.]
 [  -0.  200.]], H_(af)(x,h) = [[-197.99860000091485, -0.20000000233721948], [-0.20000000233721948, 200.0000000066393]], ||h_f(x) - H_(af)(x,h)|| = 0.2828461805773839
h = 0.0001, x = [0.  0.5], H_f(x) = [[-198.   -0.]
 [  -0.  200.]], H_(af)(x,h) = [[-197.99998653979856, -0.02000106746891106], [-0.02000106746891