# Curso de Optimización (DEMAT)
## Tarea 8

| Descripción:                         | Fechas               |
|--------------------------------------|----------------------|
| Fecha de publicación del documento:  | **Abril 11, 2022**   |
| Fecha límite de entrega de la tarea: | **Mayo   1, 2022**   |


### Indicaciones

- Envie el notebook que contenga los códigos y las pruebas realizadas de cada ejercicio.
- Si se requiren algunos scripts adicionales para poder reproducir las pruebas,
  agreguelos en un ZIP junto con el notebook.
- Genere un PDF del notebook y envielo por separado.

---

## Ejercicio 1 (3 puntos)

Sea $x=(x_1, x_2, ..., x_n)$ la variable independiente.

Programar las siguientes funciones y sus gradientes:

- Función cuadrática 

$$ f(\mathbf{x}) = 0.5\mathbf{x}^\top \mathbf{A}\mathbf{x} - \mathbf{b}^\top\mathbf{x}. $$

Si $\mathbf{I}$ es la matriz identidad y $\mathbf{1}$ es la matriz llena de 1's,
ambas de tamaño $n$, entonces

$$ \mathbf{A} = n\mathbf{I} + \mathbf{1} = 
\left[\begin{array}{llll} n      & 0      & \cdots & 0 \\
                       0      & n      & \cdots & 0 \\ 
                       \vdots & \vdots & \ddots & \vdots \\
                       0      & 0      & \cdots & n \end{array}\right]
+ \left[\begin{array}{llll} 1    & 1      & \cdots & 1 \\
                       1      & 1      & \cdots & 1 \\ 
                       \vdots & \vdots & \ddots & \vdots \\
                       1      & 1      & \cdots & 1 \end{array}\right],  \qquad
\mathbf{b} = \left[\begin{array}{l} 1 \\ 1 \\ \vdots \\ 1 \end{array}\right] $$


- Función generalizada de Rosenbrock

$$  f(x) = \sum_{i=1}^{n-1} 100(x_{i+1} - x_i^2)^2 + (1 - x_{i} )^2  $$

$$ x_0 = (-1.2, 1, -1.2, 1, ..., -1.2, 1) $$


En la implementación de cada función y de su gradiente, se recibe como argumento la variable $x$
y definimos $n$ como la longitud del arreglo $x$, y con esos datos aplicamos la 
definición correspondiente.

Estas funciones van a ser usadas para probar los algoritmos de optimización.
El  punto $x_0$ que aparece en la definición de cada función es el punto inicial
que se sugiere para el algoritmo de optimización.


### Solución:

In [1]:
import numpy as np

# Implementación de la función cuadrática y su gradiente

def cuad(x):
    n = x.shape[0]
    
    b = np.ones((n,))
    A = np.diag(b * n) + np.ones((n,n))
    
    return 0.5 * x.T @ A @ x - b.T @ x

def g_cuad(x):
    n = x.shape[0]
    
    b = np.ones((n,))
    A = np.diag(b * n) + np.ones((n,n))
    
    return A @ x - b

In [2]:
# Implementación de la función tridiagonal generalizada y su gradiente




In [3]:
#  Implementación de la función generalizada de Rosenbrock y su gradiente

def rosenbrock(x):
    x1 = x[:-1]
    x2 = x[1:]

    x3 = 100 * (x2 - x1**2)**2 + (1-x1)**2
    return np.sum(x3)
    
def g_rosenbrock(x):
    n = x.shape[0]
    
    x1 = x[:-1]
    x2 = x[1:]
    
    d1 = -400 * (x2 - x1**2) * x1 - 2 * (1 - x1)
    d2 = 200 * (x2 - x1**2)
    
    d = np.zeros((n,))
    d[0] = d1[0]
    d[1:-1] = d1[1:] + d2[:-1]
    d[-1] = d2[-1]
    
    return d


```


```
---


## Ejercicio 2 (3.5 puntos)

Programar el método de gradiente conjugado no lineal de Fletcher-Reeves:

---

La implementación recibe como argumentos a la función objetivo $f$, su gradiente $\nabla f$,
un punto inicial $x_0$, el máximo número de iteraciones $N$ y una tolerancia $\tau>0$.

1. Calcular  $\nabla f_0 = \nabla f(x_0)$, $p_0 = -\nabla f_0$ y hacer $res=0$.
2. Para $k=0,1,..., N$:

- Si $\|\nabla f_k\|< \tau$, hacer $res=1$ y terminar el ciclo
- Usando backtracking calcular el tamaño de paso  $\alpha_k$
- Calcular $x_{k+1} = x_k + \alpha_k p_k$
- Calcular $\nabla f_{k+1} = \nabla f(x_{k+1})$
- Calcular 

$$ \beta_{k+1} = \frac{\nabla f_{k+1}^\top \nabla f_{k+1}}{\nabla f_{k}^\top\nabla f_{k}}  $$ 

- Calcular 

$$ p_{k+1} = -\nabla f_{k+1} + \beta_{k+1} p_k $$

3. Devolver $x_k, \nabla f_k, k, res$

```


```
---

1. Escriba la función que implemente el algoritmo anterior.
2. Pruebe el algoritmo usando para cada una de las funciones del 
   Ejercicio 1, tomando el punto $x_0$ que se indica.
3. Fije $N=50000$, $\tau = \epsilon_m^{1/3}$.
4. Para cada función del Ejercicio 1 cree el punto $x_0$ correspondiente
   usado $n=2, 10, 20$ y ejecute el algoritmo.
   Imprima
   
- n,
- f(x0),
- las primeras y últimas 4 entradas del punto $x_k$ que devuelve el algoritmo,
- f(xk),
- la norma del vector $\nabla f_k$, 
- el  número $k$ de iteraciones realizadas,
- la variable $res$ para saber si el algoritmo puedo converger.
  

### Solución:

In [4]:
# En esta celda puede poner el código de las funciones
# o poner la instrucción para importarlas de un archivo .py

def backtracking(f, xk, pk, p, beta):
    alpha = 1
    fk = f(xk)
    while True:
        if f(xk + alpha * pk) <= fk - beta*alpha*(pk.T @ pk):
            return alpha
        alpha = p * alpha

def Fletcher_Reeves(fun, grad, x0, maxN, tol):
    xk = x0
    res = 0
    
    gnext = grad(xk)
    pk = -gnext
    
    for k in range(maxN):
        gk = gnext
        if np.linalg.norm(gk) < tol:
            res = 1
            break

        alpha = backtracking(fun, xk, pk, 0.8, 0.0001)
        xk = xk + alpha * pk
        
        gnext = grad(xk)
        betak = (gnext.T @ gnext) / (gk.T @ gk)
        pk = -gnext + betak * pk
        
        if np.abs(gnext.T @ gk) > 0.2 * np.linalg.norm(gnext)**2:
            # Reinicio
            pk = - gnext
    
    return xk, gk, k, res

In [5]:
# Pruebas realizadas 

EPS_M = np.finfo(float).eps
MAX_N = 50000
TOL = EPS_M ** (1/3)

def short(x):
    if x.shape[0] <= 8:
        print('(', *x, ')')
        return
    y = np.ones((8,))
    y[:4] = x[:4]
    y[4:] = x[-4:]
    print('(', *x[:4], '...', *x[-4:], ')' )

def test_Fletcher_Reeves(n, fun, grad, maxN, tol, mess):
    x0 = np.ones((n,))
    x0[::2] = -1.2
    
    print(f"Test Fletcher-Reeves | {mess}")
    print(f'n = {n}')
    print(f'f(x0) = {fun(x0)}')
    
    xk, gk, k, res = Fletcher_Reeves(fun, grad, x0, maxN, tol)
    
    print('xk = ', end='')
    short(xk)
    print(f'||gk|| = {np.linalg.norm(gk)}')
    print(f'f(xk) = {fun(xk)}')
    print(f'k = {k}')
    print(f'res = {res}')
    print()
    
nn = (2, 10, 20)
for n in nn:
    test_Fletcher_Reeves(n, cuad, g_cuad, MAX_N, TOL, 'cuadrática')
print()
for n in nn:
    test_Fletcher_Reeves(n, rosenbrock, g_rosenbrock, MAX_N, TOL, 'Rosenbrock')

Test Fletcher-Reeves | cuadrática
n = 2
f(x0) = 2.66
xk = ( 0.2499991865323705 0.2499991865323705 )
||gk|| = 4.601667816800304e-06
f(xk) = -0.2499999999973531
k = 32
res = 1

Test Fletcher-Reeves | cuadrática
n = 10
f(x0) = 62.49999999999999
xk = ( 0.049999926177129915 0.049999926177129915 0.049999926177129915 0.049999926177129915 ... 0.04999992617712991 0.04999992617712991 0.049999926177129894 0.04999992617712989 )
||gk|| = 4.668968258306211e-06
f(xk) = -0.24999999999945502
k = 50
res = 1

Test Fletcher-Reeves | cuadrática
n = 20
f(x0) = 248.0
xk = ( 0.025000026834587897 0.025000026834587897 0.025000026834587897 0.025000026834587897 ... 0.02500002683458789 0.02500002683458789 0.02500002683458789 0.02500002683458789 )
||gk|| = 4.800317013934596e-06
f(xk) = -0.24999999999971195
k = 63
res = 1


Test Fletcher-Reeves | Rosenbrock
n = 2
f(x0) = 24.199999999999996
xk = ( 1.0000029421689873 1.0000058839580541 )
||gk|| = 6.040269183391008e-06
f(xk) = 8.656373449210375e-12
k = 16816
res = 1

T


```


```
---

## Ejercicio 3 (3.5 puntos)

Programar el método de gradiente conjugado no lineal de usando la fórmula de
Hestenes-Stiefel:

En este caso el algoritmo es igual al del Ejercicio 2, con excepción del cálculo de $\beta_{k+1}$. Primero se calcula el vector $\mathbf{y}_k$ y luego $\beta_{k+1}$:

$$ \mathbf{y}_k =  \nabla f_{k+1}-\nabla f_{k} $$
$$ \beta_{k+1} =   \frac{\nabla f_{k+1}^\top\mathbf{y}_k }{\nabla p_{k}^\top\mathbf{y}_k}  $$

1. Repita el Ejercicio 2 usando la fórmula de Hestenes-Stiefel.
2. ¿Cuál de los métodos es mejor para encontrar los óptimos de las funciones de prueba?

### Solución:

In [6]:
# En esta celda puede poner el código de las funciones
# o poner la instrucción para importarlas de un archivo .py

def backtracking(f, xk, pk, p, beta):
    alpha = 1
    fk = f(xk)
    while True:
        if f(xk + alpha * pk) <= fk - beta*alpha*(pk.T @ pk):
            return alpha
        alpha = p * alpha

def Hestenes_Stiefel(fun, grad, x0, maxN, tol):
    xk = x0
    res = 0
    
    gnext = grad(xk)
    pk = -gnext
    
    for k in range(maxN):
        gk = gnext
        if np.linalg.norm(gk) < tol:
            res = 1
            break

        alpha = backtracking(fun, xk, pk, 0.9, 0.0001)
        xk = xk + alpha * pk
        
        gnext = grad(xk)
        
        yk = gnext - gk
        betak = (gnext.T @ yk) / (pk.T @ yk)
        pk = -gnext + betak * pk
        
        if np.abs(gnext.T @ gk) > 0.2 * np.linalg.norm(gnext)**2:
            # Reinicio
            pk = - gnext
    
    return xk, gk, k, res

In [7]:
# Pruebas realizadas 

EPS_M = np.finfo(float).eps
MAX_N = 50000
TOL = EPS_M ** (1/3)

def short(x):
    if x.shape[0] <= 8:
        print('(', *x, ')')
        return
    y = np.ones((8,))
    y[:4] = x[:4]
    y[4:] = x[-4:]
    print('(', *x[:4], '...', *x[-4:], ')' )

def test_Hestenes_Stiefel(n, fun, grad, maxN, tol, mess):
    x0 = np.ones((n,))
    x0[::2] = -1.2
    
    print(f"Test Hestenes_Stiefel | {mess}")
    print(f'n = {n}')
    print(f'f(x0) = {fun(x0)}')
    
    xk, gk, k, res = Hestenes_Stiefel(fun, grad, x0, maxN, tol)
    
    print('xk = ', end='')
    short(xk)
    print(f'||gk|| = {np.linalg.norm(gk)}')
    print(f'f(xk) = {fun(xk)}')
    print(f'k = {k}')
    print(f'res = {res}')
    print()
    
nn = (2, 10, 20)
for n in nn:
    test_Hestenes_Stiefel(n, cuad, g_cuad, MAX_N, TOL, 'cuadrática')
print()
for n in nn:
    test_Hestenes_Stiefel(n, rosenbrock, g_rosenbrock, MAX_N, TOL, 'Rosenbrock')

Test Hestenes_Stiefel | cuadrática
n = 2
f(x0) = 2.66
xk = ( 0.2500010031173648 0.2500010031173648 )
||gk|| = 5.674488727717848e-06
f(xk) = -0.249999999995975
k = 151
res = 1

Test Hestenes_Stiefel | cuadrática
n = 10
f(x0) = 62.49999999999999
xk = ( 0.0500000943650406 0.0500000943650406 0.0500000943650406 0.0500000943650406 ... 0.0500000943650406 0.0500000943650406 0.0500000943650406 0.0500000943650406 )
||gk|| = 5.9681691953423504e-06
f(xk) = -0.2499999999991095
k = 513
res = 1

Test Hestenes_Stiefel | cuadrática
n = 20
f(x0) = 248.0
xk = ( 0.02499996868255284 0.02499996868255284 0.02499996868255284 0.02499996868255284 ... 0.024999968682552845 0.024999968682552845 0.024999968682552845 0.024999968682552845 )
||gk|| = 5.602235257728152e-06
f(xk) = -0.2499999999996076
k = 138
res = 1


Test Hestenes_Stiefel | Rosenbrock
n = 2
f(x0) = 24.199999999999996
xk = ( 1.000000040638996 1.0000000933769284 )
||gk|| = 5.338234889058483e-06
f(xk) = 1.628995072026969e-14
k = 22365
res = 1

Test Heste


```


```
---

### Conclusión

Notemos que con ambos métodos se obtuvo un resultado convergente en todas las pruebas, más aún, llegaban al mismo mínimo. La única parte donde se desempeñaron distinto fue en el número de iteraciones. Notemos que el método *Fletcher-Reeves* siempre tuvo menos iteraciones que *Hestenes-Stiefel*. Por lo tanto en estas funciones resulto mejor usar el método *Fletcher-Reeves*.