# Ejercicio 1 (2 puntos)

Programar las siguientes funciones y sus gradientes, de modo que dependan de la dimensión $n$ de la variable $\mathbf{x}$:


- Función "Tridiagonal 1" generalizada

$$  f(x) = \sum_{i=1}^{n-1} (x_i + x_{i+1} - 3)^2 + (x_i - x_{i+1} + 1)^4  $$


- Función generalizada de Rosenbrock

$$  f(x) = \sum_{i=1}^{n-1} 100(x_{i+1} - x_i^2)^2 + (1 - x_{i} )^2  $$


## Solución

Sea $f_T$ la función tridiagonal generalizada y $f_R$ la función generalizada de Rosenbrock. Vamos a evaluar estas funciones en $\mathbf{x}_\ast=(1,1)$.

Sabemos que $\mathbf{x}_\ast$ es punto crítico de $f_R$, además es el punto donde se alcanza el valor óptimo de la función para $n=2$ con $f_R(\mathbf{x}_\ast)=0$.

Por otro lado, haciendo algunas cuentas vemos que $f_T(\mathbf{x}_\ast)=2$ mientras que $\nabla f_T(\mathbf{x}_\ast)=[2,-6]^T$.

A continuación, importamos el módulo `lib_t9` que contiene las implementaciones de $f_T$ y $f_R$, y probamos el desempeño de estas funciones con los valores teóricos en $\mathbf{x}_\ast=(1,1)$.

En primer lugar, mostramos este desempeño con la función $f_T$

In [1]:
# Implementación de la funciones y sus gradientes
import lib_t9
import importlib
importlib.reload(lib_t9)
from lib_t9 import *

# Punto de prueba
x_proof=np.array([1.0,1.0])

# Implementación de la función cuadrática y su gradiente
print('Valor de la funcion tridiagonal generalizada en (1,1): ',tri_diag_gen(x_proof))
print('Valor del gradiente de la funcion tridiagonal generalizada en (1,1): ',grad_tri_diag_gen(x_proof))

Valor de la funcion tridiagonal generalizada en (1,1):  2.0
Valor del gradiente de la funcion tridiagonal generalizada en (1,1):  [[ 2.]
 [-6.]]


Ahora mostramos el resultado de la prueba con la función generalizada de Rosenbrock sabiendo que $f_R(\mathbf{x}_\ast)=0$ y $\nabla f_R(\mathbf{x}_\ast)=0$.

In [2]:
#  Implementación de la función generalizada de Rosenbrock y su gradiente
print('Valor de la funcion generalizada de Rosenbrock en (1,1): ',gen_rosenbrock(x_proof))
print('Valor del gradiente de la funcion generalizada de Rosenbrock en (1,1): ',grad_gen_rosenbrock(x_proof))

Valor de la funcion generalizada de Rosenbrock en (1,1):  0.0
Valor del gradiente de la funcion generalizada de Rosenbrock en (1,1):  [[-0.]
 [ 0.]]


# Ejercicio 2 (8 puntos)

Programar y probar el método BFGS modificado.


1. Programar el algoritmo descrito en la diapositiva 16 de la clase 23.
   Agregue una variable $res$ que indique si el algoritmo terminó
   porque se cumplió que la magnitud del gradiente es menor que la toleracia
   dada.
2. Probar el algoritmo con las funciones del Ejercicio 1
   con la matriz $H_0$ como la matriz identidad y el 
   punto inicial $x_0$ como:

- La función generalizada de Rosenbrock: 

$$ x_0 = (-1.2, 1, -1.2, 1, ..., -1.2, 1) \in \mathbb{R}^n$$

- La función Tridiagonal 1 generalizada: 

$$ x_0 = (2,2, ..., 2) \in \mathbb{R}^n $$
  
  Pruebe el algoritmo con la dimensión $n=2, 10 , 100$.

3. Fije el número de iteraciones máximas a $N=50000$, 
   y la tolerancia $\tau = \epsilon_m^{1/3}$, donde $\epsilon_m$
   es el épsilon máquina, para terminar las iteraciones 
   si la magnitud del gradiente es menor que $\tau$.
   En cada caso, imprima los siguiente datos:
   
- $n$,
- $f(x_0)$, 
- Usando la variable $res$, imprima un mensaje que indique si
  el algoritmo convergió,
- el  número $k$ de iteraciones realizadas,
- $f(x_k)$,
- la norma del vector $\nabla f_k$, y
- las primeras y últimas 4 entradas del punto $x_k$ que devuelve el algoritmo.
  

## Solución:

Actualizamos el módulo con el que estamos trabajando, definimos la tolerancia, el número máximo de iteraciones y el parámetro $\rho$ del algoritmo de backtracking usado en el algoritmo BFGS modificado


In [3]:
importlib.reload(lib_t9)
import lib_t9
from lib_t9 import *

# Tolerancia y numero maximo de iteraciones
tol=np.finfo(float).eps**(1/3)
N=50000
rho=0.8

### Función tridiagonal generalizada

En primer lugar, probamos el algoritmo BFGS modificado con la función tridiagonal generalizada considerando $\mathbf{x}_0 = (2,2, ..., 2) \in \mathbb{R}^n$ y $H_0=I_n$, la matriz identidad de tamaño $n$. Probamos el desempeño del algoritmo tomando $n=2,10,20$.

Por otro lado, es fácil ver que el valor óptimo de $f_T$ es $0$ cuando $n=2$ y se obtiene cuando $\mathbf{x}_\ast =(1,2)$, por lo que esperaríamos que el algoritmo modificado BFGS devuelva un $\mathbf{x}_k$ tal que $\mathbf{x}_k\approx (1,2)$ y $f_T(\mathbf{x}_k)\approx 0$ en el caso $n=2$.

In [4]:
# Valores de n
n=[2,10,20]
# Paras para cada valor de n
for nn in n:
    x0=np.tile([2.0,2.0],int(nn/2))
    proof_mod_BFGS(tri_diag_gen,grad_tri_diag_gen,x0,np.eye(len(x0)),N,tol,rho)
    print('\n\n')

El algoritmo BFGS modificado CONVERGE
n =  2
f(x0) =  2.0
xk =  [0.99876467 2.00123335]
k =  7393
fk =  4.1064152731323677e-11
||gk|| =  5.60228141426502e-06



El algoritmo BFGS modificado CONVERGE
n =  10
f(x0) =  18.0
Primer y últimas 4 entradas de xk =  [1.02464688 1.34361035 1.438909   1.47645328] ... [1.5235467  1.56109099 1.65638968 1.97535343]
k =  127
fk =  7.211216703292454
||gk|| =  5.196474138150162e-06



El algoritmo BFGS modificado CONVERGE
n =  20
f(x0) =  38.0
Primer y últimas 4 entradas de xk =  [1.02448171 1.34326076 1.43811813 1.47459086] ... [1.525409   1.56188173 1.65673913 1.97551812]
k =  136
fk =  17.21030764208769
||gk|| =  5.326361788424597e-06





### Función Generalizada de Rosenbrock

Repetimos la prueba ahora con la función generalizada de Rosenbrock, sabiendo que el óptimo es $\mathbf{x}_\ast=(1,1,\dots,1)$

In [5]:
# Valores de n
n=[2,10,20]
# Paras para cada valor de n
for nn in n:
    x0=np.tile([-1.2,1.0],int(nn/2))
    proof_mod_BFGS(gen_rosenbrock,grad_gen_rosenbrock,x0,np.eye(len(x0)),N,tol,rho)
    print('\n\n')

El algoritmo BFGS modificado CONVERGE
n =  2
f(x0) =  24.199999999999996
xk =  [1.00000018 1.00000035]
k =  166
fk =  4.635162933802175e-14
||gk|| =  5.604968917022001e-06



El algoritmo BFGS modificado CONVERGE
n =  10
f(x0) =  2057.0
Primer y últimas 4 entradas de xk =  [-0.99326337  0.99660604  0.99824061  0.99898844] ... [0.99845421 0.99705631 0.99417947 0.98839282]
k =  1083
fk =  3.9865791123471817
||gk|| =  5.5376405622437326e-06



El algoritmo BFGS modificado CONVERGE
n =  20
f(x0) =  4598.0
Primer y últimas 4 entradas de xk =  [1. 1. 1. 1.] ... [0.99999999 0.99999997 0.99999994 0.99999987]
k =  1293
fk =  2.8472052063727636e-14
||gk|| =  5.9467552798446634e-06



