# Curso de Optimización I
## Tarea 8

| Descripción:                         | Fechas               |
|--------------------------------------|----------------------|
| Fecha de publicación del documento:  | **Abril 19, 2024**   |
| Fecha límite de entrega de la tarea: | **Abril 30, 2024**   |


### Indicaciones

- Envie el notebook con los códigos y las pruebas realizadas de cada ejercicio.
- Si se requiren algunos scripts adicionales para poder reproducir las pruebas,
  agreguelos en un ZIP junto con el notebook.
- Genere un PDF del notebook y envielo por separado.

---

## Ejercicio 1 (10 puntos)

Programar el método de BFGS modificado descrito en el Algoritmo 2 de la Clase 23.

1. Programe la función que implementa el algoritmo. Debe recibir como parámetros
- El punto inicial $\mathbf{x}_0$
- La matriz $\mathbf{H}_0$
- La función $f$
- El gradiente $\nabla f(\mathbf{x})$
- La tolerancia $\tau$
- El número máximo de iteraciones $N$
- Los paramétros $\rho, c_1, N_b$ del algoritmo de backtracking


2. Pruebe el algoritmo para minimizar las siguientes funciones usando los parámetros
   $N=5000$, $\tau = \sqrt{n}\epsilon_m^{1/3}$, donde $n$ es la dimensión
   de la variable $\mathbf{x}$, $\mathbf{H}_0$ como la matriz identidad
   y $\epsilon_m$ es el épsilon máquina.
   Para backtracking use $\rho=0.5$, $c_1=0.001$ y el número máximo de iteraciones $N_b=500$.
   
   En cada caso imprima los siguientes datos:
   
- la dimensión $n$,
- $f(\mathbf{x}_0)$,
- el  número $k$ de iteraciones realizadas,
- $f(\mathbf{x}_k)$,
- las primeras y últimas 4 entradas del punto $\mathbf{x}_k$ que devuelve el algoritmo,
- la norma del vector gradiente $\mathbf{g}_k$,
- la variable $res$ que indica si el algoritmo terminó porque se cumplió el
  criterio de la tolerancia o terminó por iteraciones.
  


**Función de cuadrática 1:** Para $\mathbf{x}=(x_1,x_2, ..., x_n)$

- $f(\mathbf{x}) = \frac{1}{2} \mathbf{x}^\top\mathbf{A}_1\mathbf{x} - \mathbf{b}_1^\top\mathbf{x}$,
  donde $\mathbf{A}_1$ y $\mathbf{b}_1$ están definidas por
  

$$ \mathbf{A}_1 = n\mathbf{I} + \mathbf{1} =
\left[\begin{array}{llll} n      & 0      & \cdots & 0 \\
                       0      & n      & \cdots & 0 \\
                       \vdots & \vdots & \ddots & \vdots \\
                       0      & 0      & \cdots & n \end{array}\right]
+ \left[\begin{array}{llll} 1    & 1      & \cdots & 1 \\
                       1      & 1      & \cdots & 1 \\
                       \vdots & \vdots & \ddots & \vdots \\
                       1      & 1      & \cdots & 1 \end{array}\right],  \qquad
\mathbf{b}_1 = \left[\begin{array}{l} 1 \\ 1 \\ \vdots \\ 1 \end{array}\right], $$

donde $\mathbf{I}$ es la matriz identidad y $\mathbf{1}$ es la matriz llena de 1's,
ambas de tamaño $n$, usando los puntos iniciales   
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{10}$
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{100}$
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{1000}$

---

**Función de cuadrática 2:** Para $\mathbf{x}=(x_1,x_2, ..., x_n)$

- $f(\mathbf{x}) = \frac{1}{2} \mathbf{x}^\top\mathbf{A}_2\mathbf{x} - \mathbf{b}_2^\top\mathbf{x}$,
  donde $\mathbf{A}_2= [a_{ij}]$ y $\mathbf{b}_2$ están definidas por
  
$$ a_{ij} = exp\left(-0.25(i-j)^2 \right),  \qquad
\mathbf{b}_2 = \left[\begin{array}{l} 1 \\ 1 \\ \vdots \\ 1 \end{array}\right] $$

usando los puntos iniciales:
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{10}$
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{100}$
- $\mathbf{x}_0 = (0,...,0)\in \mathbb{R}^{1000}$

---

**Función de Beale :** Para $\mathbf{x}=(x_1,x_2)$

$$f(\mathbf{x}) = (1.5-x_1 + x_1x_2)^2 + (2.25 - x_1 + x_1x_2^2)^2 + (2.625 - x_1 + x_1x_2^3)^2.$$
- $\mathbf{x}_0 = (2,3)$  
   
---

**Función de Himmelblau:** Para $\mathbf{x}=(x_1,x_2)$

$$f(\mathbf{x}) = (x_1^2 + x_2 - 11)^2 + (x_1 + x_2^2 - 7)^2. $$
- $\mathbf{x}_0 = (2,4)$

---

**Función de Rosenbrock:** Para $\mathbf{x}=(x_1,x_2, ..., x_n)$

$$ f(\mathbf{x}) = \sum_{i=1}^{n-1} \left[100(x_{i+1} - x_i^2)^2 + (1-x_i)^2 \right]
\quad n\geq 2.$$
- $\mathbf{x}_0 = (-1.2, 1.0)\in \mathbb{R}^{2}$  
- $\mathbf{x}_0 = (-1.2, 1.0, ..., -1.2, 1.0) \in \mathbb{R}^{20}$  
- $\mathbf{x}_0 = (-1.2, 1.0, ..., -1.2, 1.0) \in \mathbb{R}^{40}$

### Solución:
   

In [1]:
# Importamos librerías
import numpy as np

In [2]:
def backtracking(a0, r, c1, xk, f, df, pk, maxIter):
  a=a0
  for i in range(maxIter):
    # condicion de descenso suficiente
    if f(xk+a*pk)<= f(xk) + c1*a*(np.dot(df(xk), pk)):
        return a, i+1, True
    a=r*a
  return a, maxIter, False

In [3]:
# creamos la función
def bfgs(f, grad, x0, tol, H0, maxIter1, r, c1, maxIter2, op=0):
    xk = x0
    dim = len(xk)
    Hk = H0
    gk = grad(xk)
    identidad = np.identity(dim)
    alpha = 1
    for k in range(maxIter1):
        aux = np.dot(gk, gk)
        if np.sqrt(aux) < tol:
            return xk, dim, f(xk), np.sqrt(aux), k+1, True
        pk = -Hk@gk
        aux1 = np.dot(pk, gk)
        if aux1 > 0:
            l1 = 10e-5 + aux1/aux
            Hk = Hk + l1*identidad
            pk = pk - l1*gk
        aux2 = backtracking(alpha, r, c1, xk, f, grad, pk, maxIter2)
        if aux2[-1] == False:
            print("Backtracking está consumiendo todas las iteraciones.")
        alpha = aux2[0]
        xk1 = xk + alpha*pk
        gk1 = grad(xk1)
        sk = xk1 - xk
        yk = gk1 - gk
        aux4 = np.dot(yk,yk)
        if op==1:
          if np.sqrt(aux4) < tol:
              print("Termina por minima diferencia en gradientes.")
              return xk, dim, f(xk), np.sqrt(aux), k+1, True
        aux3 = np.dot(yk, sk)
        if aux3 <= 0:
            l2 = 10e-5 - aux3/aux4
            Hk = Hk + l2*identidad
        else:
            rho = 1/aux3
            Hk = (identidad -rho*(sk@yk.T))@Hk@(identidad -rho*(yk@sk.T)) +rho*(sk@sk.T)
        gk = gk1
        xk = xk1
    return xk, dim, f(xk), np.sqrt(aux), maxIter1, False

Notemos que este algoritmo tiene dos condiciones de parada. Esto es porque, haciendo pruebas, en las funciones donde no se logra la convergencia el programa se detiene pues no hay mucha diferencia entre los gradientes.

Comenté esto al profesor y me dijo que era una buena opción para esos casos.

In [4]:
def solution(sol):
    print(f"Dimension: {sol[1]}")
    print(f"¿Terminó por criterio de paro?: {sol[-1]}")
    print(f"Número de iteraciones realizadas: {sol[-2]}")
    print("La solución alcanzada es: ",sol[0][:4],"...", sol[0][-4:])
    print(f"f(xk)={sol[2]}")
    print(f"||Grad_f(xk)||={sol[3]}")

In [5]:
# funciones
def quadratic(x, A, b):
    return (x.T@(A@x))/2.0 - np.dot(b, x)

def Grad_quadratic(x, A, b):
    return A@x - b

def himmelblau(x):
  return (x[0]**2+x[1]-11)**2 + (x[0]+x[1]**2-7)**2

def Grad_himmelblau(x):
  d1=4*x[0]**3 + 4*x[0]*x[1] - 42*x[0] + 2*x[1]**2 - 14
  d2=4*x[1]**3 + 4*x[0]*x[1] + 2*x[0]**2 - 26*x[1] - 22
  return np.array([d1,d2])

def beale(x):
  return (1.5-x[0]+x[1]*x[0])**2 + (2.25-x[0]+x[0]*x[1]**2)**2 + (2.625-x[0]+x[0]*x[1]**3)**2

def Grad_beale(x):
  d1=2*(x[1]-1)*(1.5-x[0]+x[1]*x[0])+2*(x[1]**2-1)*(2.25-x[0]+x[0]*x[1]**2)+2*(x[1]**3-1)*(2.625-x[0]+x[0]*x[1]**3)
  d2=2*(x[0])*(1.5-x[0]+x[1]*x[0])+4*(x[0]*x[1])*(2.25-x[0]+x[0]*x[1]**2)+6*(x[0]*x[1]**2)*(2.625-x[0]+x[0]*x[1]**3)
  return np.array([d1, d2])

def rosenbrock(x):
  f=0
  n=x.shape[0]
  for i in range(n-1):
    f+=100*(x[i+1]-x[i]**2)**2 + (1-x[i])**2
  return f

def Grad_rosenbrock(x):
  n=x.shape[0]
  grad=np.zeros(n)
  grad[0]=-2*(1-x[0])-400*x[0]*(x[1]-x[0]**2)
  grad[-1]=200*(x[-1]-x[-2]**2)
  for i in range(1,n-1):
    grad[i]=200*(x[i]-x[i-1]**2-2*x[i]*x[i+1]+2*x[i]**3) -2*(1-x[i])
  return grad

#definimos las funciones para las hessianas
def Hes_quadratic(x, A, b):
  return A

def Hes_himmelbleau(x):
  d1=12*(x[0]**2) +4*x[1] -42
  d2=4*(x[0]+x[1])
  d3=4*x[0] +12*(x[1]**2) -26
  return np.array([[d1, d2], [d2, d3]])

def Hes_beale(x):
  d1=2*(x[1]**6 +x[1]**4 -2*x[1]**3 -x[1]**2 -2*x[1] +3)
  d2=4*x[0]*(3*(x[1]**5) +2*(x[1]**3) -3*(x[1]**2) -x[1] -1) +15.75*(x[1]**2) +9*x[1] +3
  d3=6*x[0]*(5*x[0]*(x[1]**4 +0.4*(x[1]**2) -0.4*x[1] -0.066666) +5.25*x[1] +1.5)
  return np.array([[d1, d2], [d2, d3]])

def Hes_rosenbrook(x):
  n=len(x)
  m=np.zeros([n,n])
  m[0][0]=1200*(x[0])**2 - 400*(x[1]) +2
  m[n-1][n-1]=200
  m[0][1]=m[1][0]=-400*x[0]
  m[n-1][n-2]=m[n-2][n-1]=-400*x[n-2]
  for i in range(1,n-1):
    m[i][i]=200*(6*(x[i]**2)-2*(x[i+1])+1)+2
    m[i][i-1]=m[i-1][i]=-400*(x[i-1])
    m[i][i+1]=m[i+1][i]=-400*(x[i])
  return m

In [6]:
def gen_matrix1(N):
    A = np.ones([N,N]) + N*np.eye(N)
    b = np.ones(N)
    return A, b

def gen_matrix2(N):
    A = np.zeros([N,N])
    for i in range(N):
        for j in  range(N):
            A[i][j]=np.exp(-0.25*((i-j)**2))
    b = np.ones(N)
    return A, b

eps = np.finfo(float).eps
n = [10, 100, 1000]

In [7]:
# definimos
maxIter = 5000
rho = 0.5
c1 = 0.001
maxIter2 = 500

Para estas primeras tres pruebas el algorito se comportó bastante bien, por lo que no hubo necesidad de detenerlo antes.

In [8]:
#probemos con la forma cuadratica, y el primer tipo de matriz con la primer dimension
A1, b1 = gen_matrix1(n[0])
sol1 = bfgs(lambda x: quadratic(x, A1, b1),
                           lambda x: Grad_quadratic(x, A1, b1), np.zeros(n[0]), np.sqrt(n[0])*eps**(1/3.0), np.identity(n[0]),
                           maxIter, rho, c1, maxIter2)
solution(sol1)

Dimension: 10
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 7
La solución alcanzada es:  [0.04999981 0.04999981 0.04999981 0.04999981] ... [0.04999981 0.04999981 0.04999981 0.04999981]
f(xk)=-0.24999999999620595
||Grad_f(xk)||=1.23192738174395e-05


In [9]:
A2, b2 = gen_matrix1(n[1])
sol2 = bfgs(lambda x: quadratic(x, A2, b2),
                           lambda x: Grad_quadratic(x, A2, b2), np.zeros(n[1]), np.sqrt(n[1])*eps**(1/3.0), np.identity(n[1]),
                           maxIter, rho, c1, maxIter2)
solution(sol2)

Dimension: 100
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 15
La solución alcanzada es:  [0.005 0.005 0.005 0.005] ... [0.005 0.005 0.005 0.005]
f(xk)=-0.24999999999999806
||Grad_f(xk)||=8.545396142478624e-07


In [10]:
A3, b3 = gen_matrix1(n[2])
sol3 = bfgs(lambda x: quadratic(x, A3, b3),
                           lambda x: Grad_quadratic(x, A3, b3), np.zeros(n[2]), np.sqrt(n[2])*eps**(1/3.0), np.identity(n[2]),
                           maxIter, rho, c1, maxIter2)
solution(sol3)

Dimension: 1000
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 14
La solución alcanzada es:  [0.0005 0.0005 0.0005 0.0005] ... [0.0005 0.0005 0.0005 0.0005]
f(xk)=-0.2499999999964131
||Grad_f(xk)||=0.00011978754768550113


En el caso de las siguientes tres pruebas, se notó un comportamiento más erróneo, por lo que se optó por repetir las pruebas con la segunda condición de parada, obteniendo así los siguientes resultados.

In [11]:
A4, b4 = gen_matrix2(n[0])
sol4 = bfgs(lambda x: quadratic(x, A4, b4),
                           lambda x: Grad_quadratic(x, A4, b4), np.zeros(n[0]), np.sqrt(n[0])*eps**(1/3.0), np.identity(n[0]),
                           maxIter, rho, c1, maxIter2, 1)
solution(sol4)

Termina por minima diferencia en gradientes.
Dimension: 10
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 9
La solución alcanzada es:  [0.31814968 0.3166137  0.31588823 0.31568043] ... [0.31568043 0.31588823 0.3166137  0.31814968]
f(xk)=-1.5826919885257107
||Grad_f(xk)||=0.4747196086440705


In [12]:
A5, b5 = gen_matrix2(n[1])
sol5 = bfgs(lambda x: quadratic(x, A5, b5),
                           lambda x: Grad_quadratic(x, A5, b5), np.zeros(n[1]), np.sqrt(n[1])*eps**(1/3.0), np.identity(n[1]),
                           maxIter, rho, c1, maxIter2, 1)
solution(sol5)

Termina por minima diferencia en gradientes.
Dimension: 100
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 11
La solución alcanzada es:  [0.28519274 0.28518085 0.28517524 0.28517363] ... [0.28517363 0.28517524 0.28518085 0.28519274]
f(xk)=-14.258765641266509
||Grad_f(xk)||=0.5418980315603407


In [13]:
A6, b6 = gen_matrix2(n[2])
sol6 = bfgs(lambda x: quadratic(x, A6, b6),
                           lambda x: Grad_quadratic(x, A6, b6), np.zeros(n[2]), np.sqrt(n[2])*eps**(1/3.0), np.identity(n[2]),
                           maxIter, rho, c1, maxIter2, 1)
solution(sol6)

Termina por minima diferencia en gradientes.
Dimension: 1000
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 12
La solución alcanzada es:  [0.2824015  0.28240131 0.28240122 0.2824012 ] ... [0.2824012  0.28240122 0.28240131 0.2824015 ]
f(xk)=-141.19990771950984
||Grad_f(xk)||=0.5463912538293857


Para la siguiente función, aunque parece que va en dirección correcta, el algoritmo requiere de todas las iteraciones, mientras que, si lo detenemos antes obtenemos resultados muy similares.

In [21]:
x07 = np.array([2,3])
sol7 = bfgs(beale, Grad_beale, x07, np.sqrt(2)*eps**(1/3.0), np.identity(2), maxIter, rho, c1, maxIter2,1)
solution(sol7)

Termina por minima diferencia en gradientes.
Dimension: 2
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 1641
La solución alcanzada es:  [2.78720363 0.44643978] ... [2.78720363 0.44643978]
f(xk)=0.0095359447971511
||Grad_f(xk)||=0.19531893762814545


In [15]:
x08 = np.array([2,4])
sol8 = bfgs(himmelblau, Grad_himmelblau, x08, np.sqrt(2)*eps**(1/3.0), np.identity(2), maxIter, rho, c1, maxIter2)
solution(sol8)

Dimension: 2
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 49
La solución alcanzada es:  [ 3.58442828 -1.84812629] ... [ 3.58442828 -1.84812629]
f(xk)=8.923152878209255e-13
||Grad_f(xk)||=8.017085485218569e-06


Nuevamente, para las siguientes funciones notamos que el algoritmo no se comporta como se esperaría, por lo que se decidió aplicarle la segunda condición de parada.

In [16]:
x09 = np.array([-1.2,1])
sol9 = bfgs(rosenbrock, Grad_rosenbrock, x09, np.sqrt(2)*eps**(1/3.0), np.identity(2), maxIter, rho, c1, maxIter2, 1)
solution(sol9)

Termina por minima diferencia en gradientes.
Dimension: 2
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 3119
La solución alcanzada es:  [0.98462224 0.96932545] ... [0.98462224 0.96932545]
f(xk)=0.00023889360966725134
||Grad_f(xk)||=0.04355312127970876


In [17]:
x010 = np.ones(20)
for i in range(0, 20, 2):
    x010[i] = -1.2
sol10 = bfgs(rosenbrock, Grad_rosenbrock, x010, np.sqrt(20)*eps**(1/3.0), np.identity(20), maxIter, rho, c1, maxIter2, 1)
solution(sol10)

Termina por minima diferencia en gradientes.
Dimension: 20
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 25
La solución alcanzada es:  [-0.57248342 -0.34107367  0.28432752 -0.34199027] ... [ 0.28432752 -0.34199027  0.28475691  1.37373926]
f(xk)=403.3903607327578
||Grad_f(xk)||=449.3534870990205


In [18]:
x011 = np.ones(40)
for i in range(0, 40, 2):
    x011[i] = -1.2
sol11 = bfgs(rosenbrock, Grad_rosenbrock, x011, np.sqrt(40)*eps**(1/3.0), np.identity(40), maxIter, rho, c1, maxIter2, 1)
solution(sol11)

Termina por minima diferencia en gradientes.
Dimension: 40
¿Terminó por criterio de paro?: True
Número de iteraciones realizadas: 18
La solución alcanzada es:  [-0.58504024 -0.35316419  0.27369498 -0.35339319] ... [ 0.27369498 -0.35339319  0.27380096  1.36460346]
f(xk)=634.2938734049781
||Grad_f(xk)||=552.067047985407


```






```