# TAREA DE PROGRAMACIÓN No. 1

## Computación evolutiva y optimización heurística - segundo semestre 2020
## Universidad Nacional de Colombia - Sede Medellín
### Profesora: Eddy ---

### Alumnos
- Edwin Fernando Villarraga Ossa
-  Santiago Giraldo Escobar

Noviembre de 2020


## OBJETIVO
Utilizando una impelmentación del método de optimización Quasi-Newton de Broyden - Fletcher - Goldfard - Shanno (BFGS) en Python, se optimizarán 5 funciones para evaluar la capacidad de convergencia del método

## <span style='background:yellow'> 1. Descripción del método BFGS </span> 

El método BFGS pertenece al grupo de métodos de optimización denominados Quasi-Newton, estos métodos buscan eliminar algunas de las debilidades del método de Newton de Optimización, como son (Chandra, 2009):

1. Se elimina la necesidad de calcular la matriz Hessiana
2. Se elimina la necesidad de invertir la matriz Hessiana de segundas derivadas. Es posible que la matriz H no sea invertible.
3. El método de Newton es costoso en terminos computacionales
4. El método de Newton exige que la matriz H sea positiva definida.  La violación de este supuesto elimina la garantía de convergencia.

Por lo tanto los métodos Quasi-Newton buscan la modificación de la matriz Hessiana por una aproximación de una matriz que debe cumplir algunas condiciones como que sea definida positiva pero que es más fácil de calcular que H.


### Método de Newton

El método de Newton para encontrar raíces consiste en encontrar los puntos  $X \epsilon R^n$  tales que $\nabla f(X) = 0$

Una aproximación de segundo orden para encontrar estos puntos de forma iterativa es:

$X^{\mathrm{(k+1)}} = X^{\mathrm{(k)}}-(H_f(X^{\mathrm{(k)}}))^{\mathrm{-1}}\nabla f(X^{\mathrm{(k)}})$

Un ejemplo de la obtención de esta formula de recurrencia se puede encontrar en la página 341 de Chandra.


### Métodos "Quasi-Newton"

El método de BFGS es similar al método de Newthon pero se utiliza una aproximación de la matriz Hessiana en el punto k denominada $B_k$ y en lugar de calcular una nueva matriz $B_k$ en cada iteración, se le realiza una actualización.

$B_{k+1} = B_k + "algo"$

En el proceso iterativo es comun inicial con una matriz $B_0 = I_n$ para luego continuar con las iteraciones.  

La actualización de $B_k$ deber ser tal que se mantenga la relación:  $x_{k+1}-x_k=b_{k+1}(g_{k+1}-g_k)$ y que se mantenga definita positiva

Existen diferentes métodos de actualizar a $b_k$ y se denominan actualizaciones de rango 1 y 2 (Gramfort).




#### Fórmula de Broyden
fórmula de actualización de rango1

$B_{k+1} = B_k + \LARGE \frac{(s_k-B_ky_k)(s_k-B_ky_k)^T}{(s_k-B_ky_k)^Ty_k}$

donde:


$y_k = g_{k+1}-g_k = \nabla f(x_{k+1}) - \nabla f(x_k))$

$s_k = x_{k+1}-x_k$ 

$g_k$ es el gradiente de la función en el punto k

$y_k$ converge en menos de n iteración hacia la inversa de la Hessiana de f.  (ver prueba en Gramfort)





#### Fórmula de Davidon, Fletcher y Powell (DFP)


Es una actualización de rango 2


$B_{k+1} = B_k + \LARGE \frac{s_ks_k^T}{s_k^Ty_k} -  \frac{B_ky_ky_k^TB_k}{y_k^TB_ky_k} $


### Fórmula de Broyden-Fletcher-Goldfarb-Shanno
Es una actualización de rango 2 que se deriva de la formula DFP intercambiando los roles de $s_k$ y $y_k$

$H_{k+1} = H_k + \LARGE \frac{y_ky_k^T}{y_k^Ts_k} -  \frac{H_ks_ks_k^TH_k}{s_k^TH_ky_k} $


### Pseudo codigo para BFGS



<img src="./images/pseudo.PNG">

fuente:  Alexandre Gramfort

En el metodo DFP se actualiza la estimación de la inversa de la Hessiana. En el método BFGS se actualiza la esimación de la Hessiana.

Nocedal propone una implementación más eficiante que evita la necesidad de realizar inversión de matrices.  Se debe tener cuidado con la notación pues para Nocedal la matriz H es la inversa de la Hessiana, mientras que B es la estimación de la Hessiana (para Gramfort H representa la Hessiana y B la inversa de la Hessiana).

Para Nocenal la formula recursiva para actualizar la inversa de la matriz Hessiana estimada es:

$H_{k+1}=(I - \rho_k s_k y_k^T)H_k(I - \rho_ky_ks_k^T) + \rho_ks_kS_k^T$

donde:
$\rho_k = \frac{1}{y_k^Ts_k}$

A conitnuación se transcribe el pseudo código del libro de Nocedal

<img src="./images/pseudo1.PNG">

Las condiciones de Wolfe son:

<img src="./images/Wolfe.PNG">

que implica que el tamaño del paso debe ser tal que permita un decrecimiento en la función de manera proporcional tanto al tamaño del paso como a la dirección del gradiente, y la condición de curvatura con $C_2$ perteneciente a $(c_1,1)$



## <span style='background:yellow'> 2.  Implementación de BFGS</span> 

En primer lugar se importan las librarias necesarias para los calculos matriciales

In [8]:
import numpy as np
import numpy.linalg as ln
import scipy as sp
import scipy.optimize
import matplotlib.pyplot as plt

Se contruye una función para las pruebas de implementación, en este caso se usará

$f(x,y) = x^2 -xy + y^2 + 9x - 6y + 20$

basado en la siguiente página:  https://sudonull.com/post/68834-BFGS-method-or-one-of-the-most-effective-optimization-methods-Python-implementation-example

y se realizarán algunas iteraciones manualmente para ilustrar el método:

Se toma como punto inicial:   $x_0 = (1,1)$

Se define un nivel de precisión para la terminación del algoritmo,gradiente mínimo:  $\epsilon = 0.001$

Se calcula el gradiente de la funcion $\nabla f = \begin{bmatrix}2x - y +9 \\-x+2y-6\end{bmatrix}$

-------


**Iteracion No. 0**
se calcula el gradiente en el punto inicial

$\nabla f = \begin{bmatrix}10\\-5\end{bmatrix}$

se evalua la condicion de terminación, con el gradiente mínimo:

$|\nabla f(x_0)| = \sqrt{10^2 + (-5)^2} = 11.18 > 0.001$

En este caso aún no se cumple la condición y se continúa con el algoritmo

Se calcula entonces la dirección de busqueda:

$p_0 = -H_0\nabla f(x_0) = - \begin{bmatrix}1 & 0\\0 & 1\end{bmatrix} \begin{bmatrix}10\\-5\end{bmatrix} = \begin{bmatrix}-10\\5\end{bmatrix}$

en este caso se tomo como $H_0$ a la matriz identidad

se busca entonces el valor de $a_0$ para la actualización de $x_k$


$min(f(x_0 + \alpha p_0))$

$ x_0 + α_0 * p_0 = \begin{bmatrix}1\\1\end{bmatrix} + α_0 \begin{bmatrix}-10\\5\end{bmatrix}= \begin{bmatrix}1 - 10α_0\\ 1 + 5α_0\end{bmatrix} $

se evalúa la función con el parametro $\alpha_0$

$ f (α_0) = (1 - 10α_0) ^ 2 - (1 - 10α_0) (1 + 5α_0) + (1 + 5α_0) ^ 2 + 9 (1 - 10α_0) - 6 (1 + 5α_0) + 20 $

se simplifica, se deriva e iguala a cero para optener el tamaño optimo del paso

$\frac{\partial f}{\partial x} = 350 \alpha_0 - 125 = 0$   por lo tanto $\alpha_0 = 0.357$

se calcula entonces el siguiente punto:

$x_1 = x_0 + \alpha_0 p_0 = \begin{bmatrix}-2.571\\ 2.786\end{bmatrix}$

ahora se calcula $s_0$ que se requiere para la actualización de la estimación de la Hessiana

$s_0 = x_1 - x_0 = \begin{bmatrix}-2.571\\ 2.786\end{bmatrix} - \begin{bmatrix}1\\ 1\end{bmatrix} = \begin{bmatrix}-3.571\\ 1.786\end{bmatrix}$

se calcula entonces del valor de $y_0$

$y_0 = \nabla f(x_1) - \nabla f(x_0) = \begin{bmatrix}1.071\\ 2.143\end{bmatrix} - \begin{bmatrix}10\\ -5\end{bmatrix} = \begin{bmatrix}-8.929\\ 7.143\end{bmatrix}$

para finalizar la iteración 0 se calcula entonces $H_1 = \begin{bmatrix}0.694 & 0.367\\ 0.367 & 0.709\end{bmatrix}$

------


In [None]:
# Se define la función objetivo para las pruebas de implementación

def f(x):
    return x[0]**2 - x[0]*x[1] + x[1]**2 + 9*x[0] - 6*x[1] + 20
  
    
# Derivative
def f1(x):
    return np.array([2 * x[0] - x[1] + 9, -x[0] + 2*x[1] - 6])


def bfgs_method(f, fprime, x0, maxiter=None, epsi=10e-3):
    """
    Función para minimizar la función f usando el BFGS
    Parametros
    ----------
    func : f(x)- Función que se quiere minimizar
    fprime : fprime(x) - gradiente de la función
    x0 : ndarray - Punto inicial de la búsqueda
    maxiter: int - Número máximo de iteraciones
    epsi: double - Criterio de convergencia de la norma del gradiente
    """
    if maxiter is None:
        #Se asigna un límite al numero de iteraciones propocional al numero de variables
        maxiter = len(x0) * 200
    # valores iniciales para la iteración 0
    #gfk es el gradiente de la función evaluado en x0, es un array de dos dimensiones, una por cada variable
    k = 0
    gfk = fprime(x0)
    N = len(x0)
    # Se define la matriz identidad que es la estimación inicial de la inversa de la Hessiana = Hk
    I = np.eye(N, dtype=int)
    Hk = I
    xk = x0
    #si la norma del gradiente en Xk es superior a epsilon, continua iterando y si no se ha superado el numero maximo de iteraciones
    while ln.norm(gfk) > epsi and k < maxiter:
        # pk - se calcula dirección de la búsqueda
        pk = -np.dot(Hk, gfk)
        # Se calcula la constante ak para la búsqueda lineal y que cumpla las condiciones de Wolfe
        #se usa el método line_search de la clase optimize de la libreria scipy con el alias sp
        # https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.line_search.html
        line_search = sp.optimize.line_search(f, f1, xk, pk)
        alpha_k = line_search[0]
        # actualización de Xk a Xk+1
        xkp1 = xk + alpha_k * pk
        #se calcula sk necesario para la actualización de la Hessiana estimada
        sk = xkp1 - xk
        # se actualiza xk para la proxima iteración
        xk = xkp1
        #se calcula el gradiente en el nuevo punto xk
        gfkp1 = fprime(xkp1)
        # se calcula yk necesario para la actualización de la Hessiana estimada
        yk = gfkp1 - gfk
        # se actualiza gfk para la proxima iteración
        gfk = gfkp1
        k += 1
        ro = 1.0 / (np.dot(yk, sk))
        A1 = I - ro * sk[:, np.newaxis] * yk[np.newaxis, :]
        A2 = I - ro * yk[:, np.newaxis] * sk[np.newaxis, :]
        Hk = np.dot(A1, np.dot(Hk, A2)) + (ro * sk[:, np.newaxis] *
                                                 sk[np.newaxis, :])
    return (xk, k)
result, k = bfgs_method(f, f1, np.array([1, 1]))
print('Result of BFGS method:')
print('Final Result (best point): %s' % (result))
print('Iteration Count: %s' % (k))

## 10. Bibliografía

- Chandra Suresh, Jayadera y Mehra Aparna.  Numerical Optimization with Applications.  Narosa Publishing House.  2009.  Segunda Edicion.
- Nocedal Jorge y Wright Stephen.  Numerical Optimization.  Springer.  2006.  Segunda Edicion.
- Butenko Sergiy y Pardalos Panos.  Numerical Methods and Optimizations an Introduction.  Chapman & Hall.  2014.
- Gramfort Alexandre.  (Quasi-)Newton methods.    online: http://www.lix.polytechnique.fr/bigdata/mathbigdata/wp-content/uploads/2014/09/notes_quasi_newton.pdf
