Aplicacion del Algoritmo BFGS

In [None]:
import numpy as np

# ---------------------------------------------------------
# Definición de la función, gradiente y log-sum-exp seguro
# ---------------------------------------------------------
def f(x):
    # x es un vector [x0, x1]
    x1, x2 = x
    A = np.exp(x1**2 + x2**2) + 10 * np.exp(x1)
    return np.log(A)

def grad_f(x):
    x1, x2 = x
    A = np.exp(x1**2 + x2**2) + 10 * np.exp(x1)
    dfdx1 = (2 * x1 * np.exp(x1**2 + x2**2) + 10 * np.exp(x1)) / A
    dfdx2 = (2 * x2 * np.exp(x1**2 + x2**2)) / A
    return np.array([dfdx1, dfdx2])

# ---------------------------------------------------------
# Búsqueda de línea con condición de Armijo
# ---------------------------------------------------------
def line_search_armijo(f, grad_f, xk, pk, alpha0=1.0, c=1e-4, rho=0.5):
    alpha = alpha0
    fk = f(xk)
    gradk = grad_f(xk)
    while f(xk + alpha * pk) > fk + c * alpha * np.dot(gradk, pk):
        alpha *= rho
        if alpha < 1e-10:
            break
    return alpha

# ---------------------------------------------------------
# Método BFGS
# ---------------------------------------------------------
def bfgs(f, grad_f, x0, tol=1e-6, max_iter=1000):
    xk = x0.copy()
    n = len(xk)
    Hk = np.eye(n)  # matriz de aproximación del inverso del Hessiano
    fk = f(xk)
    gk = grad_f(xk)
    iter_data = [(0, xk.copy(), fk, np.linalg.norm(gk))]

    for k in range(1, max_iter + 1):
        # Dirección de búsqueda
        pk = -Hk.dot(gk)

        # Búsqueda de línea (Armijo)
        alpha = line_search_armijo(f, grad_f, xk, pk)

        # Actualización de x
        x_new = xk + alpha * pk
        g_new = grad_f(x_new)
        s = x_new - xk
        y = g_new - gk

        # Condición de actualización BFGS (evitar divisiones malas)
        if np.dot(y, s) > 1e-10:
            rho = 1.0 / np.dot(y, s)
            I = np.eye(n)
            Hk = (I - rho * np.outer(s, y)) @ Hk @ (I - rho * np.outer(y, s)) + rho * np.outer(s, s)

        # Actualizar variables
        xk, gk, fk = x_new, g_new, f(x_new)
        iter_data.append((k, xk.copy(), fk, np.linalg.norm(gk)))

        # Criterios de paro
        if np.linalg.norm(gk) < tol:
            break

    return xk, fk, np.linalg.norm(gk), k, iter_data

# ---------------------------------------------------------
# Ejemplo de ejecución
# ---------------------------------------------------------
if __name__ == "__main__":
    x0 = np.array([0.0, 0.0])   # punto inicial
    x_opt, f_opt, grad_norm, iters, history = bfgs(f, grad_f, x0)

    print("Resultado BFGS:")
    print(f"  x* = {x_opt}")
    print(f"  f(x*) = {f_opt:.6f}")
    print(f"  ||grad|| = {grad_norm:.2e}")
    print(f"  Iteraciones = {iters}")


El script está organizado en tres bloques funcionales:

Definición del problema: f(x) y grad_f(x).

Búsqueda de línea: line_search_armijo(...).

Algoritmo BFGS: bfgs(...) que llama a la búsqueda de línea y actualiza la aproximación del inverso del Hessiano.
Al final hay un if __name__ == "__main__": con un ejemplo de ejecución.

1. Explicacion de la funcion :

Qué hace: grad_f(x) Calcula ∇f usando las fórmulas analíticas que derivamos.

Por qué usar el gradiente analítico: BFGS es un método cuasi-Newton que requiere gradientes para construir las actualizaciones. Calcular el gradiente analíticamente es más preciso y rápido que aproximarlo por diferencias finitas.


2. Explicacion de la funcion :

line_search_armijo(...) — búsqueda de línea simple (Armijo / backtracking)

Qué hace: 
- Intenta alpha=1 y si el nuevo punto no satisface la condición de Armijo (descenso suficiente), reduce alpha multiplicándolo por rho (0.5) repetidamente (backtracking).

Parámetros importantes:

c: constante de Armijo (típico 10^(-4))

rho: factor de reducción (0.5) — cada iteración divide alpha por 2.

Por qué usar Armijo simple: es fácil de implementar y suele ser suficiente para BFGS en problemas suaves.

3. Explicacion de la funcion :

bfgs(f, grad_f, x0, tol=1e-6, max_iter=1000): - El nucleo del algoritmo