# Programmieraufgabe 08: BFGS und iBFGS

Ähnlich wie in Programmieraufgabe 7 das Newton-Verfahren, sollen dieses mal das BFGS-Verfahren und das inverse BFGS-Verfahren untersucht werden.

Tragen Sie zunächst in der folgenden Zelle **beide** Ihre Namen ein:

In [None]:
# Numerische Optimierungsverfahren der Wirtschaftsmathematik
# Wintersemester 2025/2026
# Übungsblatt 8 - Programmieraufgabe 8
#
# [Nachname], [Vorname]
# [Vorname.Nachname@uni-a.de]
# 
# [Nachname], [Vorname]
# [Vorname.Nachname@uni-a.de]

Führen Sie die folgende Zelle zu Beginn einmal aus, selbst wenn Sie ihre Importe selbst definieren. Sie werden unter anderem auch für das Plotting benötigt.

In [None]:
import numpy as np
import numpy.linalg as la

import matplotlib.pyplot as plt

Sie können dieses mal bereits vorimplementierte Funktionen für die Schrittweiten benutzen. Beide erhalten als Argumente eine Funktion `f`, ihren Gradienten `g`, eine aktuelle Iterierte `x` und eine Suchrichtung `direction` und geben eine Schrittweite `alpha` zurück. `x` und `direction` sind dabei Numpy-Arrays mit den gleichen Dimensionen.

In [None]:
from util.step_sizes_08 import wolfe_powell_step_size, constant_step_size

#Beispiel
f = lambda x : x[0]**2 + x[1]**2
g = lambda x : np.array([2*x[0], 2*x[1]])
x = np.array([0.1, 1.0])
direction = -g(x)

print(wolfe_powell_step_size(f, g, x, direction))
print(constant_step_size(f, g, x, direction))


Implementieren Sie nun das globale inverse BFGS-Verfahren (Algorithmus 3.16). Beachten Sie dabei folgende Unterschiede zum Skript:
- Erlauben Sie nicht nur (wie im Skript) die Wolfe-Powell-Regel, sondern eine beliebige Schrittweite. Verwenden Sie dazu das Argument `step_size`, das später mit den Funktionen `wolfe_powell_step_size` und `constant_step_size` von oben aufgerufen wird.
- Das Verfahren soll stoppen, wenn $|f(x^{(k+1)}) - f(x^{(k)})| < \text{tol}$ erfüllt ist oder die maximale Anzahl an Iterationen ausgeführt wurde. Den Gradienten müssen Sie dabei, anders als im Skript, nicht überprüfen.

**Tipp:** Achten Sie zusätzlich darauf, dass Sie tatsächlich *Matrizen* als Updates verwenden, denn `v @ w.T` berechnet etwas unerwartet das Skalarprodukt der Vektoren `v` und `w`, also $v^Tw$. Für $v w^T$ verwenden Sie zum Beispiel `np.outer(v, w)`. 

In [None]:
def iBFGS(f, g, x_0, step_size, B_0 = None, tol = 1e-16, kmax = 100):
    '''
        Globales inverses BFGS-Verfahren

        Parameter:
            f         : Die zu minimierende Funktion f
            g         : Funktion, die den Gradienten von f zurückgibt
            x_0       : Startvektor
            step_size : Funktion, die als Argumente f, g, die aktuelle 
                        Iterierte x und die aktuelle Richtung direction 
                        erhält und eine Schrittweite alpha zurückgibt
            B_0       : Initiale Approximation der (inversen) Hesse-Matrix.
                        Als Default-Wert (B_0 is None) verwenden Sie die
                        Einheitsmatrix
            tol       : Abbruchkriterium
            kmax      : Maximale Anzahl an Iterationen

        Rückgabewert:
            iterates : Vektor der Iterierten. Dabei ist iterates[0,:]
                       der Startwert, iterates[-1,:] der Rückgabewert
                       und len(iterates) - 1 die Anzahl an Iterationen
    '''

    ???

Als Testfunktionen verwenden wir wieder die Rosenbrock, Himmelblau und Sattel Funktionen aus Aufgabe 7. Aus Platzgründen importieren wir sie hier, die Definition entspricht aber exakt der vorherigen Aufgabe.

In [None]:
from util.functions_08 import rosenbrock_funktion, rosenbrock_gradient, himmelblau_funktion, himmelblau_gradient, sattel_funktion, sattel_gradient

Das globale inverse BFGS-Verfahren sollte in ca. 34 Schritten in die Nähe des Minimums (1, 1) konvergieren:

In [None]:
iterates = iBFGS(rosenbrock_funktion, rosenbrock_gradient, np.array([-1.3, 1.0]), wolfe_powell_step_size, tol = 1e-8)
print(f'Das globale inverse BFGS-Verfahren konvergiert in {len(iterates)-1} Schritten zu {iterates[-1,:]}.')

Implementieren Sie als nächstes das globale BFGS-Verfahren. Dieses ist genau so wie das inverse BFGS von oben definiert, nur dass die neue Richtung nicht als $d^{(k)} = -B_k\nabla f(x^{(k)}$, sondern als Lösung von $H_kd^{(k)} = - \nabla f(x^{(k)})$ berechnet wird und für $H_{k+1}$ die BFGS-Formel (3.25) verwendet wird. Alles übrige (Schrittweiten, Abbruchkriterium, ...) soll der Funktion `iBFGS` entsprechen.

In [None]:
def BFGS(f, g, x_0, step_size, H_0 = None, tol = 1e-16, kmax = 100):
    '''
        Globales inverses BFGS-Verfahren

        Parameter:
            f         : Die zu minimierende Funktion f
            g         : Funktion, die den Gradienten von f zurückgibt
            x_0       : Startvektor
            step_size : Funktion, die als Argumente f, g, die aktuelle 
                        Iterierte x und die aktuelle Richtung direction 
                        erhält und eine Schrittweite alpha zurückgibt
            H_0       : Initiale Approximation der Hesse-Matrix. Als
                        Default-Wert (H_0 is None) verwenden Sie die
                        Einheitsmatrix
            tol       : Abbruchkriterium
            kmax      : Maximale Anzahl an Iterationen

        Rückgabewert:
            iterates : Vektor der Iterierten. Dabei ist iterates[0,:]
                       der Startwert, iterates[-1,:] der Rückgabewert
                       und len(iterates) - 1 die Anzahl an Iterationen
    '''

    ???

Da beide Verfahren aufgrund der Sherman-Morrison-Woodbury-Formel die selben Iterationen definieren, sollten die Folgen $x^{(k)}$ bis auf numerische Fehler übereinstimmen:

In [None]:
iterates_iBFGS = iBFGS(rosenbrock_funktion, rosenbrock_gradient, np.array([-1.3, 1.0]), wolfe_powell_step_size, B_0 = np.array([[0.5, 0.0], [0.0, 0.5]]), tol = 1e-8)
iterates_BFGS  =  BFGS(rosenbrock_funktion, rosenbrock_gradient, np.array([-1.3, 1.0]), wolfe_powell_step_size, H_0 = np.array([[2.0, 0.0], [0.0, 2.0]]), tol = 1e-8)

assert len(iterates_iBFGS) == len(iterates_BFGS)
for i in range(len(iterates_iBFGS)):
    #print(f'iBFGS: {iterates_iBFGS[i]}\t\tBFGS: {iterates_BFGS[i]}\t\tdifference: {la.norm(iterates_iBFGS[i] - iterates_BFGS[i])}')
    assert la.norm(iterates_iBFGS[i] - iterates_BFGS[i]) < 1e-8

Wie in Programmieraufgabe 07 vergleichen wir nun lokale und globale Verfahren. Für das lokale Verfahren verwenden wir einfach die Schrittweitenregel `constant_step_size`. Da `BFGS` und `iBFGS` bis auf numerische Fehler die selben Iterationen erzeugen, erzeugen wir die Grafiken im Folgenden nur für das inverse BFGS-Verfahren. Sie können aber gerne auch ihre Implementierung des BFGS-Verfahren testen, in dem Sie im Folgenden `iBFGS` durch `BFGS` ersetzen.

In [None]:
# Diese Zeilen werden für die plots benötigt
import matplotlib.pyplot as plt
from mpl_toolkits.axes_grid1 import make_axes_locatable

from util.plotting_08 import plot_08

resolution = (45, 30)

In [None]:
x_range = (-1.5, 1.5)
y_range = (-0.4, 1.6)
plot_08(iBFGS, constant_step_size, wolfe_powell_step_size, rosenbrock_funktion, rosenbrock_gradient, *resolution, *x_range, *y_range, kmax = 100, tol = 1e-16)

# Das lokale iBFGS-Verfahren hat große gelbe Bereiche, in denen in 100 Schritten keine Konvergenz auftritt

In [None]:
x_range = (-7.5, 7.5)
y_range = (-5.0, 5.0)
plot_08(iBFGS, constant_step_size, wolfe_powell_step_size, himmelblau_funktion, himmelblau_gradient, *resolution, *x_range, *y_range, kmax = 100, tol = 1e-16)

In [None]:
x_range = (-9.0, 6.0)
y_range = (-5.0, 5.0)
plot_08(iBFGS, constant_step_size, wolfe_powell_step_size, sattel_funktion, sattel_gradient, *resolution, *x_range, *y_range, kmax = 100, tol = 1e-16)