# Extremwertbestimmung für Funktionen von mehreren Veränderlichen mit dem Gradientenverfahren

## Anselm Hudde

![](optimization.png)
**Quelle: Venter, G. (2010). Review of optimization techniques.**

In [None]:
%run Gradientenverfahren.py

## Minimierung von Funktionen mehrerer Veränderlicher

In der Praxis ist es meistens nicht möglich, einen algebraischen Ausdruck für das Minimum einer Funktion
$$
f \colon \mathbb R^n \to \mathbb R
$$
zu bestimmen.
Es wird hier mit **numerischen Methoden** gearbeitet.

## Beispielfunktion

Wir betrachten die Funktion

\begin{equation}f(x_{1}, x_{2}) = \sin(x_{1}) + 0.05 x_{1}^2 + 0.1 x_{2}^2, \end{equation}

welche wir minimieren wollen:

In [None]:
import numpy as np

def f(x):
    return np.sin(x[0]) + 0.05*x[0]**2 + 0.1*x[1]**2

surface_plot = plot()
surface_plot.plot_surface(-5,1,-3,3,f)

contour_plot = plot()
contour_plot.plot_contour(-5,1,-3,3,f)

show_plot(contour_plot, surface_plot)

## Gradientabstieg: Die Idee

Die allgemeine Idee des Gradientenabstiegs ist es, immer in die Richtung des steilsten Abstiegs zu gehen.

Hierzu wiederholen wir den Gradienten: 

**Definition:**
Der Gradient der Funktion $f \colon \mathbb{R}^{n} \to \mathbb{R}$ ist die Funktion

\begin{equation}
\nabla f \colon \mathbb{R}^{n} \to \mathbb{R}^{n};~~
x =
\begin{pmatrix}
x_{1} \\ \vdots \\ x_{n}
\end{pmatrix}
\mapsto
\begin{pmatrix}
\tfrac{\partial f}{\partial x_{1}} (x) \\ \vdots \\ \tfrac{\partial f}{\partial x_{n}} (x)
\end{pmatrix}.
\end{equation}

## **Intuition:** Der Gradient zeigt immer in die Richtung des steilsten Aufstiegs.

**Beispiel 1:** $f(x_{1}, x_{2}) = x_1$, $\nabla f(x_{1}, x_{2}) = \begin{pmatrix} 1 \\ 0 \end{pmatrix}$.

In [None]:
surface_plot = plot()
surface_plot.plot_surface(0,4,0,4,function = lambda x: x[0])
surface_plot.show()

**Beispiel 2:** $f(x_{1}, x_{2}) = \tfrac{1}{2} (x_{1} + x_{2})$, $\nabla f(x_{1}, x_{2}) = \begin{pmatrix} \tfrac{1}{2} \\ \tfrac{1}{2} \end{pmatrix}$.

In [None]:
surface_plot = plot()
surface_plot.plot_surface(0,4,0,4,function = lambda x: (1/3)*(x[0]+x[1]))
surface_plot.show()

## Berechnung des Gradienten von $f$

Der Gradient von 
$𝑓(x_{1}, x_{2})= \sin(𝑥_{1})+0.05 𝑥_{1}^{2} + 0.1 x_{2}^{2}$:

\begin{equation}
\nabla f(x_{1}, x_{2})
=
\begin{pmatrix}
\frac{\partial f}{\partial x_{1}} \\ \frac{\partial f}{\partial x_{2}} \end{pmatrix}
=
\begin{pmatrix}
\cos(x_{1}) + 0.1 x_{1} \\ 0.2 x_{2}
\end{pmatrix}
\end{equation}

**Beispiele:**

\begin{equation}
\nabla f(-4, -2) =
\begin{pmatrix}
-1.05 \\ -0.40
\end{pmatrix},
\end{equation}
\begin{equation}
\nabla f(-1, 2) =
\begin{pmatrix}
0.44 \\ 0.20
\end{pmatrix}.
\end{equation}


In [None]:
def grad_f(x):
    return np.array([np.cos(x[0])+0.1*x[0], 0.2*x[1]])

contour_plot.add_gradients(grad_f)
contour_plot.show()

## Die Schritte des Gradientenverfahrens

Wir starten in einem Punkt $x^{(0)} \in \mathbb{R}^{2}$.
Für den $n$-ten Schritt berechnen wir den Gradienten
$\nabla f(x^{(n)})$,
und gehen einen Schritt in die Gegenrichtung, wobei wir den Gradienten vorher mit der Lernrate $\gamma$ multiplizieren:

\begin{equation}
	x^{(n+1)}= x^{(n)} - \gamma \nabla f({x}^{(n)}),\ n\geq 0.
\end{equation}

### Lernrate $\gamma = 1$:

Wir starten im Punkt
$x^{(0)} = \begin{pmatrix} -4 \\ -2 \end{pmatrix}$
und mit einer Lernrate von $\gamma = 1$.
Dann haben wir

\begin{equation} \nabla f(x^{(0)}) =
\begin{pmatrix}\cos(-4)+0.1\cdot(-4) \\ 0.2\cdot(-2) \end{pmatrix}
=
\begin{pmatrix} -1.05 \\ -0.40 \end{pmatrix}
\end{equation}

und damit

\begin{equation}
x^{(1)} = x^{(0)} + \gamma_{0} \cdot \nabla f(x^{(0)})
=
\begin{pmatrix} -4 \\ -2 \end{pmatrix}
- 1 \cdot 
\begin{pmatrix} -1.05 \\ -0.40 \end{pmatrix}
=
\begin{pmatrix}
-2.95 \\ -1.60
\end{pmatrix}.
\end{equation}
Die nächsten Schritte folgen analog:

$x^{(2)} = \begin{pmatrix} -1.67 \\ -1.28\end{pmatrix}, ~
x^{(3)} = \begin{pmatrix} -1.40 \\ -1.02\end{pmatrix}, ~\dots$

In [None]:
# Gradientenabstieg mit Lernrate gamma = 1:

def f(x):
    return np.sin(x[0]) + 0.05*x[0]**2 + 0.1*x[1]**2

def grad_f(x):
    return np.array([np.cos(x[0])+0.1*x[0], 0.2*x[1]])

contour_plot = plot()
contour_plot.plot_contour(-5,1,-3,3,f)

surface_plot = plot()
surface_plot.plot_surface(-5,1,-3,3,f, opacity=0.5)

i = 1

Die folgende Zelle führt die einzelnen Schritte des Gradientenverfahrens mit der Lernrate $\gamma = 1$ aus.
Die wiederholte Ausführung dieser Zelle zeigt, wie das Gradientenverfahren konvergiert.

In [None]:
contour_plot.add_gradient_descent(x0=[-4, -2], function = f, grad=grad_f, gamma=1, iterations=i, color = "#636EFA")
surface_plot.add_gradient_descent_surface(x0=[-4, -2], function = f, grad=grad_f, gamma=1, iterations=i, color = "#636EFA")
show_plot(contour_plot, surface_plot)
i += 1

### Das Gradientenverfahren mit einer Lernrate von $\gamma = 0.1$ ist langsamer:

In [None]:
i = 100

Die folgenden Zelle führt die einzelnen Schritte des Gradientenverfahrens mit der Lernrate $\gamma = 0.1$ durch.
Wenn wir diese Zelle mehrmals hintereinander ausführen sehen wir, wie das Gradientenverfahren langsam konvergiert.

In [None]:
# Gradientenabstieg mit Lernrate gamma = 0.1:

contour_plot.add_gradient_descent(x0=[-4, -2], function = f, grad=grad_f, gamma=0.1, iterations=i, color = "#EF553B")
surface_plot.add_gradient_descent_surface(x0=[-4, -2], function = f, grad=grad_f, gamma=0.1, iterations=i, color = "#EF553B")
show_plot(contour_plot, surface_plot)
i+=1

### Gradientenverfahren mit Lernrate $\gamma = 2$ konvergiert nicht:

In [None]:
i = 1

Die folgenden Zelle führt die einzelnen Schritte des Gradientenverfahrens mit der Lernrate $\gamma = 2$ durch.
Wenn wir diese Zelle mehrmals hintereinander ausführen sehen wir, dass das Gradientenverfahren in diesem Fall nicht konvergiert.
Die Lösung springt hin- und her.

In [None]:
# Gradientenabstieg mit Lernrate gamma = 2:

contour_plot.add_gradient_descent(x0=[-4, -2], function = f, grad=grad_f, gamma=2, iterations=i, color = "#00CC96")
surface_plot.add_gradient_descent_surface(x0=[-4, -2], function = f, grad=grad_f, gamma=2, iterations=i, color = "#00CC96")
show_plot(contour_plot, surface_plot)
i += 1

## Einfluss des Startpunktes:

Wenn die Funktion $f$ mehrere lokale Minima hat, spielt die Wahl des Startpunktes eine große Rolle:

In [None]:
import numpy as np
def f(x):
    return np.sin(x[0]) + 0.05*x[0]**2 + 0.1*x[1]**2

contour_plot = plot()
contour_plot.plot_contour(-5,6,-3,3,f)

surface_plot = plot()
surface_plot.plot_surface(-5,6,-3,3,f)

show_plot(contour_plot, surface_plot)

In [None]:
import random

x0=[random.uniform(-5,6),random.uniform(-3,3)]

contour_plot.add_gradient_descent(x0=x0, function = f, grad=grad_f, gamma=1, iterations=30)
surface_plot.add_gradient_descent_surface(x0=x0, function = f, grad=grad_f, gamma=1, iterations=30)
show_plot(contour_plot, surface_plot)

## Das Gradientenverfahren mit `SciPy`

Die vorgestellte Methode ist für den praktischen Einsatz noch zu einfach, in der praktischen Anwendung gibt es noch viele Probleme zu beachten.
Daher nimmt man in der Regel eine bereits vorhandene Implementierung.
Das Python-Paket `SciPy` mit der Funktion `minimize` ist dafür sehr gut geeignet.
Es genügt, die zu minimierende Funktion und den Startpunkt einzugeben:

In [None]:
import numpy as np
from scipy.optimize import minimize

def f(x):
    return np.sin(x[0]) + 0.05*x[0]**2 + 0.1*x[1]**2

minimize(fun=f, x0=np.array([-4,-2]))