# Nullstellenbestimmung mit dem Newton-Verfahren

## Anselm Hudde

![](GodfreyKneller-IsaacNewton-1689.jpg)

In [None]:
%run newton.py

# Lernziele

- In welchen Anwendungsbereichen kommt die Nullstellensuche vor?

- Wie funktioniert das Newton-Verfahren zur Nullstellensuche?

- Wie lässt sich das Newton-Verfahren anwenden, um Extrempunkte von Funktionen zu finden?



## Beispiele:

### (1) Die Wurzel einer Zahl numerisch bestimmen

Wir haben eine Zahl $a$ und wollen die Wurzel $\sqrt{a}$ ausrechnen.
Die Wurzel von $a$ ist die Lösung $x$ der Gleichung
$$
x^2 = a,
$$
bzw. die Nullstelle der Funktion
$$
f(x) = x^2 - a.
$$

In [None]:
x = np.linspace(0, 5, 500)
y = x**2 - 5
fig = go.Figure()
fig.add_scatter(x = x, y = [0]*500, line_color = "grey", name ='x=0')
fig.add_scatter(x = x, y = y, line_color = "blue", name = 'f(x)')
fig.add_scatter(x = [np.sqrt(5)], y = [0], line_color = "red", name = r'$x^2 = 5$')
fig.update_layout(
    xaxis_title = 'x',
    yaxis_title = 'f(x)',
    title = r'$\text{Die Nullstelle von }f(x) = x^2 - 5 \text{ ist }\sqrt{5}$',
    title_x = 0.5,
    template = 'plotly_white')

### (2) Den Schnittpunkt von zwei Funktionsgraphen bestimmen

Wir wollen einen Wert $x \in \mathbb R$ finden, so dass
$$
\cos(x^3) = x
$$
gilt.

In [None]:
x = np.linspace(-3, 3, 500)
y = np.cos(x**3)
fig = go.Figure()
fig.add_scatter(x = x, y = y, name ='r$\cos(x^3)$')
fig.add_scatter(x = x, y = x, name = 'x')
fig.update_layout(
    xaxis_title = 'x',
    yaxis_title = 'f(x)',
    title = r'$\text{Die Funktionsgleichung }\cos(x^3) = x$',
    title_x = 0.5,
    template = 'plotly_white')

### (3) Das Maximum einer Funktion bestimmen

Ein Investor will € $10\,000$ in ein Portfolio mit zwei verschiedenen Aktien, $A$ and $B$, investieren.

- Erwartete jährliche Rendite:

    Aktie $A$: $r_{A} = 7\%$

    Aktie $B$: $r_{B} = 9\%$
    
    
- Volatilitäten:

    Aktie $A$: $\sigma_{A} = 20\%$

    Aktie $B$: $\sigma_{B} = 30\%$
    
    
- Korrelation:

    $\rho_{A, B} = 0.2$
    
Der Investor will bei 100% Investitionsgrad das Risiko minimieren, und das Geld deswegen so investieren, dass die Volatilität (das Risiko) so klein wie möglich wird.

Die Volatilität eines Portfolios, welches aus $x \times 10\,000$ € in Aktie $A$ und $(1 - x)  \times 10\,000$ € in Aktie $B$ besteht, kann folgendermaßen ausgedrückt werden:

$$
\sigma_x
=
\sqrt{ \sigma_{A}^2 x^2 + \sigma_{B}^2 (1 - x)^2 + 2 \sigma_{A} x \sigma_{B} (1 - x) \rho_{A, B}}.
$$

Unser Ziel ist es, den Wert von $x$ zu finden, für den $\sigma_x$ minimal wird.
Also die Aufteilung des Portfolios in beide Aktien, so dass das Risiko minimiert wird.

In [None]:
x = np.linspace(0, 1, 500)
y = np.sqrt(0.2**2 * x**2 + 0.3**2 * (1 - x)**2 + 2*0.2*x * 0.3*(1-x) * 0.2)
fig = go.Figure()
fig.add_scatter(x = x, y = y, name = r'$\sigma_x$')
fig.update_layout(
    xaxis_title = 'Anteil Aktie A',
    yaxis_title = 'Volatilität',
    title = 'Volatilität in Abhängigkeit vom Investmentgrad in Aktie A',
    title_x = 0.5,
    showlegend = True,
    template = 'plotly_white')

Es wird noch einfacher, wenn wir die Varianz (die quadrierte Volatilität) des Portfolios

$$
f(x)
=
\sigma^2_x
=
\sigma_{A}^2 x^2 + \sigma_{B}^2 (1 - x)^2 + 2 \sigma_{A} x \sigma_{B} (1 - x) \rho_{A, B}
$$
minimieren.

Unser Ziel ist es, den Wert von $x$ zu finden, für den $f(x)$ minimal wird.
Also die Aufteilung des Portfolios in beide Aktien, so dass das Risiko minimiert wird.

In [None]:
x = np.linspace(0, 1, 500)
y = 0.2**2 * x**2 + 0.3**2 * (1 - x)**2 + 2*0.2*x * 0.3*(1-x) * 0.2
fig.add_scatter(x = x, y = y, name = r'$\sigma^2_x$')
fig.update_layout(
    xaxis_title = 'Anteil Aktie A',
    yaxis_title = 'Volatilität',
    title = 'Volatilität in Abhängigkeit vom Investmentgrad in Aktie A',
    title_x = 0.5,
    showlegend = True,
    template = 'plotly_white')

## Nullstellensuche für Beispiel (2)

Wir wollen die Nullstelle der Gleichung
$$
\cos(x^3) - x = 0
$$
berechnen.
Hierzu definieren wir die Funktion
$$
f(x) = \cos(x^3) - x,
$$
und plotten diese:

In [None]:
def f(x):
    return np.cos(x**3) - x 

function_plot = plot()
function_plot.plot_function(-3,3,f)

plot(function_plot)

Um die Nullstelle zu finden, wählen wir einen geeigneten Startpunkt ($x_0 = 0$), und sehen uns das Problem genauer an:

In [None]:
x_0 = 0
y_0 = f(x_0)
function_plot.add_point(x_0, f)
plot(function_plot)

Der Wert von $f(0)$ ist

In [None]:
y_0 = f(0)
y_0

Wir sehen, dass wir in nächsten Schritt einen etwas größeren Wert $x_1$ wählen müssen, da die Funktion in der Umgebung von $x_0 = 0$ monoton sinkt.
Diese könnten wir auch nachrechnen, indem wir die Ableitung von $f$
$$
f(x) = \cos(x^3) - x,
$$
 ausrechnen:
$$
f'(x) = -3x^2\sin(x^3) - 1,
$$
und $x_0=0$ einsetzen:
$$
f'(0) = -1.
$$
Damit können wir auch die Tangente im Punkt $x=0$ einzeichnen:

In [None]:
def df(x):
    return -3*x**2 * np.sin(x**3) - 1

function_plot_2 = deepcopy(function_plot)

function_plot_2.add_tangent(x_0, f, df)
plot(function_plot_2)

Doch wie weit rücken wir mit $x$ nach rechts?
Was ist beste Schrittweite $h$?
Der obige Plot zeigt uns, dass der Schnittpunkt der Tangente mit der x-Achse eine gute Näherung ist.
Wir müssen also die Gleichung
$$
f(x) + h f'(x) = 0
$$
nach $h$ auflösen, und erhalten
$$
h = - \frac{f(x)}{f'(x)}
$$
Wir rechnen den Wert $h$ aus und erhalten:
$$
h =  - \frac{f(0)}{f'(0)} = - \frac{1}{-1} = 1.
$$
Damit setzen wir
$$
x_1 = x_0 + h = 0 + 1 = 1.
$$

In [None]:
i = 1

Die folgende Zeile kann man mehrmals hintereinander ausführen, und so beobachten, wie das Verfahren konvergiert.

In [None]:
function_plot.add_newton_iteration(x_0, f, df, Iterationen = i)
i += 1

plot(function_plot)

Wenn wir diese Schritte wiederholen, konvergiert das Verfahren schließlich zur Nullstelle der Funktion $f$:
>### Newton-Verfahren zur Nullstellensuche
>
>**Wähle:** Startwert $x_0$
>
> **In Schritt $i = 1, \dots, N$ rechne**
>
> $$
x_{i+1} = x_i - \frac{f(x_i)}{f'(x_i)}.
$$

## Wahl des Anfangswerts

Nicht für jeden Anfangswert ist das Newton-Verfahren erfolgreich.

In [None]:
function_plot = plot()
function_plot.plot_function(-3, 3, f)
plot(function_plot)

In der folgenden Zeile legen wir einen Startwert x_0 fest:

In [None]:
x_0 = -1.5
i = 1

In [None]:
function_plot.add_newton_iteration(x_0, f, df, Iterationen = i)
i += 1

plot(function_plot)

## Was läuft hier schief?

Der Wert der Ableitung $f'(x)$ verändert sich sehr schnell, weshalb die Approximation über die erste Ableitung

$$
f(x + h) \not\approx f(x) + h f'(x)
$$

nicht mehr gut funktioniert.
Das Newton-Verfahren basiert aber auf der Annahme, dass sich $f$ in einer Umgebung von $x_0$ gut durch die Tangente in $x_0$ approximieren lässt, also

$$
f(x_0 + h) \approx f(x_0) + h f'(x_0).
$$

In diesem Fall funktioniert dies aber nicht, da sich der Wert der Ableitung zu sehr verändert.
Die zweite  Ableitung von $f$

$$
f''(x)
=
\frac{d}{dx} \left( -3x^2 \sin(x^3) - 1 \right)
=
-6x \sin(x^3) - 9x^4 \cos(x^3)
$$

nimmt in $x = -1.5$ den sehr hohen Wert

In [None]:
def ddf(x):
    return -6*x*np.sin(x**3) - 9*x**4*np.cos(x**3)

print('f''(-1.5) = ' + str(round(ddf(-1.5), 2)))

an.

Wir können dies auch präzise als Kriterium formulieren:
> ## Konvergenzkriterium
>
>
> Das Newton-Verfahren konvergiert, wenn für den Startwert $x_0$ und alle Folgenden Werte $x_i$ die Ungleichung
>
> $$
\left| \frac{f(x_i) f''(x_i)}{f'(x_i)^2} \right| < 1,~~i = 0, 1, 2, \dots
$$
>
> erfüllt ist.

## Anwendung in der Optimierung: Beispiel (3) – Extremwert einer Funktion

Für eine strikt positive Funktion $f \geq 0$ lässt sich das Newton-Verfahren auch zum Finden eines Minimums anwenden.
Wir kehren hierfür zum Eingangsbeispiel zurück:

$$
f (x)
=
\sigma_{A}^2 x^2 + \sigma_{B}^2 (1 - x)^2 + 2 \sigma_{A} x \sigma_{B} (1 - x) \rho_{A, B}.
$$

Unser Ziel ist es, den Wert von $x$ zu finden, für den $f(x)$ minimal wird.

In [None]:
def f(x):
    return 0.2**2 * x**2 + 0.3**2 * (1 - x)**2 + 2*0.2*x * 0.3*(1-x) * 0.2

In [None]:
function_plot = plot()
function_plot.plot_function(0,1,f)

i = 1;
plot(function_plot)

Hier können wir die Ableitung $f'(x)$ der Funktion $f$ berechnen, und die Nullstelle von $f'$ bestimmen.
Dies ist dann das Minimum von $f$.


## Newton-Verfahren zur Bestimmung eines Minimums

Wir benötigen also einen Startwert $x_0$, und in jedem Schritt rechnen wir

$$
x_{i+1} = x_i - \frac{f'(x_i)}{f''(x_i)}.
$$

Die ersten beiden Ableitungen von $f$ sind

$$
\begin{aligned}
f'(x)
&=
2 \sigma_A^2 x + 2 \sigma_B^2 (x - 1) + 2 \sigma_A \sigma_B \rho_{A, B} (1 - 2x) \\
f''(x)
&=
2 \sigma_A^2 + 2 \sigma_B^2 - 4 \sigma_A \sigma_B \rho_{A, B}
\end{aligned}
$$

In [None]:
def df(x):
    return 2*0.2**2*x + 2*0.3**2*(x-1) + 2*0.2*0.3*0.2*(1-2*x)

def ddf(x):
    return 2*0.2**2 + 2*0.3**2 - 4*0.2*0.3*0.2

i = 1
x_0 = 0

In [None]:
function_plot.add_newton_iteration_extremum(x_0, f, df, ddf, Iterationen = i)
i += 1

plot(function_plot)

In diesem Fall liefert das Newton-Verfahren sogar schon nach einer Iteration die richtige Lösung.

## Anwendung in der Optimierung: Lokales und globales Minimum

Eine weiteres Beispiel ist die Funktion
$$
f(x) = x^4 - 4x^2 + x.
$$
Wir plotten die Funktion zuerst:

In [None]:
def f(x):
    return x**4 - 4*x**2 + x

function_plot = plot()
function_plot.plot_function(-3,3,f)

function_plot.update_layout(
    xaxis_title = 'x',
    title = r'$f(x) = x^4 - 4x^2 + x$',
    title_x = 0.5,
    showlegend = True,
    template = 'plotly_white')

plot(function_plot)

Wir sehen, dass die Funktion zwei lokale Minima hat, wobei das globale Minimum links der $y$-Achse liegt.

Wir leiten die Funktion ab:

$$
f'(x) = 4x^3 - 8x + 1.
$$

Die Nullstelle dieser Ableitung zu finden kann sehr schwierig sein.
Das Newton-Verfahren funktioniert hier allerdings sehr gut.
Dazu bestimmen wir auch die zweite Ableitung:

$$
f''(x) = 12x^3 - 8.
$$

In [None]:
def df(x):
    return 4*x**3 - 8*x + 1

def ddf(x):
    return 12*x**2 - 8

x_0 = -1
i = 1

In [None]:
function_plot.add_newton_iteration_extremum(x_0, f, df, ddf, Iterationen = i)
i += 1

plot(function_plot)

In diesem Fall ist auch die Wahl eines geeigneten Startwerts sehr wichtig, wie wir anhand des Startwerts $x_0 = 1$ sehen:

In [None]:
x_0 = 1
i = 1

In [None]:
function_plot.add_newton_iteration_extremum(x_0, f, df, ddf, Iterationen = i, color = "green")
i += 1

plot(function_plot)

## Das Newton-Verfahren mit `scipy`

Meistens lohnt es sich, das Newton-Verfahren nicht selbst zu implementieren, sondern auf bestehende Pakete zurückzugreifen.
Das Python-Paket `scipy` hat dafür die Funktion `newton`.
Es reicht hierbei aus, die zu minimierende Funktion anzugeben.

In [None]:
# Mit Scipy optimieren
import numpy as np
from scipy.optimize import newton

def f(x):
    return np.sin(x[0]) + 0.05*x[0]**2

newton(func=f, x0=np.array([-4]))

## Das Newton-Verfahren in der mehrdimensionalen Optimierung

Hierzu betrachten wir die Funktion

$$
f(x_{1}, x_{2}) = \sin(x_{1} + 0.1 x_{2}^2) + 0.05 x_{1}^2,
$$

und plotten sie:

In [None]:
def f(x):
    return np.sin(x[0] + 0.1*x[1]**2) + 0.05*x[0]**2

surface_plot = plot()
surface_plot.plot_surface(-3,0,-2,2,f)

contour_plot = plot()
contour_plot.plot_contour(-3,0,-2,2,f)

show_plot(contour_plot, surface_plot)

>### Newton-Verfahren zur Extremwertsuche im mehrdimensionalen
>
>**Wähle:** Startwert $x_0$
>
> **In Schritt $i = 1, \dots, N$ rechne**
$$
x_{i+1} = x_i - \left( H_f(x_i) \right)^{-1} J_f(x_i)
$$

### $J_f$ und $H_f$ berechnen

Die Ableitung $J_f$ von $\sin(x_{1} + 0.1 x_{2}^2) + 0.05 x_{1}^2$ ist:

\begin{equation}
J_f(x_{1}, x_{2})
=
\begin{pmatrix}
\frac{\partial f}{\partial x_{1}} \\ \frac{\partial f}{\partial x_{2}} \end{pmatrix}
=
\begin{pmatrix}
\cos(x_{1} + 0.1 x_{2}^2) + 0.1 x_{1} \\
0.2 x_{2} \cos(x_{1} + 0.1 x_{2}^2)
\end{pmatrix}
\end{equation}



Hier lässt sich dann die Hesse-Matrix als

$$
H_f(x_1, x_2) =
\begin{pmatrix}
\frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 \partial x_2} \\
\frac{\partial^2 f}{\partial x_2 \partial x_1} & \frac{\partial^2 f}{\partial x_2^2} \\
\end{pmatrix}
=
\begin{pmatrix}
-\sin(x_1 + 0.1 x_{2}^2) + 0.1 & -0.2x_2 \sin(x_1 + 0.1x_2^2)\\
-0.2x_2 \sin(x_1 + 0.1x_2^2) & 0.2 \cos(x_1 + 0.1 x_2^2)  -0.04 x_2^2 \sin(x_1 + 0.1 x_2^2) \\
\end{pmatrix}
$$

berechnen.

In [None]:
x_0 = [-2, -1]
i = 1

def grad_f(x):
    return np.array([np.cos(x[0] + 0.1*x[1]**2) + 0.1*x[0], 0.2*x[1]*np.cos(x[0] + 0.1*x[1]**2)])

def hess_f(x):
    return np.array([[-np.sin(x[0] + 0.1*x[1]**2) + 0.1, -0.2*x[1]*np.sin(x[0] + 0.1*x[1]**2)],
                     [-0.2*x[1]*np.sin(x[0] + 0.1*x[1]**2), 0.2*np.cos(x[0] + 0.1*x[1]**2) - 0.04*x[1]**2*np.sin(x[0] + 0.1*x[1]**2)]])

In [None]:
contour_plot.newton_iteration_contour(x0=x_0, function = f, grad=grad_f, hessian=hess_f, gamma=1, Iterationen=i,
                                      color = "#636EFA")
surface_plot.newton_iteration_surface(x0=x_0, function = f, grad=grad_f, hessian=hess_f, gamma=1, Iterationen=i,
                                      color = "#636EFA")
i += 1

show_plot(contour_plot, surface_plot)