Version: 2020.01.14

---


# Intelligente Systeme - Übung Gradientenabstiegsverfahren

## Aufgabe 1 - Gradientenberechnung

a) Berechnen Sie die Gradienten der folgenden beiden Funktionen

$$f(x, y) = \frac{1}{x^2+y^2}$$
und 
$$f(x, y) = x^2y.$$

b) Schreiben Sie die Update-Gleichungen der beiden Funktionen für das Gradientenabstiegsverfahren auf. Welche Eigenschaft des Gradienten wird hier benutzt?

### Lösung - Aufgabe 1
a) Für $f(x, y) = \frac{1}{x^2+y^2}$ ergibt sich 

$$\nabla f(x, y) = \begin{pmatrix}-\frac{2x}{(x^2+y^2)^2} \\ -\frac{2y}{(x^2+y^2)^2}\end{pmatrix}$$.

Für $f(x, y) = x^2y$ ergibt sich 

$$\nabla f(x,y) = \begin{pmatrix}2xy \\ x^2\end{pmatrix}$$

b) Die Update-Gleichungen für $f(x, y) = \frac{1}{x^2+y^2}$ lauten
$$x \leftarrow x + \alpha \frac{2x}{(x^2+y^2)^2}$$
$$x \leftarrow y + \alpha \frac{2y}{(x^2+y^2)^2}$$

Die Update-Gleichungen für $f(x, y) = x^2y$ lauten

$$x \leftarrow x - 2\alpha xy$$
$$y \leftarrow y - \alpha x^2$$

## Aufgabe 2 - Lineare Regression
Die folgende Tabelle gibt den Treibstoffverbrauch $c$ in $\frac{l}{100 \text{km}}$ bei gegebener Fahrtgeschwindigkeit $s$ in $\frac{\text{km}}{\text{h}}$ wieder: 

|$s$|$c$|
|--|--|
|0|	0|
|30	|3.5|
|50|5|
|80|6.8|
|100|7.4|
|130|8|
|180|	12|



a) Schreiben Sie die Loss-Funktion $\mathcal{L}(\vec{w})$ für $n$ Datenpunkte $(s_i, c_i)$ auf. Benutzen Sie eine lineare Funktion $c(s) = w_1 s + w_0$ als Hypothese.

b) Leiten Sie die Update-Gleichungen für $w_1$ und $w_0$ her. 

c) Vervollständigen Sie entsprechend der Update-Gleichungen den untenstehenden Code. Probieren Sie auch unterschiedliche Startwerte $w_0$ und $w_1$ aus. Was passiert für zu große Lernraten $\alpha$, was für zu kleine Lernraten $\alpha$?



In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

def update(w1, w0, alpha, s, c):
  n = len(s)
  dw1 = 1/n*np.sum((w0 + w1*s - c)*s)
  dw0 = 1/n*np.sum(w0 + w1*s - c)

  w1 = w1 - alpha*dw1
  w0 = w0 - alpha*dw0

  return w1, w0


s = np.array([0, 30, 50, 80, 100, 130, 180])
c = np.array([0, 3.5, 5.0, 6.8, 7.4, 8.0, 12.0])

iterations = 100

# Startwerte
w1 = 2
w0 = 2

# Lernrate
alpha = 0.0001

for i in range(iterations):
  w1, w0 = update(w1, w0, alpha, s, c)

plt.figure()
plt.xlabel(r"$s/\frac{km}{h}$")
plt.ylabel(r"$c/\frac{l}{100km}$")
plt.plot(s, c, '.')
plt.plot(s, s*w1 + w0)
plt.show()


d) Bestimmen Sie durch Nullsetzen des Gradienten die optimalen $w_0$ und $w_1$ und vergleichen Sie mit der numerisch ermittelten Lösung.

**e*)** Auch für die folgende allgemeine Hypothese 

$$y(x) = \sum_{i=1}^m w_i f_i(x)$$

kann man die Lossfunktion aufschreiben und durch Nullsetzen des Gradienten die optimalen Gewichte $w_i$ bestimmen. Versuchen Sie dies.

### Lösung - Aufgabe 2
a) Die Loss-Funktion ist gegeben durch 

$$\mathcal{L}(\vec{w}) = \frac{1}{2n}\sum_{i=1}^n (c_i - w_1 s_i - w_0)^2$$

b) Die Ableitungen von $\mathcal{L}$ ergeben sich nach 

$$\frac{\partial \mathcal{L}}{\partial w_0} = - \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0)$$

$$\frac{\partial \mathcal{L}}{\partial w_1} = - \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0) s_i$$

Die Update-Gleichungen sind dann entsprechend

$$w_0 \leftarrow w_0 - \alpha \frac{\partial \mathcal{L}}{\partial w_0} = w_0 + \alpha \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0)$$

$$w_1 \leftarrow w_1 - \alpha \frac{\partial \mathcal{L}}{\partial w_1} = w_1 + \alpha \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0)s_i$$

d) Wir setzen $<x> = \frac{1}{n}\sum_{i=1}^n x_i$. Nullsetzen und nutzen dieser Abkürzung ergibt dann 

$$0 = \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0) = <c> - w_1 <s> - w_0$$

$$0 = \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0) s_i = <cs> - w_1 <s^2> - w_0 <s>$$

Auflösen nach $w_0$ und $w_1$ ergibt

$$w_1 = \frac{<cs> - <c><s>}{<s^2> - <s>^2}$$

$$w_0 = <c> - w_1 <s>$$

e) Die Loss-Funktion ist

$$\mathcal{L} = \frac{1}{2n} \sum_{i=1}^n \left(y_i - \sum_{j=0}^m w_j f_j(x_i)\right)^2$$.

Ableiten nach beliebigem $w_k$ ergibt 

$$\frac{\mathcal{L}}{\partial w_k} = -\frac{1}{n} \sum_{i=1}^n\left(y_i - \sum_{j=0}^m w_j f_j(x_i)\right)f_k(x_i) = - <yf_k(x)> + \sum_{j=0}^m w_j <f_j(x)f_k(x)> $$

bzw. das Gleichungssystem

$$b_k = \sum_{j=0}^m w_ja_{jk}$$
mit $b_k = <yf_k(x)>$ und $a_{jk} = <f_j(x)f_k(x)> = a_{kj}$. Dieses kann mit Standardlösungsverfahren gelöst werden.

## Aufgabe 3 - Visualisierung Gradientenabstiegsverfahren

Für die folgende Aufgabe verwenden wir das Doppelmuldenpotential 

$$V(x) = ax^4 + bx^2 + cx + d$$

mit $a = 1$, $b = -3$, $c =1$ und $d = 3.514$. 

Wir wollen mithilfe des Gradientenabstiegsverfahren das globale Minimum $x_{min}$ dieser Funktion ermitteln. Sie können sich vorstellen, dass $V$ eine Loss-Funktion mit nur einem Gewicht $x$ beschreibt. 

a) Berechnen Sie die Ableitung und Update-Gleichung für das Gewicht $x$ mit Lernrate $\alpha$.

b) Vervollständigen Sie entsprechend unten stehenden Code.

c) Testen Sie die folgenden Kombinationen für Startwert und Lernrate $(x_0, \alpha)$. 

$$(x_0, \alpha) = (-1.75, 0.001)$$
$$(x_0, \alpha) = (-1.75, 0.19)$$
$$(x_0, \alpha) = (-1.75, 0.1)$$
$$(x_0, \alpha) = (-1.75, 0.205)$$

d) Wie kann man einen Kompromiss zwischen $(x_0, \alpha) = (-1.75, 0.001)$ und $(x_0, \alpha) = (-1.75, 0.19)$ schaffen.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

def update2(x, a, b, c, d, alpha):
  x = x - alpha*(4*a*x**3 + 2*b*x + c)

  return x

def V(x, a, b, c, d):
  return a*x**4 + b*x**2 + c*x + d

# TODO: Change to right parameters.
a = 1
b = -3
c = 1
d = 3.514

x0 = -1.75
iterations = 101
alphas = np.array([0.001, 0.19, 0.1, 0.205])

losses = np.empty(shape=(iterations, len(alphas)))
results = np.empty(len(alphas))

for j in range(len(alphas)):
  x = x0
  alpha = alphas[j]
  for i in range(iterations):
    losses[i, j] = V(x, a, b, c, d)
    if i != iterations - 1:
      x = update2(x, a, b, c, d, alpha)
  results[j] = x

for j in range(len(alphas)):
  print(100*"-")
  print("Alpha: ", alphas[j])
  print("xmin: ", results[j])
  print("Loss: ", V(results[j], a, b, c, d))

colors = {
    0.001: "blue",
    0.19: "red",
    0.1: "black",
    0.205: "orange"
}

plt.figure(figsize=(8, 8))
plt.title("Lernkurven")
plt.xlabel("Epoche")
plt.ylabel("Loss V")
plt.xlim(0, iterations)

for i in range(len(alphas)):
  alpha = alphas[i]
  plt.plot(range(iterations), losses[:, i], label=str(alpha), color=colors[alpha])

plt.legend()
plt.ylim(bottom=0)
plt.show()

plt.figure(figsize=(8, 8))
plt.title("Funktion V und Minima")
plt.xlabel("x")
plt.ylabel("V(x)")

xs = np.linspace(-2, 2, 100)
ys = V(xs, a, b, c, d)

plt.plot(xs, ys)

for j in range(len(alphas)):
  alpha = alphas[j]
  xmin = results[j]
  vxmin = V(xmin, a, b, c, d)
  plt.plot(xmin, vxmin, marker='.', linestyle="None", label=str(alpha), color=colors[alpha], ms=10)
plt.legend()
plt.show()

### Lösung - Aufgabe 3

a) Die Ableitung ist 

$$\partial_x V(x) = 4ax^3 + 2bx + c$$.

Die Update-Gleichung ist entsprechend

$$x \leftarrow x - \alpha \left(4ax^3 + 2bx + c\right)$$

c) 

$(x_0, \alpha) = (-1.75, 0.001)$: Linkes (globales) Minimum wird extrem langsam gefunden ($\alpha$ zu klein).

$(x_0, \alpha) = (-1.75, 0.19)$: Kein Minimum wird gefunden. Parameter $x$ springt hin und her in der linken Mulde ($\alpha$ zu groß).

$(x_0, \alpha) = (-1.75, 0.1)$: Linkes Minimum wird gefunden.

$(x_0, \alpha) = (-1.75, 0.205)$: Linkes Minimum wird überschossen. Rechtes lokales Minimum wird gefunden.

d) Passe $\alpha$ an. Starte mit großem $\alpha$ und reduziere z.B. alle $n$ Epochen um einen Faktor $f$.

$\alpha \leftarrow f\cdot\alpha$ alle $n$ Epochen.