<a href="https://colab.research.google.com/github/InSuLaTi0N/Informatik/blob/master/gradient_descent_solution.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Version: 2021.01.25

---


# Intelligente Systeme - Übung Lineare Regression

Ziel der linearen Regression ist es, eine lineare Funktion (oder Hypothese) zu finden, welche die Beispieldaten möglichst akkurat beschreibt und mit der sich später wiederum Vorhersagen machen lassen. Dazu wurden in der Vorlesung zwei Verfahren vorgestellt. Beide Verfahren wollen die Fehlerfunktion minimieren und verwenden dazu den Gradienten der Fehlerfunktion. Der Gradient einer Funktion $f(x,y)$ ist definiert als:

$$\nabla f(x,y) = \begin{pmatrix}\frac{\partial \mathcal{f}}{\partial x}\\ \frac{\partial \mathcal{f}}{\partial y}\end{pmatrix}$$

Mit der geschlossenen Lösung haben wir ein exaktes analytisches Verfahren zur Bestimmung des Minimums betrachtet. Eine numerische Lösung findet der Gradientenabstieg, mit dessen Hilfe wir uns der analytischen Lösung immer weiter annähern. 



# Aufgabe 1 - Gradientenberechnung

1. Berechnen Sie die Gradienten der folgenden beiden Funktionen

$$f(x, y) = \frac{1}{x^2+y^2}$$
 
$$f(x, y) = x^2y$$

2. Das Gradientenabstiegsverfahren lässt sich nicht nur im Kontext der linearen Regression nutzen, sondern ganz allgemein um Minima von Funktionen zu finden. Schreiben Sie die Update-Gleichungen der beiden Funktionen auf, die Sie nutzen würden, um auf diesem Weg ihre Minima zu bestimmen. Welche Eigenschaft hat ein Gradient und wie wird diese hier genutzt? 

## Lösung


### 1.1 Gradienten
Für $f(x, y) = \frac{1}{x^2+y^2}$ ergibt sich: 

$$\nabla f(x, y) = \begin{pmatrix}-\frac{2x}{(x^2+y^2)^2} \\ -\frac{2y}{(x^2+y^2)^2}\end{pmatrix}$$

Für $f(x, y) = x^2y$ ergibt sich: 

$$\nabla f(x,y) = \begin{pmatrix}2xy \\ x^2\end{pmatrix}$$

### 1.2 Update-Gleichungen
Der Gradient einer Funktion ist ein Vektorfeld. Für jede Position im Feld zeigt der Vektor an dieser Stelle in die Richtung des steilsten Anstiegs. Um das Minimum zu finden, müssen wir uns also in die entgegengesetzte Richtung bewegen und ziehen deshalb für jede Koordinate den Wert des Gradienten an dieser Stelle ab - multipliziert mit der Schrittgröße $\alpha$. 

Wenn wir uns exakt in einem Optimum befinden, so ist an dieser Stelle der Anstieg und damit der gesamte Vektor gleich $0$ und die Werte der Koordinaten werden nicht mehr verändert.

Die Update-Gleichungen für $f(x, y) = \frac{1}{x^2+y^2}$ lauten also:

$$x \leftarrow x + \alpha \frac{2x}{(x^2+y^2)^2}$$

$$y \leftarrow y + \alpha \frac{2y}{(x^2+y^2)^2}$$

Die Update-Gleichungen für $f(x, y) = x^2y$ lauten:

$$x \leftarrow x - 2\alpha xy$$

$$y \leftarrow y - \alpha x^2$$

# Aufgabe 2 - Lineare Regression
Die folgende Tabelle gibt den Treibstoffverbrauch $c$ in $\frac{l}{100 \text{km}}$ bei gegebener Fahrtgeschwindigkeit $s$ in $\frac{\text{km}}{\text{h}}$ wieder: 

|$s$|$c$|
|--|--|
|0|	0|
|30	|3.5|
|50|5|
|80|6.8|
|100|7.4|
|130|8|
|180|	12|

Wir wollen eine lineare Funktion finden, die den Zusammenhang beschreibt.

1. Schreiben Sie eine geeignete Loss-Funktion $\mathcal{L}(\vec{w})$ für $n$ Datenpunkte $(s_i, c_i)$ auf. Benutzen Sie eine lineare Funktion $c(s) = w_1 s + w_0$ als Hypothese. Welche Möglichkeiten gibt es und welche Eigenschaften sind für eine Loss Funktion relevant? Warum werden nicht einfach alle Fehler aufsummiert?

2. Leiten Sie für den Gradientenabstieg die Update-Gleichungen für $w_1$ und $w_0$ her. 

3. Vervollständigen Sie entsprechend der Update-Gleichungen den untenstehenden Code. Probieren Sie auch unterschiedliche Startwerte $w_0$ und $w_1$ aus. Was passiert für zu große Lernraten $\alpha$, was für zu kleine Lernraten $\alpha$?

4. Bestimmen Sie durch Nullsetzen des Gradienten die optimalen $w_0$ und $w_1$ (geschlossene Lösung) und vergleichen Sie mit der numerisch ermittelten Lösung (Gradientenabstieg).

5. *(Zusatz) Auch für die folgende allgemeine Hypothese $$y(x) = \sum_{i=1}^m w_i f_i(x)$$ kann man die Loss-Funktion aufschreiben und durch Nullsetzen des Gradienten die optimalen Gewichte $w_i$ bestimmen. Versuchen Sie dies.*



## Lösung

### 2.1 Loss-Funktion
Würde man einfach alle Fehler aufsummieren, könnten sich positive und negative Fehler aufheben und wir würden keine optimale Lösung bekommen. Naheliegend wäre die Summe der Beträge aller Fehler zu betrachten. Um in jedem Punkt den Gradienten bestimmen zu können, muss die Funktion jedoch in jedem Punkt differenzierbar sein. In dem wir den Fehler quadrieren, lösen wir beide Probleme, wir bekommen eine differenzierbare Funktion und alle Fehler gehen positiv in die Rechnung ein.
Auf den Vorlesungsfolien ist Ihnen die Sum of Squared Errors (SSE) als Loss-Funktion begegnet, die für unser Problem so aussieht:

$$\mathcal{L_{SSE}}(\vec{w}) = \sum_{i=1}^n (c_i - (w_1 s_i + w_0))^2$$

Diese Loss-Funktion hat jedoch den Nachteil, dass auch bei sehr kleinen Fehlern pro Datenpunkt die Funktionswerte mit der Zahl der Daten immer größer werden. Deshalb ist es üblich, anstelle des SSE den MSE (Mean Squared Error) zu verwenden und das Ergebnis noch durch die Zahl der Datensätze zu teilen:

$$\mathcal{L_{MSE}}(\vec{w}) = \frac{1}{n}\sum_{i=1}^n (c_i - (w_1 s_i + w_0))^2$$

Der MSE ist Ihnen bereits im Code zur Vorlesung begegnet.

In einer Variante des MSE Losses wird zusätzlich mit dem Faktor $1/2$ multipliziert - das hat den Hintergrund, dass so der Faktor $2$, der beim Ableiten entsteht, verschwindet. 

$$\mathcal{L}(\vec{w}) = \frac{1}{2n}\sum_{i=1}^n (c_i - (w_1 s_i + w_0))^2$$

$$= \frac{1}{2n}\sum_{i=1}^n (c_i - w_1 s_i - w_0)^2$$


Mit dieser Variante werden wir in dieser Aufgabe weiterarbeiten. Auf die Position des Minimums hat die Multiplikation mit den Konstanten $1/n$ und $1/2$ natürlich keinen Einfluss und wenn Sie mit nur einem oder keinem der beiden konstanten Faktoren weitergearbeitet haben, **kann Ihre Lösung in den folgenden Teilaufgaben abweichen aber trotzdem richtig sein**!

### 2.2 Update-Gleichungen
Die partiellen Ableitungen von $\mathcal{L}$ sind 

$$\frac{\partial \mathcal{L}}{\partial w_0} = - \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0)$$ 

und 

$$\frac{\partial \mathcal{L}}{\partial w_1} = - \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0) s_i$$ 

Für die Update-Gleichungen ergeben sich entsprechend

$$w_0 \leftarrow w_0 - \alpha \frac{\partial \mathcal{L}}{\partial w_0} = w_0 + \alpha \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0)$$ und $$w_1 \leftarrow w_1 - \alpha \frac{\partial \mathcal{L}}{\partial w_1} = w_1 + \alpha \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0)s_i$$


### 2.3 Implementierung und Initialisierung

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

def update(w1, w0, alpha, s, c):
  n = len(s)
  dw1 = 1/n*np.sum((w0 + w1*s - c)*s)
  dw0 = 1/n*np.sum(w0 + w1*s - c)

  w1 = w1 - alpha*dw1
  w0 = w0 - alpha*dw0

  return w1, w0


s = np.array([0, 30, 50, 80, 100, 130, 180])
c = np.array([0, 3.5, 5.0, 6.8, 7.4, 8.0, 12.0])

iterations = 100

# Startwerte
w1 = 2
w0 = 2

# Lernrate
alpha = 0.0001

for i in range(iterations):
  w1, w0 = update(w1, w0, alpha, s, c)

print(f"Numerische Lösung: c = {w1:.2f}s + {w0:.2f}")

# Optimale Lösung (Aufgabe 2.4)
bestw1 = (np.mean(c*s) - np.mean(c)*np.mean(s))/(np.mean(s**2) - np.mean(s)**2)
bestw0 = np.mean(c) - bestw1*np.mean(s)

print(f"Optimale Lösung: c = {bestw1:.2f}s + {bestw0:.2f} (grün)")

plt.figure()
plt.xlabel(r"$s/\frac{km}{h}$")
plt.ylabel(r"$c/\frac{l}{100km}$")
plt.plot(s, c, '.')
plt.plot(s, s*w1 + w0)
plt.plot(s, s*bestw1 + bestw0, color="green") # Optimale Lösung (Aufgabe 2.4)
plt.show()


### 2.4 Geschlossene Lösung

Wir setzen $<x> = \frac{1}{n}\sum_{i=1}^n x_i$. 

Nullsetzen der partiellen Ableitungen ergibt dann unter Nutzung dieser Abkürzung

$$0 = \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0) = <c> - w_1 <s> - w_0$$

$$0 = \frac{1}{n}\sum_{i=1}^n (c_i - w_1s_i -w_0) s_i = <cs> - w_1 <s^2> - w_0 <s>$$

Die erste Gleichung stellen wir nach $w_0$ um:

$$w_0 = <c> - w_1 <s>$$

Das Ergebnis setzen wir in der zweiten Gleichung ein und stellen diese nach $w_1$ um und erhalten:

$$w_1 = \frac{<cs> - <c><s>}{<s^2> - <s>^2}$$


*(Berechnung und Vergleich zur numerischen Lösung finden sich in der Code-Zelle zur Lösung 2.3)*



### 2.5 (Zusatz) Allgemeine Hypothese
Die Loss-Funktion ist

$$\mathcal{L} = \frac{1}{2n} \sum_{i=1}^n \left(y_i - \sum_{j=0}^m w_j f_j(x_i)\right)^2$$

Ableiten nach beliebigem $w_k$ ergibt 

$$\frac{\mathcal{L}}{\partial w_k} = -\frac{1}{n} \sum_{i=1}^n\left(y_i - \sum_{j=0}^m w_j f_j(x_i)\right)f_k(x_i) = - <yf_k(x)> + \sum_{j=0}^m w_j <f_j(x)f_k(x)> $$

bzw. das Gleichungssystem

$$b_k = \sum_{j=0}^m w_ja_{jk}$$
mit $b_k = <yf_k(x)>$ und $a_{jk} = <f_j(x)f_k(x)> = a_{kj}$. 

Dieses kann mit Standardlösungsverfahren gelöst werden.

# Aufgabe 3 - Visualisierung Gradientenabstiegsverfahren

Für die folgende Aufgabe verwenden wir das Doppelmuldenpotential 

$$V(x) = ax^4 + bx^2 + cx + d$$

mit $a = 1$, $b = -3$, $c =1$ und $d = 3.514$. 

Wir wollen mithilfe des Gradientenabstiegsverfahren das globale Minimum $x_{min}$ dieser Funktion ermitteln. Sie können sich vorstellen, dass $V$ eine Loss-Funktion mit nur einem Gewicht $x$ beschreibt. 

1. Berechnen Sie die Ableitung und Update-Gleichung für das Gewicht $x$ mit Lernrate $\alpha$.

2. Vervollständigen Sie entsprechend unten stehenden Code.

3. Testen Sie die folgenden Kombinationen für Startwert und Lernrate $(x_0, \alpha)$. 
$$(x_0, \alpha) = (-1.75, 0.001)$$
$$(x_0, \alpha) = (-1.75, 0.19)$$
$$(x_0, \alpha) = (-1.75, 0.1)$$
$$(x_0, \alpha) = (-1.75, 0.205)$$

4. Wie kann man einen Kompromiss zwischen $(x_0, \alpha) = (-1.75, 0.001)$ und $(x_0, \alpha) = (-1.75, 0.19)$ schaffen?

## Lösung



### 3.1 Ableitung und Update-Gleichung
Die Ableitung ist: 

$$\partial_x V(x) = 4ax^3 + 2bx + c$$

Die Update-Gleichung ist entsprechend:

$$x \leftarrow x - \alpha \left(4ax^3 + 2bx + c\right)$$



### 3.2 Implementierung

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

def update2(x, a, b, c, d, alpha):
  x = x - alpha*(4*a*x**3 + 2*b*x + c)

  return x

def V(x, a, b, c, d):
  return a*x**4 + b*x**2 + c*x + d

# TODO: Change to right parameters.
a = 1
b = -3
c = 1
d = 3.514

x0 = -1.75
iterations = 101
alphas = np.array([0.001, 0.19, 0.1, 0.205])

losses = np.empty(shape=(iterations, len(alphas)))
results = np.empty(len(alphas))

for j in range(len(alphas)):
  x = x0
  alpha = alphas[j]
  for i in range(iterations):
    losses[i, j] = V(x, a, b, c, d)
    if i != iterations - 1:
      x = update2(x, a, b, c, d, alpha)
  results[j] = x

for j in range(len(alphas)):
  print(100*"-")
  print("Alpha: ", alphas[j])
  print("xmin: ", results[j])
  print("Loss: ", V(results[j], a, b, c, d))

colors = {
    0.001: "blue",
    0.19: "red",
    0.1: "black",
    0.205: "orange"
}

plt.figure(figsize=(8, 8))
plt.title("Lernkurven")
plt.xlabel("Epoche")
plt.ylabel("Loss V")
plt.xlim(0, iterations)

for i in range(len(alphas)):
  alpha = alphas[i]
  plt.plot(range(iterations), losses[:, i], label=str(alpha), color=colors[alpha])

plt.legend()
plt.ylim(bottom=0)
plt.show()

plt.figure(figsize=(8, 8))
plt.title("Funktion V und Minima")
plt.xlabel("x")
plt.ylabel("V(x)")

xs = np.linspace(-2, 2, 100)
ys = V(xs, a, b, c, d)

plt.plot(xs, ys)

for j in range(len(alphas)):
  alpha = alphas[j]
  xmin = results[j]
  vxmin = V(xmin, a, b, c, d)
  plt.plot(xmin, vxmin, marker='.', linestyle="None", label=str(alpha), color=colors[alpha], ms=10)
plt.legend()
plt.show()

### 3.3 Lernrate 

$(x_0, \alpha) = (-1.75, 0.001)$: Linkes (globales) Minimum wird extrem langsam gefunden ($\alpha$ zu klein).

$(x_0, \alpha) = (-1.75, 0.19)$: Kein Minimum wird gefunden. Parameter $x$ springt hin und her in der linken Mulde ($\alpha$ zu groß).

$(x_0, \alpha) = (-1.75, 0.1)$: Linkes Minimum wird gefunden.

$(x_0, \alpha) = (-1.75, 0.205)$: Linkes Minimum wird überschossen. Rechtes lokales Minimum wird gefunden.



### 3.4 Dynamische Lernrate

Passe $\alpha$ an. Starte mit großem $\alpha$ und reduziere z.B. alle $n$ Epochen um einen Faktor $f$.

$\alpha \leftarrow f\cdot\alpha$ alle $n$ Epochen.

# Aufgabe 4 - Zusatz

Im [Colab zu Vorlesung](https://colab.research.google.com/drive/1W4cLIHjk1uKgf2qXmegOPVqD0BzpvhLf?usp=sharing#scrollTo=hlnSECCdse_b) wird mittels Gradientenabstieg der funktionale Zusammenhang zwischen Wohnungsgröße und Preis ermittelt. Erhöht man die Zahl der Epochen (z.B. auf 100) und lässt den Code immer wieder laufen, biegt der Gradientenabstieg, in der Talsohle angekommen, mal nach rechts, mal nach links ab. Die gesamte Talsohle scheint optimal zu sein. Denken Sie darüber nach, wovon es tatsächlich abhängt, in welche Richtung abgebogen wird. Sie können auch den Code verändern, um ihre Gedanken zu überprüfen und die geschlossene Lösung im Code ergänzen.

Hinweise:
- Welche Bedeutung haben die beiden Parameter $w_0$ und $w_1$? **Achtung: Die Parameter $w_0$ und $w_1$ wurden im 3D-Plot im Colab versehentlich vertauscht, dieser Fehler hat auch seinen Weg in die Folien gefunden.**
- Was ist zu erwarten, wenn man die Menge der Trainingsdaten, also die Zahl der zufällig generierten Wohnungs-Preis-Paare, sehr viel größer wählt?

## Lösung

Bei einer wachsenden Zahl an Trainingsdaten würde $w_0$ sich $0$ annähern - schließlich sollte eine nicht vorhandene Wohnung mit $0$ $m^2$ auch nichts kosten (aber auch nicht dafür sorgen, dass man Geld abgeben muss). Da wir aber mit relativ wenigen Trainingsdaten arbeiten, die immer wieder neu zufällig generiert werden, weicht der Faktor mal weniger und mal stärker nach oben oder unten ab.

Um den Wert für $w_0$ zu erreichen, für den das Loss für die aktuellen Trainingsdaten minimal wird, müsste der Gradientenabstieg eine viel größere Epochenzahl haben, da der Anstieg so gering ist, dass wir einen Wohnungskaufpreis von mehreren 100.000 Euro nur um wenige Euro oder Cent pro Schritt verändern. Sichtbar wird das, indem wir für den 3D-Plot einen viel größeren Wertebereich für $w_0$ betrachten.

Der untenstehende Code ergänzt den Code aus der Vorlesung um die geschlossene Lösung und einen 3D-Plot, der etwas rauszoomt und das Minimum sichtbar macht. Außerdem ist es möglich, die Zahl der Trainingsdaten deutlich größer zu wählen.

In [None]:
import math
import random
import matplotlib.pyplot as plt

num = 50
sizes = [random.randrange(50, 200) for i in range(num)]
prices = [size*(1000+offset) for (size,offset) in zip(sizes, [random.randrange(1000, 3000) for i in range(num)])]

In [None]:
def f(x):
  return w1*x + w0

def loss():
  return (1.0/n) * sum([math.pow(y-f(x), 2) for (x,y) in zip(sizes, prices)]) 

n = len(sizes)

bestw1 = (n*sum([ (x*y) for (x,y) in zip(sizes, prices)]) - sum(sizes)*sum(prices))/(n*sum([ (x*x) for x in sizes]) - sum(sizes)*sum(sizes))
bestw0 = (sum(prices)-bestw1*sum(sizes))/n
bestloss = (1.0/n) * sum([math.pow(y-(bestw1*x + bestw0), 2) for (x,y) in zip(sizes, prices)])
print("Geschlossene Lösung:")
print(f"f(x)= {bestw1:.2f} x + {bestw0:.2f}")
print(f"Loss: {bestloss:.2f}")

w0,w1=0.0,0.0
epochs = 100
alpha = 0.00001
x1,x2 = min(sizes), max(sizes)
l=[]
for i in range(epochs):
  plt.plot([x1,x2], [f(x1),f(x2)], color='red')  # regression line
  l.append((w0,w1,int(loss()/1000000000)))
  w0 += alpha*(2.0/n)*sum([  (y-f(x)) for (x,y) in zip(sizes, prices)])
  w1 += alpha*(2.0/n)*sum([x*(y-f(x)) for (x,y) in zip(sizes, prices)])

print(f"Durch Gradientenabstieg in {epochs} Schritten gefundene Lösung")
print(f"f(x)= {w1:.2f} x + {w0:.2f}")
print(f"Loss: {loss():.2f}")

plt.scatter(sizes, prices)
plt.plot([x1,x2], [bestw1*x1+bestw0,bestw1*x2+bestw0], color="green") 
plt.ylabel("Flat Price in EUR")
plt.xlabel("Flat Size in $m^2$")
plt.show()

plt.plot([x1,x2], [f(x1),f(x2)], color='red')  # regression line
plt.scatter(sizes, prices) 
plt.plot([x1,x2], [bestw1*x1+bestw0,bestw1*x2+bestw0], color="green") 
plt.ylabel("Flat Price in EUR")
plt.xlabel("Flat Size in $m^2$")
plt.show()

l2=[]
for w0 in range(0,50,10):
  for w1 in range(1000,5000,100):
    l2.append([w0,w1,int(loss()/1000000000)])

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
w0s,w1s,losss = zip(*l)
ax.scatter(w1s, w0s, losss, label="Gradient descent", marker="o")
w0s,w1s,losss = zip(*l2)
ax.scatter(w1s, w0s, losss,  marker=".")
ax.set_xlabel('$w_1$')
ax.set_ylabel('$w_0$')
ax.set_zlabel('Loss in $10^9$', rotation=90)
ax.legend()
plt.tight_layout()
plt.show()

l3=[]
for w0 in range(-150000,150000,5000):
  for w1 in range(500,5000,500):
    l3.append([w0,w1,int(loss()/1000000000)])
for w0 in range(-150000,150000,50000):
  for w1 in range(500,5000,50):
    l3.append([w0,w1,int(loss()/1000000000)])

fig = plt.figure()
ax = fig.add_subplot(111, projection='3d')
w0s,w1s,losss = zip(*l)
ax.scatter(w1s, w0s, losss, label="Gradient descent", marker="o")
w0s,w1s,losss = zip(*l3)
ax.scatter(w1s, w0s, losss,  marker=".")
ax.set_xlabel('$w_1$')
ax.set_ylabel('$w_0$')
ax.set_zlabel('Loss in $10^9$', rotation=90)
ax.legend()
plt.tight_layout()
plt.show()