<a href="https://colab.research.google.com/github/ChrissisCorner/AdventOfCode2020/blob/main/gradient_descent.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Version: 2021.01.25

---




# Intelligente Systeme - Übung Lineare Regression

Ziel der linearen Regression ist es, eine lineare Funktion (oder Hypothese) zu finden, welche die Beispieldaten möglichst akkurat beschreibt und mit der sich später wiederum Vorhersagen machen lassen. Dazu wurden in der Vorlesung zwei Verfahren vorgestellt. Beide Verfahren wollen die Fehlerfunktion minimieren und verwenden dazu den Gradienten der Fehlerfunktion. Der Gradient einer Funktion $f(x,y)$ ist definiert als:

$$\nabla f(x,y) = \begin{pmatrix}\frac{\partial \mathcal{f}}{\partial x}\\ \frac{\partial \mathcal{f}}{\partial y}\end{pmatrix}$$

Mit der geschlossenen Lösung haben wir ein exaktes analytisches Verfahren zur Bestimmung des Minimums betrachtet. Eine numerische Lösung findet der Gradientenabstieg, mit dessen Hilfe wir uns der analytischen Lösung immer weiter annähern. 



# Aufgabe 1 - Gradientenberechnung

1. Berechnen Sie die Gradienten der folgenden beiden Funktionen

$$f(x, y) = \frac{1}{x^2+y^2}$$
 
$$f(x, y) = x^2y$$

2. Das Gradientenabstiegsverfahren lässt sich nicht nur im Kontext der linearen Regression nutzen, sondern ganz allgemein um Minima von Funktionen zu finden. Schreiben Sie die Update-Gleichungen der beiden Funktionen auf, die Sie nutzen würden, um auf diesem Weg ihre Minima zu bestimmen. Welche Eigenschaft hat ein Gradient und wie wird diese hier genutzt? 

# Aufgabe 2 - Lineare Regression
Die folgende Tabelle gibt den Treibstoffverbrauch $c$ in $\frac{l}{100 \text{km}}$ bei gegebener Fahrtgeschwindigkeit $s$ in $\frac{\text{km}}{\text{h}}$ wieder: 

|$s$|$c$|
|--|--|
|0|	0|
|30	|3.5|
|50|5|
|80|6.8|
|100|7.4|
|130|8|
|180|	12|

Wir wollen eine lineare Funktion finden, die den Zusammenhang beschreibt.

1. Schreiben Sie eine geeignete Loss-Funktion $\mathcal{L}(\vec{w})$ für $n$ Datenpunkte $(s_i, c_i)$ auf. Benutzen Sie eine lineare Funktion $c(s) = w_1 s + w_0$ als Hypothese. Welche Möglichkeiten gibt es und welche Eigenschaften sind für eine Loss Funktion relevant? Warum werden nicht einfach alle Fehler aufsummiert?

2. Leiten Sie für den Gradientenabstieg die Update-Gleichungen für $w_1$ und $w_0$ her. 

3. Vervollständigen Sie entsprechend der Update-Gleichungen den untenstehenden Code. Probieren Sie auch unterschiedliche Startwerte $w_0$ und $w_1$ aus. Was passiert für zu große Lernraten $\alpha$, was für zu kleine Lernraten $\alpha$?

4. Bestimmen Sie durch Nullsetzen des Gradienten die optimalen $w_0$ und $w_1$ (geschlossene Lösung) und vergleichen Sie mit der numerisch ermittelten Lösung (Gradientenabstieg).

5. *(Zusatz) Auch für die folgende allgemeine Hypothese $$y(x) = \sum_{i=1}^m w_i f_i(x)$$ kann man die Loss-Funktion aufschreiben und durch Nullsetzen des Gradienten die optimalen Gewichte $w_i$ bestimmen. Versuchen Sie dies.*

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

def update(w1, w0, alpha, s, c):
  n = len(s)
  dw0 = -(1/n) *np.sum(c-(w1*s-w0))
  dw1 = -(1/n) *np.sum(c-(w1*s-w0)*s)

  w1 = w1-alpha*dw1
  w0 = w0-alpha*dw0

  return w1, w0


 #2.4
bestw1 = (np.mean(c*s) - np.mean(c)*np.mean(s))/(np.mean(s**2) - np.mean(s)**2)
bestw0 = np.mean(c) - bestw1*np.mean(s)

print(f"Numerische Lösung: c = {bestw1:.2f}s + {bestw0:.2f}")
  

  


s = np.array([0, 30, 50, 80, 100, 130, 180])
c = np.array([0, 3.5, 5.0, 6.8, 7.4, 8.0, 12.0])

iterations = 100

# Startwerte
w1 = 2
w0 = 2

# Lernrate
alpha = 0.0001

for i in range(iterations):
  w1, w0 = update(w1, w0, alpha, s, c)




print(f"Numerische Lösung: c = {w1:.2f}s + {w0:.2f}")

plt.figure()
plt.xlabel(r"$s/\frac{km}{h}$")
plt.ylabel(r"$c/\frac{l}{100km}$")
plt.plot(s, c, '.')
plt.plot(s, s*w1 + w0)
plt.plot(s, s*bestw1 + bestw0)
plt.show()


# Aufgabe 3 - Visualisierung Gradientenabstiegsverfahren

Für die folgende Aufgabe verwenden wir das Doppelmuldenpotential 

$$V(x) = ax^4 + bx^2 + cx + d$$

mit $a = 1$, $b = -3$, $c =1$ und $d = 3.514$. 

Wir wollen mithilfe des Gradientenabstiegsverfahren das globale Minimum $x_{min}$ dieser Funktion ermitteln. Sie können sich vorstellen, dass $V$ eine Loss-Funktion mit nur einem Gewicht $x$ beschreibt. 

1. Berechnen Sie die Ableitung und Update-Gleichung für das Gewicht $x$ mit Lernrate $\alpha$.

2. Vervollständigen Sie entsprechend unten stehenden Code.

3. Testen Sie die folgenden Kombinationen für Startwert und Lernrate $(x_0, \alpha)$. 
$$(x_0, \alpha) = (-1.75, 0.001)$$
$$(x_0, \alpha) = (-1.75, 0.19)$$
$$(x_0, \alpha) = (-1.75, 0.1)$$
$$(x_0, \alpha) = (-1.75, 0.205)$$

4. Wie kann man einen Kompromiss zwischen $(x_0, \alpha) = (-1.75, 0.001)$ und $(x_0, \alpha) = (-1.75, 0.19)$ schaffen?

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

def update2(x, a, b, c, d, alpha):
  x = ___

  return x

def V(x, a, b, c, d):
  return a*x**4 + b*x**2 + c*x + d

a = 1
b = -3
c = 1
d = 3.514

x0 = -1.75
iterations = 101
alphas = np.array([0.001, 0.19, 0.1, 0.205])

losses = np.empty(shape=(iterations, len(alphas)))
results = np.empty(len(alphas))

for j in range(len(alphas)):
  x = x0
  alpha = alphas[j]
  for i in range(iterations):
    losses[i, j] = V(x, a, b, c, d)
    if i != iterations - 1:
      x = update2(x, a, b, c, d, alpha)
  results[j] = x

for j in range(len(alphas)):
  print(100*"-")
  print("Alpha: ", alphas[j])
  print("xmin: ", results[j])
  print("Loss: ", V(results[j], a, b, c, d))

colors = {
    0.001: "blue",
    0.19: "red",
    0.1: "black",
    0.205: "orange"
}

plt.figure(figsize=(8, 8))
plt.title("Lernkurven")
plt.xlabel("Epoche")
plt.ylabel("Loss V")
plt.xlim(0, iterations)

for i in range(len(alphas)):
  alpha = alphas[i]
  plt.plot(range(iterations), losses[:, i], label=str(alpha), color=colors[alpha])

plt.legend()
plt.ylim(bottom=0)
plt.show()

plt.figure(figsize=(8, 8))
plt.title("Funktion V und Minima")
plt.xlabel("x")
plt.ylabel("V(x)")

xs = np.linspace(-2, 2, 100)
ys = V(xs, a, b, c, d)

plt.plot(xs, ys)

for j in range(len(alphas)):
  alpha = alphas[j]
  xmin = results[j]
  vxmin = V(xmin, a, b, c, d)
  plt.plot(xmin, vxmin, marker='.', linestyle="None", label=str(alpha), color=colors[alpha], ms=10)
plt.legend()
plt.show()

# Aufgabe 4 - Zusatz

Im [Colab zu Vorlesung](https://colab.research.google.com/drive/1W4cLIHjk1uKgf2qXmegOPVqD0BzpvhLf?usp=sharing#scrollTo=hlnSECCdse_b) wird mittels Gradientenabstieg der funktionale Zusammenhang zwischen Wohnungsgröße und Preis ermittelt. Erhöht man die Zahl der Epochen (z.B. auf 100) und lässt den Code immer wieder laufen, biegt der Gradientenabstieg, in der Talsohle angekommen, mal nach rechts, mal nach links ab. Die gesamte Talsohle scheint optimal zu sein. Denken Sie darüber nach, wovon es tatsächlich abhängt, in welche Richtung abgebogen wird. Sie können auch den Code verändern, um ihre Gedanken zu überprüfen und die geschlossene Lösung im Code ergänzen.

Hinweise:
- Welche Bedeutung haben die beiden Parameter $w_0$ und $w_1$? **Achtung: Die Parameter $w_0$ und $w_1$ wurden im 3D-Plot im Colab versehentlich vertauscht, dieser Fehler hat auch seinen Weg in die Folien gefunden.**
- Was ist zu erwarten, wenn man die Menge der Trainingsdaten, also die Zahl der zufällig generierten Wohnungs-Preis-Paare, sehr viel größer wählt?