# Kapitel 10 - Gradient Descent

In [1]:
import sys
sys.path.append("../src/") 
from quiz import start_quiz
from utils import css_styling, hide_code
from functionplotter import plt_function
css_styling()

## 1. Kapitelübersicht <a class="anchor" id="1"/>

In diesem Kapitel wird das **Gradient Descent** (deutsch: **Gradientenabstieg**) Verfahren eingeführt. Zuvor wird für ein besseres Verständnis das **Newton-Raphson** Verfahren eingeführt und erläutert. Da dies das letzte Kapitel der Calculus-Tutorialreihe ist, wird am Ende des Kapitels ein Ausblick auf vertiefende und weiterführende Calculus-Themen geworfen sowie Empfehlungen für Themengebiete aus den Digital Humanities gegeben, die man mit dem in dieser Tutorialreihe erworbenem Wissen nun angehen kann.

TODO

<b>Abschnittsübersicht</b><br>

[1. Kapitelübersicht](#1)<br>
TODO

<b>Quizübersicht</b><br>
TODO

<b>Behandelte Themen</b><br>
- TODO

## 2. Newton-Raphson Verfahren  <a class="anchor" id="2"/>

Mit dem **Newton-Raphson** Verfahren können näherungsweise *Nullstellen*, *Schnittpunkte* von Funktionen oder *Wurzeln* berechnen. Wie auch im vorherigen Kapitel haben wir es hier mit **Approximationen** zu tun. Anstatt aber wie im vorherigen Kapitel eine komplexe Funktionen mithilfe einer Reihe von weniger komplexen Funktionen zu approximieren, approximieren wir hier nun verschiedene **Lösungen** von Funktionen (also das Finden von Wurzeln, Schnittpunkten oder Nullstellen).

<div class=digression>
    <b>Exkurs</b>: Simple Herleitung des <b>Newton-Raphson</b> Verfahren
    <br>
    <br>Das <b>Newton-Raphson</b> Verfahren wurde von Isaac Newton und Joseph Raphson entwickelt. Die Grundidee, mithilfe die Formel dafür erstellt wurde, war, dass der Schnittpunkt einer Funktion mit einer Achse ungefähr das Gleiche ist wie der Schnittpunkt einer <b>Tangenten</b> der Funktion mit einer Achse ist. Eine <b>Tangenten</b> ist eine Gerade, die eine Kurve in einem bestimmten Punkt berührt. 


TODO: https://www.youtube.com/watch?v=Q-ccscRQkOA
    
</div>

Gucken wir uns nun ein Beispiel an. Gegeben sei die folgende Funktion:<br>

$f(x) = x^3 - 2x + 2$<br>

Die Ableitung der Funktion ist die folgende Funktion:<br>

$\frac{\partial f}{\partial x} = 3x^2 - 2$ &nbsp; [<sup>1</sup>](#fn1)<br>

Den Graphen der Funktion können Sie in der folgenden Code-Zelle plotten (in blau). Sie sehen, dass der Graph zwei **Wendepunkte** hat, also zwei Punkte, an denen sich die Art der Steigung (= Fallen oder Steigen) ändert.[<sup>2</sup>](#fn2) Der erste Wendepunkt ist ein **Maximum**, der zweite Wendepunkt ist ein **Minimum**.


<hr style="border: 0.1px solid black;"/>
<span id="fn1" style="font-size:8pt; line-height:1"><sup style="font-size:5pt">1</sup>&nbsp; Wir haben hier die Notation für die partiellen Ableitungen verwendet, auch wenn wir es nicht unbedingt gebraucht hätten, da ja nur nach einer Variablen (hier: $x$) abgeleitet werden kann.</span><br>
<span id="fn2" style="font-size:8pt; line-height:1"><sup style="font-size:5pt">2</sup>&nbsp; Wie man Wendepunkte ermittelt, kann in diesem <a href="https://www.mathebibel.de/wendepunkt-berechnen#:~:text=Graphisch%20betrachtet%20handelt%20es%20sich,in%20eine%20Linkskurve%20oder%20umgekehrt.">Artikel</a> nachgelesen werden.</span><br>

In [2]:
plt_function(name="newton_raphson_example", space=(-10.0, 10.0), startvalue=0, slider_step=0.1)

interactive(children=(FloatSlider(value=0.0, continuous_update=False, description='p_x', max=10.0, min=-10.0, …

TODO: anfangen mit newton-raphson methode (video 1, woche 5)
- sagen, dass wir nun alles von vorher brauchen
- wieso brauchen wir die methode? zu viele dimensionen
- was folgt auf die methode? (gradient descent)
    - warum? probleme von newton raphson
    - wichtig für mehrere variablen
- Konzept: **Iteration**
- ICH: Code schreiben, der mir bei Beispielgraph erlaubt, Punkte einzusetzen und wieder Linien zu malen
- ICH: das hilft: https://www.youtube.com/watch?v=JdMVcHUfAs0

- TODO: zu Sattelpunkten und lokalen Minima: https://datascience.stackexchange.com/questions/22853/local-minima-vs-saddle-points-in-deep-learning
- TODO: auch vllt sandpit von coursera woche 2 nehmen? in video "The sandpit" wird auch erläutert, dass die bergsteiger metapher ein paar "misleading features" hat (Man kann z.B. teleportieren)
- TODO: auch sigmoid funktion hier nochmal einführen? hat mehrere coole eigenschaften, wie:
    - alle zahlen werden zwischen 0 und 1
    - Ableitung ist einfach: $\frac{d\sigma}{dx} = \sigma(x) \cdot (1 - \sigma(x))$ &rarr; das zeigen!!

In [3]:
def f(x):
    return x**3 - 2*x + 2


x = -2
print(f(-2))

x - (-2/10)

-2


-1.8

## 3. Gradient Descent  <a class="anchor" id="3"/>

## 4. Weitere Themen und Anwendungsfälle  <a class="anchor" id="4"/>

Die Themen, die wir in dieser Calculus-Tutorialreihe besprochen haben, haben in vielen Bereichen der Digital Humanities mal mehr und mal weniger prominenten Anwendungsfälle. Der wohl wichtigste Anwendungsfall ist aber beim Training von **Neuronalen Netzen** aus dem Bereich des **Deep Learning**. Seit einigen Jahren haben diese Neuronalen Netze durchbrechende Erfolge geleistet und haben die **KI-Forschung** unglaublich stark geprägt. Aus diesem Grund werden Sie in Ihrem Studium mit einer sehr hohen Wahrscheinlichkeit diesen Netzen begegnen. Dort werden Sie Bibliotheken kennen lernen, mit denen Sie diese Netze effektiv umzusetzen und für die Lösung verschiedenster Probleme einsetzen werden können. Die Mathematik, die Sie hier gelernt haben, hilft Ihnen dabei zu verstehen, wie Neuronale Netze im Kern funktionieren und wie ein Training dieser Netze funktioniert. Sollten Sie Interesse haben, sich dem Thema "Deep Learning" in Eigenarbeit anzunähern, habe ich zwei Empfehlungen für Sie:
- **Deep Learning Specialization (Coursera)** [<a href="https://www.coursera.org/specializations/deep-learning">Link</a>]. Dieser Online-Kurs von Deep Learning Legende *Andrew Ng* ist einer der bekanntesten und besten Einsteigerkurse zum Thema "Deep Learning". Zu finden ist dieser auf der Lernplattform *Coursera*, bei der Inhalte zu verschiedensten Themen mithilfe von Videos, Übungsquizzen und -aufgaben vermittelt werden. Sie werden dort die wichtigsten Inhalte zum Deep Learning vermittelt bekommen. Sie können diesen Kurs kostenlos besuchen, wenn Sie diesen als Gasthörer bearbeiten. Wenn Sie diesen Kurs bezahlen (<u>Hinweis</u>: nach Studentenrabatte oder -aktionen Ausschau halten), können Sie ein Zertifikat erhalten und viele wichtige Quizze und Aufgaben lösen und Feedback für die Lösungen erhalten. Die Zeit, wie und wann Sie diesen Kurs bearbeiten, bleibt Ihnen überlassen, Sie lernen Inhalte nur über das Selbststudium. Der Kurs setzt etwas Mathematik im Bereich von Calculus und Linearer Algebra voraus, welche Sie aber mit dieser Tutorialreihe vermittelt bekommen haben sollten. 
- **KINSLEY, Neural Networks from Scratch in Python** [<a href="https://nnfs.io/">Link</a>]. Im oben genannten Deep Learning Kurs wird man zu einem Zeitpunkt simple Neuronale Netze per Hand in Python implementieren. Diese Herangehensweise an Neuronale Netze fand ich persönlich sehr ansprechend und mein Verständnis von Neuronalen Netzen aber auch der Bibliothek `NumPy` konnte dadurch erweitert werden. Das Problem, dass sich m.E. beim Lernen und der Anwendung von Deep Learning ergibt, ist das man durch die sehr guten Python-Bibliotheken zwar Neuronale Netze einfach und schnell implementieren kann, jedoch den Bezug zu dem, was ein Neuronales Netz eigentlich macht, verliert. Doch genau dieses Verständnis kann unglaublich hilfreich sein. Ich empfehle deshalb das Buch des Python-YouTubers *sentdex*, der m.E. das beste Buch zu diesem Thema veröffentlicht hat, da es sehr einsteigerfreundlich, aber zeitgleich auch sehr informativ und gut aufbereitet ist. Dieses Buch ist nicht kostenlos, die Tutorialreihe in Form von Videos jedoch schon: <a href="https://www.youtube.com/playlist?list=PLQVvvaa0QuDcjD5BAw2DxE6OF2tius3V3">Link zur Playlist</a>. Die Playlist ist aktuell noch nicht abgeschlossen (Stand März 2021), wird aber in unregelmäßigen Abständen aktualisiert. Das Buch/die Playlist kann am besten entweder nach oder während dem Besuchen eines Deep Learning Kurses (Coursera-, Uni- oder ein anderer Kurs) durchgearbeitet werden oder aber in Zusammenhang mit anderen Lernmaterialien.  

TODO: hier kapitel mit "was nun?" oder so
- die sachen sagen, die noch von coursera fehlen
    - lagrange multipliers: https://jonathan-hui.medium.com/machine-learning-lagrange-multiplier-dual-decomposition-4afe66158c9
- machine learning dinge reingucken
    - lineare regression
    - klassifizierungsverfahren ...
- deep learning kurs von coursera empfehlen
- integrale?