# Kapitel 8 - Multivariate Kettenregel 

In [1]:
import sys
sys.path.append("../src/") 
from quiz import start_quiz
from utils import css_styling, hide_code
from functionplotter import plt_function
css_styling()

## 1. Kapitelübersicht <a class="anchor" id="1"/>

In diesem Kapitel werden wir die **Leibniz-Notation** für Ableitungen einführen und die uns bereits bekannte Formel für die **Kettenregel** in der Lagrange-Notation in die Leibniz-Notation übertragen. Daraufhin werden wir uns angucken, was man unter einem **Totalen Differential** versteht. Dieses Verständnis benötigen wir, um die uns bekannte **Kettenregel** zur **multivariaten Kettenregel** zu erweitern. Zuletzt schauen wir uns an, wie wir die Kettenregel und die multivariate Kettenregel verwenden, wenn wir mehr zwei Kettenglieder vorliegen haben.



<b>Abschnittsübersicht</b><br>

[1. Kapitelübersicht](#1)<br>
[2. Leibniz-Notation für Ableitungen](#2)<br>
[3. Totales Differential](#3)<br>
[4. Multivariate Kettenregel](#4)<br>
[5. Mehrfach verkettete Funktionen ableiten](#5)<br>

<b>Quizübersicht</b><br>
TODO

<b>Behandelte Themen</b><br>
- Leibniz-Notation
    - Varianten
    - Kettenregel in Leibniz-Notation
- Totales Differential
- Multivariate Kettenregel
- Mehrfach verkettete Funktionen mit der Kettenregel ableiten
- TODO

## 2. Leibniz-Notation für Ableitungen <a class="anchor" id="2"/>

In diesem Kapitel führen wir, wie bereits angekündigt, die **Leibniz-Notation** für Ableitungen ein. Der Notationswechsel fällt Ihnen eventuell etwas schwer, da den meisten Menschen, die Mathematik nur in der Schule hatten, die Notation von *Lagrange* mehr liegt als die Notation von Leibniz. Der Notationswechsel hat dennoch zwei gute Gründe:

1. **Verbreitung**. Die Leibniz-Notation ist bei multivariaten Calculus weiter verbreitet.<br>
2. **Lesen von Formeln**. Sie lernen, verschiedene Notationen für Ableitungen zu lesen und zu nutzen. Dies ist wichtig, da Sie in der Praxis, d.h. beim Lesen von Papern, Fachbüchern u.ä. (vor allem bei englischsprachiger Literatur) mit hoher Wahrscheinlichkeit auf die Notation von Leibniz stoßen werden. 

Die Leibniz-Notation kommt in mehreren Varianten vor, die im Grunde aber das Gleiche bedeuten.

#### Variante 1

$\frac{df}{dx} = f'(x)$<br>

Diese Variante werden wir in der weiteren Tutorialreihe verwenden. Gelesen wird dieser Ausdruck als "d f von x nach d x". Der Bruchstrich hat keine mathematische Bedeutung, es handelt sich hier <u>nicht</u> um einen Bruch. Unter dem Strich steht die Variable, nach der wir ableiten wollen, und über dem Strich der Name der Funktion, die wir ableiten wollen. Weitere Ableitungen werden wie folgt geschrieben:<br>

$\frac{d^2f}{dx^2} = f''(x) \qquad \frac{d^3f}{dx^3} = f'''(x) \qquad \dots \qquad \frac{d^nf}{dx^n} = f^{(n)}(x)$<br>

Passen Sie hier auf, dass Sie auch unter dem Strich die Ableitungsordnung als Exponent der Variablen (meistens $x$) schreiben.[<sup>1</sup>](#fn1)

#### Variante 2

$\frac{df(x)}{dx} = f'(x)$<br>

Ähnlich wie Variante 2. Kommt manchmal auch in der folgenden Variante vor: $\frac{d(f(x))}{dx}$. Auch hier steht der Name der Funktion über dem Strich und die abzuleitende Variable unter dem Strich. Der Funktionsname ist hier nur etwas ausführlicher geschrieben. Die Ableitungen höherer Ordnung funktionieren ebenfalls wie bei Variante 1:<br>

$\frac{d^2f(x)}{dx^2} = f''(x) \qquad \frac{d^3f(x)}{dx^3} = f'''(x) \qquad \dots \qquad \frac{d^nf(x)}{dx^n} = f^{(n)}(x)$<br>

#### Variante 3

$\frac{d}{dx}f(x) = f'(x)$<br>

Hier wird der <a href="https://de.wikipedia.org/wiki/Differentialoperator">Differentialoperator</a> $\frac{d}{dx}$ hervorgehoben. Diese Notation hat den Vorteil, dass deutlicher als in den anderen Varianten wird, dass es sich bei dem vermeintlichen Bruchstrich nur um einen Strich und nicht um einen mathematischen Bruch handelt. Hier steht die abzuleitende Funktion nicht mehr über dem Strich, sondern nach dem Differentialoperator. Die nächsthöheren Ableitungen folgen jedoch dem bekannten Muster:


$\frac{d^2}{dx^2}f(x) = f''(x) \qquad \frac{d^3}{dx^3}f(x) = f'''(x) \qquad \dots \qquad \frac{d^n}{dx^n}f(x) = f^{(n)}(x)$<br>




<hr style="border: 0.1px solid black;"/>
<span id="fn1" style="font-size:8pt; line-height:1"><sup style="font-size:5pt">1</sup>&nbsp; Die Herleitung, warum das $x$ so geschrieben wird, wird in diesem <a href="https://www.matheplanet.com/default3.html?call=viewtopic.php?topic=139825&ref=https%3A%2F%2Fwww.google.com%2F">Forumsbeitrag</a> sehr gut erläutert.<span><br>

Die Ableitungsregeln, die wir in Kapitel 5 kennengelernt haben, sähen mit der neuen Notation natürlich etwas anders aus, inhaltlich bleiben sie aber gleich. Im folgenden Werkzeugkasten wurde exemplarisch die **Kettenregel** in der Leibniz Notation dargestellt, da sie uns in diesem Kapitel noch einmal in einer veränderten Form begegnen wird.

<div class="tool">
<span class="invisible_border"><img src="img/icons/tools.svg" class="icon"/><b>Werkzeugkasten: <u>Kettenregel (Leibniz Notation)</u></b></span>
    <br>
    <br>$\dfrac{dg}{dx} = \dfrac{dg}{dh} \cdot \dfrac{dh}{dx}$<br><br>
    
Dies bedeutet das Gleiche wie $f'(x) = g'(h(x)) \cdot h'(x)$. Die äquivalenten Teilausdrücke sind:<br>
    
$\frac{dg}{dx} = f'(x)$ &nbsp;&nbsp;&nbsp; Das $f$ kommt zwar gar nicht vor, trotzdem ist das Gleiche gemeint. Die Ableitung heißt anstatt $f'(x)$ hier jetzt einfach $g'(x)$, davon jedoch nicht verwirren lassen.<br>
    
$\frac{dh}{dx} = h'(x)$ &nbsp;&nbsp;&nbsp; Ableitung der inneren Funktion.<br>
$\frac{dg}{dh} = g'(h(x))$ &nbsp;&nbsp;&nbsp; Ableitung der äußeren Funktion.<br>
    
Eine weitere mögliche Schreibweise wäre folgende:<br>
    
$\dfrac{df}{dx} = \dfrac{df}{dy} \cdot \dfrac{dy}{dx}$

</div>

## 3. Totales Differential <a class="anchor" id="3"/>

In den letzten beiden Kapiteln hatten wir multivariate Funktionen eingeführt und diese nach bestimmten Variablen mit **partiellen Ableitungen** abgeleitet. Nun gibt es noch eine weitere Ableitungsform, die **Totales Differential** heißt. Damit können wir herausfinden, wie sich eine Funktion bei kleinen Abweichungen in den einzelnen Variablen verändert. Haben wir zum Beispiel eine Funktion $f(x,y)$ und einen Punkt $p$ gegeben, können wir das Totale Differential verwenden, um herauszufinden, wie sich die Funktion in der Umgebung um Punkt $p$ verhält. 

<div class=task>
    <b>Aufgabe</b>: Totales Differential verstehen
    <br>
    <br>Um das <b>Totale Differential</b> zu verstehen, schauen Sie sich bitte das folgende Video an: <a href="https://studyflix.de/mathematik/totales-differential-1864">StudyFlix - Totales Differential</a>. Der Blog-Eintrag unterhalb des Videos ist ebenfalls sehr nützlich. Im Anschluss schauen Sie sich noch das folgende Video an, welches etwas mehr auf die Berechnung des Totalen Differential eingeht: <a href="https://www.youtube.com/watch?v=aDBQF8Jb_Q4">MathePeter - Totales Differential</a>. Folgende Fragen sollten Sie auf jeden Fall nach dem Angucken der Videos beantworten können:<br>
<ul>
    <li>Was sind $dx$, $dy$, $dz$ usw.?</li>
    <li>Wie steht der <b>Gradient</b> im (rechnerischen) Zusammenhang mit dem Totalen Differential?</li>
</ul>
</div>

<div class="tool">
<span class="invisible_border"><img src="img/icons/tools.svg" class="icon"/><b>Werkzeugkasten: <u>Totales Differential</u></b></span>
    <br>
    <br>Das <b>Totale Differential</b> gibt die totale/gesamte Änderung einer Funktion an, wenn sich die Variablen der Funktion verändern.
    
<u>Formel</u>:<br>

$df = \sum\limits_{i=1}^n  \frac{\partial f}{\partial x_i} \cdot dx_i$<br>
    
$n$ ist hier die Anzahl der Variablen. Die Formel besagt also, dass für jede Variable die partielle Ableitung gebildet werden muss und diese mit $dv$ multipliziert werden muss, wobei das $v$ für die aktuelle Variable steht. Jeder dieser Teilausdrücke muss dann aufsummiert werden.
<br>
<br>    
    
<u>Beispiel</u>:<br>
Gegeben: $f(x,y) = y + x^2$<br>

Wir haben 2 Variablen, deshalb ist $n = 2$. Nun bilden wir zuerst die partiellen Ableitungen für jede Variable (hier also $x$ und $y$):<br>
    
$\frac{\partial f}{\partial x} = 2x \qquad \frac{\partial f}{\partial y} = 1$<br>
    
Nun multiplizieren wir die Terme mit $dx$ bzw. $dy$:<br>
    
$\frac{\partial f}{\partial x} \cdot dx = 2xdx \qquad \frac{\partial f}{\partial y} \cdot dy = 1ydy$<br>
    
Anschließend summieren wir die Teillösungen:<br>
    
$df = 2xdx + 1dy$<br>

$dx$ und $dy$ sind nicht wirklich aussagekräftig. Wir können nun einen Punkt und zwei Änderungen, jeweils für $x$ und $y$, nehmen und diese in die Formel einsetzen. Diese Zahl gibt uns näherungsweise an, wie sich der Funktionswert von $f(x,y)$ ändert, wenn wir ausgehend vom Punkt $P(1|2)$ $\frac{1}{10}$ in $x$-Richtung und $\frac{1}{100}$ in $y$-Richtung gehen.<br>
    
$P(1|2) \qquad dx = \frac{1}{10} \qquad dy = \frac{1}{100}$<br>

$df = 2 \cdot 1 \cdot \frac{1}{10} + 1 \cdot \frac{1}{100} = \frac{21}{100}$
</div>

Sie sollten nach dem Schauen der Videos einen guten Eindruck haben, was das Totale Differential ist. Wir werden uns dieses trotzdem noch einmal genauer im Detail anschauen, Beispiele berechnen und dann die Kettenregel in den Kontext des Totalen Differentials bringen. Schauen wir uns nun ein Beispiel an. Gegeben ist die folgende Funktion:<br>

$f(x,y,z) = \sin(x) \cdot e^{yz^2}$

Wir bilden nun für jede Variable die partielle Ableitung und erhalten:<br>

$\frac{\partial f}{\partial x} = \cos(x) \cdot e^{yz^2} \qquad \frac{\partial f}{\partial y} = \sin(x) \cdot e^{yz^2} \cdot z^2 \qquad \frac{\partial f}{\partial z} = \sin(x) \cdot e^{yz^2} \cdot 2yz$<br>

Nun berechnen wir das **Totale Differential**, jedoch wollen wir <u>nicht</u> wie im Beispiel im Werkzeugkasten die Änderung des Funktionswertes ausgehend von einem *Punkt* berechnen. Unsere Ausgangslage sieht diesmal etwas anders aus:


Stellen Sie sich vor, die Variablen $x$, $y$ und $z$ wären alle selbst eine Funktion eines anderen Parameters $t$. Wie wir zu diesen Funktionen kommen, ist für uns im Moment weniger relevant. Wichtig ist, dass es verschiedene Wege gibt, um auf diese Funktionen zu kommen. Eine Möglichkeit wäre es, dass sie das Ergebnis einer **Parametrisierung** sind. Dies ist die Idee, dass ein Punkt im Laufe der Zeit einen Weg im Raum zurücklegt und somit die Position des Punktes im Raum durch Funktionen der Zeit (diese beinhalten typischerweise die Variable $t$) beschrieben werden kann. Wie sie sich vielleicht vorstellen können, ist dies vor allem in der Physik von Relevanz. Die Funktionen sehen folgendermaßen aus:<br>

$x = t-1 \qquad y = t^2 \qquad z = \frac{1}{t}$


Wir suchen nun die Ableitung von $x$ nach $t$. In diesem, eher einfach gehaltenen Beispiel könnten wir einfach die Funktionen in unsere Funktion $f(x,y,z)$ einfügen und dann nach $t$ ableiten. Dies würde folgendermaßen aussehen:<br>

$f(t) = \sin(t-1) \cdot e^{t^2(\frac{1}{t})^2} = \sin(t-1) \cdot e^{\frac{t^2}{t^2}} = \sin(t-1) \cdot e^1$<br>

$f'(t) = \cos(t-1) \cdot e$<br>

Diese Substitution ist jedoch nicht immer möglich. In einem komplizierteren Szenario mit vielen Variablen könnte der Ausdruck, den wir zum Differenzieren benötigen, ziemlich komplex werden, und eventuell haben wir dann keinen wohlgeformten analytischen Ausdruck mehr. In solchen Fällen sollten wir die Formel für das Totale Differential anwenden. Diese sähe (ausgeschrieben) folgendermaßen aus:<br>

$\dfrac{df(x,y,z)}{dt} = \dfrac{\partial f}{\partial x} \cdot \dfrac{dx}{dt} + \dfrac{\partial f}{\partial y} \cdot \dfrac{dy}{dt} + \dfrac{\partial f}{\partial z} \cdot \dfrac{dz}{dt}$<br>


Die partiellen Ableitungen hatten wir bereits oben berechnet. Doch was sind hier $\frac{dx}{dt}$, $\frac{dy}{dt}$ und $\frac{dz}{dt}$? Im Anwendungsszenario mit dem *Punkt* waren das die Achsen-Richtungen der Variablen. Hier sind das aber einfach die **Ableitungen der drei Variablen**, abgeleitet nach der Variable $t$. Wir müssen also die $t$-Funktionen von oben nach $t$ ableiten und mit der jeweiligen partiellen Ableitung multiplizieren. Die Ableitungen der $t$-Funktionen sind:<br>

$\frac{dx}{dt} = 1 \qquad \frac{dy}{dt} = 2t \qquad \frac{dz}{dt} = -\frac{1}{t^2}$

Alle Ableitungen setzen wir nun in die Formel für $\dfrac{df(x,y,z)}{dt}$ ein:<br>

$\dfrac{df(x,y,z)}{dt} = \cos(x) \cdot e^{yz^2} \cdot 1 + z^2 \cdot \sin(x) \cdot e^{yz^2} \cdot 2t + 2yz \cdot \sin(x) \cdot e^{yz^2} \cdot -\frac{1}{t^2}$<br>

Das wäre das **Totale Differential** von $x$ nach $t$.

Um zu zeigen, dass dieser Ausdruck der gleiche Ausdruck wie oben ist, der mithilfe der Substitution erstellt wurde, werden in diesen Ausdruck nun die $t$-Funktionen von oben eingesetzt (wenn Sie möchten, können Sie dies auch einmal selbst berechnen):<br>

$\dfrac{df(x,y,z)}{dt} = \cos(t-1) \cdot e + t^{-2} \sin(t-1) \cdot e \cdot 2t + 2t \cdot \sin(t-1) \cdot e \cdot -\frac{1}{t^2}$<br>

Dies wird nun noch weiter zusammengefasst:<br>

$\dfrac{df(x,y,z)}{dt} = \cos(t-1)e + 2t^{-1} \sin(t-1) e -2t^{-1} \sin(t-1) e \cdot$<br>

Wie Sie vielleicht sehen, sind der zweite Summand und der dritte Summand/Subtrahend bis auf das Minus identisch und heben sich deshalb gegenseitig auf. Das Ergebnis ist schließlich das Gleiche wie oben:<br>

$\dfrac{df(x,y,z)}{dt} = \cos(t-1)e$<br>


In diesem Fall war die Substitution bei Weitem der einfachere Weg. Wie bereits erwähnt, ist dies aber nicht immer möglich und das Totale Differential ist der <u>allgemeingültigere</u> Weg, solche Probleme zu lösen. Zudem wurden somit die Probleme in Teilprobleme unterteilt, was wiederum Computern hilft, diese Aufgaben zu lösen, da diese sehr schnell in der Berechnung dieser Teilprobleme sind.

## 4. Multivariate Kettenregel <a class="anchor" id="4"/>

Bei der Berechnung des Totalen Differentials im vorherigen Abschnitt haben wir im Beispiel für die Funktion $f(x,y,z)$ die folgende Formel für die Ableitung genommen:<br>

$\dfrac{df(x,y,z)}{dt} = \dfrac{\partial f}{\partial x} \cdot \dfrac{dx}{dt} + \dfrac{\partial f}{\partial y} \cdot \dfrac{dy}{dt} + \dfrac{\partial f}{\partial z} \cdot \dfrac{dz}{dt}$<br>


Der erste Summand ist:<br>

$\dfrac{\partial f}{\partial x} \cdot \dfrac{dx}{dt}$<br>

Diese Ausdruck ähnelt stark der Formel für die **Kettenregel**:<br>

$\dfrac{dg}{dx} = \dfrac{dg}{dh} \cdot \dfrac{dh}{dx}$<br>

Wir werden nun deshalb das Konzept des **Totalen Differentials** verallgemeinern und die **multivariate Kettenregel** einführen. Dafür müssen wir ein wenig umdenken, wie wir Variablen in multivariaten Funktionen verwenden. Schauen wir uns dafür die folgende Funktionsbezeichnung an:<br>

$f(x,y,z)$<br>

Diese besteht aus drei Variablen. Nun ist aber die Anzahl der Variablen in einer multivariaten Funktion nicht begrenzt, d.h. wir könnten auch Folgendes schreiben:<br>

$f(a,b,c,d,e,f,g,h)$<br>

Das wird schnell unübersichtlich und zu speziell, weshalb wir auch etwas allgemeiner schreiben können ($n$ ist hier die Anzahl aller auftretenden Variablen):<br>

$f(x_1, x_2, x_3, \dots, x_n)$<br>

Noch übersichtlicher ist es jedoch, alle möglichen Variablen in einem $n$-dimensionalen **Vektor** zu speichern. Dies können wir kennzeichnen, indem wir über unser $x$ in $f(x)$ einen Pfeil notieren oder das $x$ **fett** schreiben (wir entscheiden uns hier erst einmal für letzteres):<br>

$f( \vec{x} )$ oder $f( \mathbf{x})$<br>

Jede Komponente dieses $x$-Vektors ist wiederum eine Funktion einer anderen Variable $t$, wie wir es auch im Beispiel des letzten Abschnitts gesehen haben. Unser Ziel ist es also, einen Ausdruck zu erstellen, der unsere eigentliche Funktion $f$ mit $t$ verbindet:<br>

$\dfrac{df}{dt}$<br>

Diese erhalten wir durch die **Summe der Ketten jeder Variable** im Vektor $\vec{x}$ bzw. $\mathbf{x}$. Wir brauchen also zum einen <u>alle</u> partiellen Ableitungen von $f$ bezüglich $x$. Das schreiben wir als **Spaltenvektor**:<br>


$\dfrac{\partial f}{\partial \mathbf{x}} = \begin{bmatrix} \dfrac{\partial f}{\partial x_1} \\ \dfrac{\partial f}{\partial x_2} \\ \dfrac{\partial f}{\partial x_3} \\ \dots \\ \dfrac{\partial f}{\partial x_n}\end{bmatrix}$<br>

Weiterhin benötigen wir wie beim Totalen Differential auch alle Ableitungen jeder Komponten von $\vec{x}$ bzw. $\mathbf{x}$ bezüglich $t$. Auch das schreiben wir als **Spaltenvektor**:<br>


$\dfrac{\partial \mathbf{x}}{\partial t} = \begin{bmatrix} \dfrac{dx_1}{dt} \\ \dfrac{dx_2}{dt} \\ \dfrac{dx_3}{dt} \\ \dots \\ \dfrac{dx_n}{dt}\end{bmatrix}$<br>


Wie bei der Formel für das Totale Differential auch müssen wir nun die beiden Berechnungen miteinander multiplizieren. Anstatt einfache Zahlen müssen wir hier nun **Vektoren** miteinander multiplizieren. Da wir jede Komponenten der Vektoren multiplizieren und dieser Ergebnis aufsummieren wollen, d.h. als Endergebnis ein **Skalar** erhalten wollen, brauchen wir das **Skalarprodukt** (englisch: **dot product**). 

Wir haben nur ein Problem bezüglich der **Notation**: Normalerweise wird das Skalarprodukt mit einem einfachen runden Punkt $\cdot$ abgekürzt. Das haben wir in dieser Tutorialreihe jedoch als Zeichen für die Multiplikation verwendet. Wir werden deshalb das Skalarprodukt in dieser Tutorialreihe mit einem etwas fetter geschriebenen Punkt $ \bullet $ kennzeichnen. Unsere Formel für die **multivariate Kettenregel** lautet dann schließlich (die Vektoren kürzen wir ab, da wir sie nicht ausschreiben brauchen):<br>

$\dfrac{df}{dt} = \dfrac{\partial f}{\partial \mathbf{x}} \bullet \dfrac{d\mathbf{x}}{dt}$<br>

Das war es im Grunde auch schon. Wir verwenden also eigentlich die Formel für das Totale Differential, nur das wir nun alles in Vektoren speichern, was viele Vorteile hat, wie wir noch sehen werden (TODO).

#### Bezug zum Gradientenvektor

Vielleicht ist Ihnen aufgefallen, dass der Vektor $\frac{\partial f}{\partial x}$ der multivariaten Kettenregel, der die partiellen Ableitungen von $f$ bezüglich $x$ beinhaltet, dem **Gradientenvektor** aus dem letzten Kapitel sehr ähnlich ist. Tatsächlich ist der einzige Unterschied, dass der Gradientenvektor ein **Zeilenvektor** und der partielle Ableitungsvektor ein **Spaltenvektor** ist. Jedoch können wir der partiellen Ableitungsvektor auch als **Zeilenvektor** ausdrücken, wenn wir ihn **transponieren**:<br>

$\dfrac{\partial f}{\partial \mathbf{x}} = \begin{bmatrix} \dfrac{\partial f}{\partial x_1} \\ \dfrac{\partial f}{\partial x_2} \\ \dfrac{\partial f}{\partial x_3} \\ \dots \\ \dfrac{\partial f}{\partial x_n}\end{bmatrix} = (\nabla f)^T$<br><br>


Somit könnten wir die multivariate Kettenregel auch schreiben als:<br>

$\dfrac{df}{dt} = (\nabla_f)^T \bullet \dfrac{d\mathbf{x}}{dt}$<br>

Tatsächlich könnten wir es aber auch etwas einfacher schreiben, indem wir den Gradienten nicht transponieren müssen. Da das Skalarprodukt zweier Spaltenvektoren <u>das Gleiche</u> wie die Multiplikation eines Zeilenvektors mit einem Spaltenvektor ist, könnten wir auch schreiben:<br>

$\dfrac{df}{dt} = \nabla_f \cdot \dfrac{d\mathbf{x}}{dt}$

<div class=digression>
    <b>Exkurs</b>: Matrix (TODO: multiplikation) partiell ableiten in Neuronalen Netzen
    <br>
    <br> (TODO AF): Die hier vorgestellte Beobachtung soll nun nochmal genauer für das <b>Skalarprodukt</b> betrachtet werden. Der Grund dafür ist die Anwendung in <b>Neuronalen Netzen</b>. Neuronale Netze lernen wie andere Machine Learning Verfahren auch Zusammenhänge aus gegebenen Daten. Im Kern sind Neuronale Netze einfach nur <i>mathematische Funktionen</i>, welche bestimmte <i>Eingaben</i> übergeben bekommen und auf Basis dieser Eigaben <i>Ausgaben</i> erzeugen. Ein wichtiger Schritt bei Neuronalen Netzen ist die sogenannte <b>Backpropagation</b> (deutsch: <b>Rückwärtspropagation</b>). Ohne zu tief ins Detail zu gehen, macht eine Backpropagation im Grunde nichts anderes, als die Ableitungen von der mathematischen Funktionen, die das Neuronale Netz repräsentiert, zu bilden. Dabei kommt es oft vor, dass das <b>Skalarprodukt</b> von zwei Matrizen abgeleitet werden muss:
    
Die Eingaben von Neuronalen Netzen sind die Daten, die wir trainieren wollen. Diese werden in der Form einer <b>Matrix</b> dem Neuronalen Netz übergeben. Wir nennen diese Matrix hier $X$. Ein wichtiger Teil von Neuronalen Netzen ist die Optimierung von <b>Gewichten</b>. Diese werden ebenfalls in einer Matrix dargestellt, wir nennen diese $W$. Diese Matrizen sehen z.B. so aus:<br>
    
$X = \begin{pmatrix} x_{11} & x_{12} & x_{13} \\ x_{21} & x_{22} & x_{23} \\ x_{31} & x_{32} & x_{33} \end{pmatrix} \qquad W = \begin{pmatrix} w_{11} & w_{12} \\ w_{21} & w_{22} \\ w_{31} & w_{32} \end{pmatrix}$
    
    
    
In einem seiner Schritte (in der sogenannten <b>Forwardpropagation</b>) bildet das Neuronale Netz nun das <b>Produkt</b> dieser beiden Matrizen:<br>
    
$X \cdot W$<br>
    
Das Skalarprodukt für die beiden Matrizen sähe folgendermaßen aus:<br>
    
$X \cdot W = \begin{bmatrix} x_{11} \cdot w_{11} + x_{12} \cdot w_{21} + x_{13} \cdot w_{31} &
x_{11} \cdot w_{12} + x_{12} \cdot w_{22} + x_{13} \cdot w_{32} \\
x_{21} \cdot w_{11} + x_{22} \cdot w_{21} + x_{23} \cdot w_{31} & x_{21} \cdot w_{12} + x_{22} \cdot w_{22} + x_{23} \cdot w_{32} \\
x_{31} \cdot w_{11} + x_{32} \cdot w_{21} + x_{33} \cdot w_{31} & x_{31} \cdot w_{12} + x_{32} \cdot w_{22} + x_{33} \cdot w_{32} \end{bmatrix} = 
\begin{bmatrix}
XW_{11} &
XW_{12}
\\
XW_{21} &
XW_{22}
\\
XW_{31} &
XW_{32}
\end{bmatrix}$
    
    
</div>

$X \bullet W = \begin{pmatrix} x_{11} \cdot w_{11} + x_{12} \cdot w_{21} &  x_{11} \cdot w_{12} + x_{12} \cdot w_{22} &  x_{11} \cdot w_{13} + x_{12} \cdot w_{23} \\ 
x_{21} \cdot w_{11} + x_{22} \cdot w_{21} & x_{21} \cdot w_{11} + x_{22} \cdot w_{22} & x_{21} \cdot w_{13} + x_{22} \cdot w_{23}\\ 
x_{31} \cdot w_{11} + x_{32} \cdot w_{21} & x_{31} \cdot w_{12} + x_{32} \cdot w_{22} & x_{31} \cdot w_{13} + x_{32} \cdot w_{23}\end{pmatrix}$<br>

TODO: hier nochmal partielle ableitung von Skalarprodukt zeigen und verweis auf neuronale netze

<div class="tool">
<span class="invisible_border"><img src="img/icons/tools.svg" class="icon"/><b>Werkzeugkasten: <img src="img/icons/chainrule.svg" class="iconbig"/><u>Multivariate Kettenregel</u></b></span>
    <br>
    <br>Die Formel für die <b>multivariate Kettenregel</b> (auch: <b>mehrdimensionale Kettenregel</b>) lautet wie folgt:<br>
    
$\dfrac{df}{dt} = \dfrac{\partial f}{\partial \mathbf{x}} \bullet \dfrac{d\mathbf{x}}{dt}$<br><br>

wobei:<br>
    
$\dfrac{\partial f}{\partial \mathbf{x}} = \begin{bmatrix} \dfrac{\partial f}{\partial x_1} \\ \dfrac{\partial f}{\partial x_2} \\ \dfrac{\partial f}{\partial x_3} \\ \dots \\ \dfrac{\partial f}{\partial x_n}\end{bmatrix} \qquad \dfrac{\partial \mathbf{x}}{\partial t} = \begin{bmatrix} \dfrac{dx_1}{dt} \\ \dfrac{dx_2}{dt} \\ \dfrac{dx_3}{dt} \\ \dots \\ \dfrac{dx_n}{dt}\end{bmatrix}$<br>
    
Das Ergebnis der multivariaten Kettenregel ist ein <b>Skalar</b>, die Berechnung ist deshalb das <b>Skalarprodukt</b>. Das $\mathbf{x}$ ist fettgeschrieben, bezeichnet also einen <b>Vektor</b>.<br><br>
    
    
<u>Alternativ</u>:<br>
    
$\dfrac{df}{dt} = (\nabla_f)^T \bullet \dfrac{d\mathbf{x}}{dt} = \nabla_f \cdot \dfrac{d\mathbf{x}}{dt}$<br>
    
Beide Schreibweisen sind möglich, da das Skalaprodukt zweier Spaltenvektoren die gleiche Operation ist wie die Multiplikation eines Zeilenvektors mit einem Spaltenvektor.<br>
    
<u>Beispiel</u>:<br>
    
Wir haben folgende Funktionen gegeben:<br>
    
$f(\mathbf{x}) = f(x_1, x_2) = x_1^2 \cdot x_2^2 + x_1 \cdot x_2$<br>

$x_1(t) = 1 - t^2$<br>
    
$x_2(t) = 1 + t^2$<br>
    
Folgen wir nun der Formel, leiten wir erst einmal $f(x_1, x_2)$ partiell nach allen Variablen (hier: $x_1, x_2$) ab und speichern diese in einem <b>Gradienten</b> (wir verwenden die zweite Schreibweise der <i>alternativen</i> Formel):<br>
    
$\dfrac{\partial f}{\partial \mathbf{x}} = \begin{bmatrix} 2x_1 \cdot x_2^2 + x_2 & 2x_1^2 \cdot x_2 + x_1\end{bmatrix}$<br>
    
Dies ist nicht wirklich kompliziert, es muss nur aufgepasst werden, dass $x_1$ und $x_2$ als <u>unterschiedliche</u> Variablen verstanden werden, so wie z.B. $a$ und $b$. Nun leiten wir $\dfrac{d\mathbf{x}}{dt}$ ab. Dazu bilden wir von jeder Funktion der Variablen, die im Vektor $\mathbf{x}$ vorkommt, die Ableitungen. Es kommen zwei Variablen vor, $x_1$ und $x_2$, und es gibt auch zwei "Hilfsfunktionen", die wir ableiten können: $x_1(t)$ und $x_2(t)$. Diese leiten wir jeweils nach $t$ ab und speichern diese Ableitungen in einem <b>Spaltenvektor</b>:<br>
    
$\dfrac{d\mathbf{x}}{dt} = \begin{pmatrix} -2t \\ 2t\end{pmatrix}$<br>
    
Das Ergebnis ist schließlich:<br>
    
$\dfrac{df}{dt} = \begin{bmatrix} 2x_1 \cdot x_2^2 + x_2 & 2x_1^2 \cdot x_2 + x_1\end{bmatrix} \begin{pmatrix} -2t \\ 2t\end{pmatrix}$


</div>

## 5. Mehrfach verkettete Funktionen ableiten <a class="anchor" id="5"/>

Nun da wir die **Kettenregel** und die **multivariate Kettenregel** kennen gelernt haben, müssen wir noch klären, wie man diese Regel auf Funktionen anwendet, die mehr als zwei Kettenglieder haben. Bis jetzt hatten wir diese Regeln nur auf zwei Kettenglieder angewendet. Tatsächlich ist aber auch eine folgende Funktion denkbar:<br>

$f(x) = f(\mathbf{x}(\mathbf{u}(t)))$<br>


Wir haben hier <u>drei</u> verschachtelte Kettenglieder:<br>

$f(\mathbf{x}(\mathbf{u}(t))) \qquad$ als äußere Funktion<br>
$\mathbf{x}(\mathbf{u}(t)) \qquad$ als äußereste innere Funktion (auch *mittlere* Funktion genannt)<br>
$\mathbf{u}(t) \qquad$ als innere Funktion<br>

Dies können wir sehr elegant mit der **Leibniz-Notation** und einer erweiterten Kettenregel ableiten:

$\dfrac{df}{dt} = \dfrac{\partial f}{\partial \mathbf{x}} \cdot \dfrac{\partial \mathbf{x}}{\partial \mathbf{u}} \cdot \dfrac{d\mathbf{u}}{dt}$

Die Eleganz dieser Notation wird vor allem deutlich, wenn man im Kontrast dazu die Ableitung der Kettenregel in der **Lagrange-Notation** betrachtet, welche je nach Anzahl der Kettenglieder sehr schnell sehr unübersichtlich werden kann:<br>

$f'(x) = f'(x(u(t))) \cdot x'(u(t)) \cdot u'(t)$<br>

Zurück zur Beispielfunktion. Wie Sie vielleicht bemerkt haben, sind die Teilfunktion $\mathbf{x}$ und $\mathbf{u}$ **fett** geschrieben, stehen also für **Vektorfunktionen**. Schauen wir uns nun die verschiedenen Teilfunktionen im Detail an:<br>

$f(\mathbf{x}) = f(x_1, x_2)$ &nbsp;&nbsp;&nbsp;&nbsp; Die äußere Funktion ist eine **Vektorfunktion**, die die Vektorfunktionen $x_1, x_2$ als Eingabe übergeben bekommt.<br>

$\mathbf{x}(\mathbf{u}) = \begin{pmatrix} x_1(u_1, u_2) \\ x_2(u_1, u_2) \end{pmatrix}$ &nbsp;&nbsp;&nbsp;&nbsp; Die Vektorfunktion $\mathbf{x}$ bekommt selbst wiederum eine **Vektorfunktion** $\mathbf{u}$ übergeben.<br>

$\mathbf{u}(\mathbf{t}) = \begin{pmatrix} u_1(t) \\ u_2(t) \end{pmatrix}$ &nbsp;&nbsp;&nbsp;&nbsp; Die Vektorfunktion $\mathbf{u}$ bekommt letztendlich das **Skalar** $t$ übergeben.<br>


Im Grunde setzen wir in dieser Funktion die skalare Eingabe $t$ in Bezug zur skalaren Ausgabe $f$, aber <u>über</u> die Vektorfunktionen $\mathbf{x}$ und $\mathbf{u}$. Wie bereits oben gezeigt, können wir die Ableitung dieser verschachtelten Funktion sehr elegant mit der **Leibniz-Notation** darstellen:<br>

$\dfrac{df}{dt} = \dfrac{\partial f}{\partial \mathbf{x}} \cdot \dfrac{\partial \mathbf{x}}{\partial \mathbf{u}} \cdot \dfrac{d\mathbf{u}}{dt}$<br>

Doch was sind jetzt die einzelnen Faktoren und wie werden sie nun genau abgeleitet? Das wird nun im Detail geklärt. Die etwas detaillierte Ableitung für die Beispielfunktion wird im Folgenden gezeigt:<br><br>


$\dfrac{df}{dt} = \dfrac{\partial f}{\partial \mathbf{x}} \cdot \dfrac{\partial \mathbf{x}}{\partial \mathbf{u}} \cdot \dfrac{d\mathbf{u}}{dt} = \begin{bmatrix} \dfrac{\partial f}{\partial x_1} & \dfrac{\partial f}{\partial x_2} \end{bmatrix} \cdot \begin{pmatrix} \dfrac{\partial x_1}{\partial u_1} & \dfrac{\partial x_1}{\partial u_2} \\ \dfrac{\partial x_2}{\partial u_1} & \dfrac{\partial x_2}{\partial u_2} \end{pmatrix} \cdot \begin{pmatrix} \dfrac{du_1}{d_t} \\ \dfrac{du_2}{dt} \end{pmatrix}$<br>


Gehen wir die einzelnen Faktoren nacheinander durch:<br>

$\dfrac{\partial f}{\partial \mathbf{x}}$<br>

Wie wir bereits oben gesehen haben (im Abschnitt *Bezug zum Gradientenvektor*), ist das einfach der **Gradient**.<br> 
In unserem Fall sähe dieser so aus: $\begin{bmatrix} \dfrac{\partial f}{\partial x_1} & \dfrac{\partial f}{\partial x_2} \end{bmatrix}$<br><br>

$\dfrac{\partial \mathbf{x}}{\partial \mathbf{u}}$<br>

Diese Teilableitung ist die komplizierteste der drei Teilableitungen, da wir hier zwei Vektorfunktionen haben, die als Ausgabe ebenfalls zwei Vektorfunktionen erstellen. Wir müssen also für jede Ausgangsvariable die Ableitung bezüglich jeder Eingangsvariable bilden. Wir haben **zwei** Eingangsvariablen ($x_1$ und $x_1$) und **zwei** Ausgangsvariablen ($u_1$ und $u_2$), wir brauchen also insgesamt **vier** Ableitungen. Diese speichern wir am besten in einer $2 \times 2$ Matrix, wobei die erste Zeile alle Ableitungen nach der Eingangsvariablen $x_1$ beinhaltet und die zweite Zeile alle Ableitungen nach der Eingangsvariablen $x_2$. Kommt Ihnen das bekannt vor? Das ist die Erklärung für eine **Jacobi-Matrix**:<br>

$\begin{pmatrix} \dfrac{\partial x_1}{\partial u_1} & \dfrac{\partial x_1}{\partial u_2} \\ \dfrac{\partial x_2}{\partial u_1} & \dfrac{\partial x_2}{\partial u_2} \end{pmatrix}$
<br><br><br>


$\dfrac{d\mathbf{u}}{dt}$

Dies gibt uns einen **Spaltenvektor**, bei der jeder Eintrag die Ableitung der Vektorfunktionen $\mathbf{u_1}$ und $\mathbf{u_2}$ bezüglich des Skalars $t$ ist:<br>

$\begin{pmatrix} \dfrac{du_1}{d_t} \\ \dfrac{du_2}{dt} \end{pmatrix}$<br>

<u>Andere Sichtweise</u>: In der Lagrange-Notation wären das die Funktionen $u_1'(t)$ und $u_2'(t)$, die wir in einem Spaltenvektor speichern.<br>


Diese Teilableitungen werden miteinander multipliziert. Dies funktioniert, da unsere Vektoren und unsere Matrix die folgenden Dimensionen haben:<br>

$(1 \times 2) (2 \times 2) (2 \times 1) = (1 \times 1)$<br>

Wie Sie bereits in der Linearen Algebra Tutorialreihe gesehen haben, stimmen die Dimensionen überein und wir können die Multiplikation durchführen.

#### Ein Beispiel

Diese Herleitung war nicht ganz einfach, weshalb wir nun ein konkretes Beispiel durchgehen, um die multivariate Kettenregel mit mehreren Kettengliedern besser zu verstehen. Gegeben sind die folgenden Funktionen:<br>

$f(\mathbf{x}) = f(x_1, x_2) = x_1^2 - x_2^2$<br>

$x_1(u_1, u_2) = 2u_1 + 3u_2$<br>
$x_2(u_1, u_2) = 2u_1 - 3u_2$<br>

$u_1(t) = \cos(\frac{t}{2})$<br>
$u_2(t) = \sin(2t)$<br><br>


Die Verkettung und der Aufbau sind die gleichen wie bei der Funktion in der Herleitung, also:<br>

$f(x) = f(\mathbf{x}(\mathbf{u}(t)))$<br>

$\mathbf{x}$ und $\mathbf{u}$ sind Vektorfunktionen, während $t$ ein Skalar ist. Wir verwenden nun die detaillierte Ableitung:<br>

$\dfrac{df}{dt} = \dfrac{\partial f}{\partial \mathbf{x}} \cdot \dfrac{\partial \mathbf{x}}{\partial \mathbf{u}} \cdot \dfrac{d\mathbf{u}}{dt} = \begin{bmatrix} \dfrac{\partial f}{\partial x_1} & \dfrac{\partial f}{\partial x_2} \end{bmatrix} \cdot \begin{pmatrix} \dfrac{\partial x_1}{\partial u_1} & \dfrac{\partial x_1}{\partial u_2} \\ \dfrac{\partial x_2}{\partial u_1} & \dfrac{\partial x_2}{\partial u_2} \end{pmatrix} \cdot \begin{pmatrix} \dfrac{du_1}{d_t} \\ \dfrac{du_2}{dt} \end{pmatrix}$<br><br>

Gehen wir auch hier wieder schrittweise durch und fangen mit $\dfrac{\partial f}{\partial \mathbf{x}} = \begin{bmatrix} \dfrac{\partial f}{\partial x_1} & \dfrac{\partial f}{\partial x_2} \end{bmatrix}$ an. Diese Berechnung ist uns bekannt, wir müssen einfach die Berechnung des **Gradientenvektor** aus dem vorherigen Kapitel verwenden:<br>

$\begin{bmatrix} 2x_1 & -2x_2 \end{bmatrix}$<br><br>


Der nächste Faktor ist $\dfrac{\partial \mathbf{x}}{\partial \mathbf{u}} = \begin{pmatrix} \dfrac{\partial x_1}{\partial u_1} & \dfrac{\partial x_1}{\partial u_2} \\ \dfrac{\partial x_2}{\partial u_1} & \dfrac{\partial x_2}{\partial u_2} \end{pmatrix}$, also die Berechnung der **Jacobi-Matrix**:<br>


$ \begin{pmatrix} 2 & 3 \\ 2 & -3 \end{pmatrix}$<br><br>


Zuletzt bleibt noch $\dfrac{d\mathbf{u}}{dt} = \begin{pmatrix} \dfrac{du_1}{d_t} \\ \dfrac{du_2}{dt} \end{pmatrix}$ übrig. Hier muss natürlich die einfache Kettenregel angewendet werden:<br>

$\begin{pmatrix} -\frac{\sin(\frac{t}{2})}{2} \\ 2\cos(t) \end{pmatrix}$<br><br><br>

<hr style="border: 0.1px solid black;"/>
Das Endergebnis ist dann:<br>


$\dfrac{df}{dt} = \begin{bmatrix} 2x_1 & -2x_2 \end{bmatrix} \cdot \begin{pmatrix} 2 & 3 \\ 2 & -3 \end{pmatrix} \cdot \begin{pmatrix} -\frac{\sin(\frac{t}{2})}{2} \\ 2\cos(t) \end{pmatrix}$

## Multivariate Kettenregel Quiz <a class="anchor" id="q1"/><br>

<div class="task">
    <b>Aufgabe</b>: Multivariate Kettenregel Quiz 
    <br>
    <br> Lösen Sie das folgende Quiz "<b>Multivariate Kettenregel Quiz</b>". Hier finden Sie die jeweiligen Antwortmöglichkeiten zu jeder Frage, geben Sie im Quiz dann den entsprechenden Buchstaben an. Es wird empfohlen, die Aufgaben auf einem Blatt/Tablet/o.ä. zu rechnen und dann erst die Lösungen mit den Antwortmöglichkeiten abzugleichen.
    
<u>Antwortmöglichkeiten zu Frage 1</u>:
<ol style="list-style-type:lower-alpha">
    <li>$\frac{df}{dt} = \frac{\partial f}{\partial \mathbf{x}} \frac{d\mathbf{x}}{dt} = \begin{bmatrix} 3x_1^2 \cos(x_2) e^{x_3} & -x_1^3 \sin(x_2) e^{x_3} & x_1^3 \cos{x_2} e^{x_3}\end{bmatrix} \cdot \begin{pmatrix} 2 \\ -2t \\ e^t\end{pmatrix}$</li>
    <li>$\frac{df}{dt} = \frac{\partial f}{\partial \mathbf{x}} \frac{d\mathbf{x}}{dt} = \begin{bmatrix} 3x_1^2 \cos(x_2) e^{x_3} & -x_1^3 \sin(x_2) e^{x_3} & x_1^3 \cos{x_2} e^{x_3}\end{bmatrix} \cdot \begin{pmatrix} 2 \\ 2t \\ e^t\end{pmatrix}$</li>
    <li>$\frac{df}{dt} = \frac{\partial f}{\partial \mathbf{x}} \frac{d\mathbf{x}}{dt} = \begin{bmatrix} 3x_1^2 \cos(x_2) e^{x_3} & x_1^3 \sin(x_2) e^{x_3} & x_1^3 \cos{x_2} e^{x_3}\end{bmatrix} \cdot \begin{pmatrix} 2 \\ -2t \\ e^t\end{pmatrix}$</li>
    <li>$\frac{df}{dt} = \frac{\partial f}{\partial \mathbf{x}} \frac{d\mathbf{x}}{dt} = \begin{bmatrix} 3x_1^2 \cos(x_2) e^{x_3} & x_1^3 \sin(x_2) e^{x_3} & x_1^3 \cos{x_2} e^{x_3}\end{bmatrix} \cdot \begin{pmatrix} 2 \\ 2t \\ e^t\end{pmatrix}$</li>
</ol>
    
<u>Antwortmöglichkeiten zu Frage 2</u>:
<ol style="list-style-type:lower-alpha">
    <li>$\frac{df}{dt} = \frac{\partial f}{\partial \mathbf{x}} \frac{\partial \mathbf{x}}{\partial \mathbf{u}} \frac{d \mathbf{u}}{dt} = \begin{bmatrix}  \sin(x_1) \sin(x_2) & \cos(x_1) \cos(x_2) \end{bmatrix} \cdot \begin{pmatrix} {4u_1} & 6u_2 - 1 \\ 2 & -15u_2^2 \end{pmatrix} \cdot \begin{pmatrix} \frac{1}{2} \cdot e^{\frac{t}{2}} \\ -2e^{-2t} \end{pmatrix}$</li>
    <li>$\frac{df}{dt} = \frac{\partial f}{\partial \mathbf{x}} \frac{\partial \mathbf{x}}{\partial \mathbf{u}} \frac{d \mathbf{u}}{dt} = \begin{bmatrix} - \sin(x_1) \sin(x_2) & \cos(x_1) \cos(x_2) \end{bmatrix} \cdot \begin{pmatrix} {4u_1} & 6u_2 - 1 \\ 2 & 15u_2^2 \end{pmatrix} \cdot \begin{pmatrix} \frac{1}{2} \cdot e^{\frac{t}{2}} \\ -2e^{-2t} \end{pmatrix}$</li>
    <li>$\frac{df}{dt} = \frac{\partial f}{\partial \mathbf{x}} \frac{\partial \mathbf{x}}{\partial \mathbf{u}} \frac{d \mathbf{u}}{dt} = \begin{bmatrix} - \sin(x_1) \sin(x_2) & \cos(x_1) \cos(x_2) \end{bmatrix} \cdot \begin{pmatrix} {4u_1} & 6u_2 - 1 \\ 2 & -15u_2^2 \end{pmatrix} \cdot \begin{pmatrix} \frac{1}{2} \cdot e^{\frac{t}{2}} \\ -2e^{-2t} \end{pmatrix}$</li>
    <li>$\frac{df}{dt} = \frac{\partial f}{\partial \mathbf{x}} \frac{\partial \mathbf{x}}{\partial \mathbf{u}} \frac{d \mathbf{u}}{dt} = \begin{bmatrix} - \sin(x_1) \sin(x_2) & \cos(x_1) \cos(x_2) \end{bmatrix} \cdot \begin{pmatrix} {4u_1} & 6u_2 - 1 \\ 2 & -15u_2^2 \end{pmatrix} \cdot \begin{pmatrix} e^{\frac{t}{2}} \\ -2e^{-2t} \end{pmatrix}$</li>
</ol>
    
</div>

In [14]:
start_quiz(81, "calculus")

VBox(children=(Output(), RadioButtons(layout=Layout(width='max-content'), options=(('a', 0), ('b', 1), ('c', 2…

VBox(children=(Output(), RadioButtons(layout=Layout(width='max-content'), options=(('a', 0), ('b', 1), ('c', 2…

---
---


VBox(children=(Button(description='Ausgewählte Antworten überprüfen', layout=Layout(width='40%'), style=Button…