# Lineare Algebra

---
### Lernziele

- Sie verstehen, was Vektoren und Matrizen sind und können damit einfache Berechnungen in Python durchführen.
- Sie sind in der Lage, verschiedene einfache Funktionen abzuleiten.
- Sie verstehen, wie die Kettenregel funktioniert und warum sie für neuronale Netze so nützlich ist.
---


Heute werden wir die wesentlichen mathematischen Grundlagen für neuronale Netze erklären.

Das erste essentielle mathematische Konzept ist der **Vektor**.

Ein Vektor stellt einer Punkt in einem Raum da, der von mehreren Werten beschrieben wird.
Zum Beispiel, kann ein Molekül von mehreren Deskriptoren beschrieben werden. 

Eine Vektor wird wie folgt dargestellt:

$$\begin{bmatrix}3 & 4 & 0.5\end{bmatrix}$$ 

Dieser Vektor enthält genau drei Werte. Wir können Vektoren verwenden, um einzelne Datenpunkte zu beschreiben. Zum Beispiel könnten wir die Daten eines Hauses in diesem Vektor speichern. Der erste Wert gibt an, wie viele Bäder das Haus hat, der zweite, wie viele Schlafzimmer, und der dritte Wert gibt das Alter der Heizungsanlage in Jahren an.

Sie haben sicher bemerkt, dass ein Vektor erstaunliche Ähnlichkeiten mit einem 1-dimensionalen `array` hat.
`np.array([3,4,0.5])`. In der Tat sollen `np.arrays` die gleichen Funktionen wie Vektoren haben. Die mathematischen Regeln, die für Vektoren gelten, gelten auch für die `arrays`.


Wir können zum Beispiel einen Vektor mit einer Zahl multiplizieren: <br>


$$3\cdot\begin{bmatrix}3 \\ 4 \\ 0.5\end{bmatrix}= \begin{bmatrix}3\cdot 3 \\ 3 \cdot 4  \\ 3 \cdot 0.5 \end{bmatrix}= \begin{bmatrix}9 \\ 12 \\ 1.5\end{bmatrix} $$ 

<center> <i>Für bessere Übersicht schreiben wir den Vektor untereinander. </i> </center>



In [None]:
import numpy as np
3 * np.array([3,4,0.5])

Gleiches gilt auch für die Addition und Substraktion:
$$3+\begin{bmatrix}3 \\ 4 \\ 0.5\end{bmatrix}= \begin{bmatrix}3+3 \\ 3+4 \\ 3+0.5\end{bmatrix}= \begin{bmatrix}6 \\ 7 \\ 3.5\end{bmatrix} $$ 

In [None]:
3 + np.array([3,4,0.5])

Auch können wir zwei Vektoren addieren:
    
    
$$\begin{bmatrix}3 \\ 4 \\ 0.5\end{bmatrix} + \begin{bmatrix}0.3 \\ 3 \\ -0.2\end{bmatrix} = \begin{bmatrix}3 +0.3 \\ 4+3 \\ 0.5-0.2\end{bmatrix} =  \begin{bmatrix}3.3 \\ 7 \\ 0.3\end{bmatrix}$$

Hierbei ist wichtig, dass beide Vektoren die selbe Länge haben.

In [None]:
np.array([3,4,0.5]) + np.array([0.3,3,-0.2])

Vektoren werden erst wirklich interessant, wenn wir mehrere miteinander multiplizieren.

Besonders das sogenannte Skalarprodukt ist für uns wichtig und wird wie folgt berechnet:
$$\begin{bmatrix}3 \\ 4 \\ 0.5\end{bmatrix} \cdot \begin{bmatrix}0.3 \\ 3 \\ -0.2\end{bmatrix} = (3\cdot 0.3) + (4 \cdot 3 )+ (0.5\cdot -0.2) = 12.8  $$


Berechnen Sie das Skalarprodukt der Vektoren per Hand: 

$$\begin{bmatrix}8 \\ 0.25 \\ -1\end{bmatrix} \cdot \begin{bmatrix}0.1 \\ 12 \\ 8\end{bmatrix} = $$

<details>
<summary><strong>Lösung. HIER klicken</strong></summary>

$$\begin{bmatrix}8 \\ 0.25 \\ -1\end{bmatrix} \cdot \begin{bmatrix}0.1 \\ 12 \\ 8\end{bmatrix} =(8\cdot 0.1) + (0.25 \cdot 12)+ (-1\cdot 8) = -4.2  $$
</details>
<br>



In `numpy` benutzen wir `np.dot()`, um das Skalarprodukt zu berechnen. 

In [None]:
np.dot(np.array([3,4,0.5]), np.array([0.3,3,-0.2]))

Wie Sie vielleicht bemerkt haben, ist das Skalarprodukt einer linearen Regression ähnlich:

In [None]:
x    = np.array([3,4,0.5])
beta = np.array([0.3,3,-0.2])
np.dot(x,beta)

`x` ist der Eingabevektor, der die Informationen für drei Variablen enthält. Zum Beispiel für ein Haus, das 3 Badezimmer und 4 Schlafzimmer hat. Es wurde vor einem halben Jahr mit einer neuen Heizungsanlage ausgestattet (`0,5`). Der zweite Vektor enthält die Koeffizienten der Regression. Also $\beta_1, \beta_2, \beta_3$. Mit Hilfe der Regression können wir dann den Wert des Hauses in 100.000 € ermitteln. 

Tatsächlich führt das Skalarprodukt zu einer Vereinfachung der Formel. Anstatt zu schreiben:
$$\hat{y} = \beta_1x_1 +\beta_2x_2 +\beta_3x_3$$
können wir die Formel auch wie folgt schreiben.

$$\hat{y} = x\beta$$

Hier müssen wir annehmen, dass $x$ und $\beta$ Vektoren sind. 
Es fehlt natürlich noch das $t$ bzw. $\beta_0$. Also der Schnittpunkt der y-Achse. Wie oben erläutert, können Einzelwerte einfach zu Vektoren addiert werden. 

Die vollständige Formel lautet also:

$$\hat{y} = x\beta+\beta_0$$

Können Sie diese Formel mit `numpy` schreiben? Berechnen Sie $\hat{y}$ für `x`. Dabei ist $\beta_0=-5$.

In [None]:
beta_0 =-5
y_hat = _____________________
y_hat

<details>
<summary><strong>Lösung. HIER klicken</strong></summary>

```python
y_hat = np.dot(x,beta)+beta_0
    
```
</details>
<br>


Angenommen, wir wollen `y_hat` nicht nur für ein Haus, sondern für mehrere Häuser gleichzeitig bestimmen, so können wir dies mit genau der gleichen Formel tun. 

`X` enthält nun nicht nur einen Vektor, sondern mehrere. Wie Sie bereits gelernt haben, können solche Datenstrukturen als 2D-Array gespeichert werden. Ein 2D-Array ist in der Mathematik mit einer Matrix vergleichbar. 

Wenn wir über Matrizen sprechen, verwenden wir groß geschriebene Variablennamen.

Nachfolgend ist `X` angegeben. Sie können sehen, dass `np.dot(X,beta) + beta_0` immer noch das richtige Ergebnis liefert. Diesmal aber für jede der 4 Zeilen.

In [None]:
X = np.array([[3,4,0.5],
              [2,1,1.2],
              [4,2,0.12],
              [3,3,2]])

np.dot(X,beta) + beta_0

---
Die Notation mit $\beta$s stammt aus der traditionellen Statistik. Beim maschinellen Lernen werden die Koeffizienten mit $w$ bezeichnet, was für "Gewichte" steht. Darüber hinaus wird $\beta_0$, der y-Achsenabschnitt, mit $b$ (bias) bezeichnet.
Die Regressionsgleichung lautet somit:

$$Xw+b$$

Wir werden diese Schreibweise von nun an beibehalten.

---

Wie Sie bereits gelernt haben, besteht die Stärke neuronaler Netze darin, dass sie mehr als eine Regression gleichzeitig durchführen.
Das heißt, wir haben nicht nur einen Satz von Regressionskoeffizienten, sondern mehrere. Wie viele?
Das bleibt Ihnen überlassen.

In [None]:
W =  np.array([beta,
              [6,0,-2],
              [1,0,3],
              [0,0,-1],
              [1,2,-1]])
b = np.array([beta_0,3,2,0.5,-2])

`W` enthält nun die Gewichte für insgesamt fünf lineare Regressionen. Die erste Zeile enthält immer noch unsere `beta`-Koeffizienten aus der ersten Regression.  Jede weitere Zeile enthält neue Koeffizienten/Gewichte für eine weitere Regression. Anhand der Anzahl der Zeilen können wir also erkennen, wie viele Regressionen wir durchführen. 
Auch `b` enthält fünf Werte und ist daher jetzt ein Vektor anstelle eines Skalars. Für jede Regression enthält er den y-Achsenabschnitt.

Im Zusammenhang mit neuronalen Netzen entspricht die Anzahl der durchgeführten Regressionen der Anzahl der Knoten in der Hidden Layer des neuronalen Netzes.

Wenn wir nun mit diesen beiden Matrizen rechnen wollen, geschieht folgendes:

In [None]:
np.dot(X,W)+b

Eine Fehlermeldung:

```shapes (4,3) and (5,3) not aligned: 3 (dim 1) != 5 (dim 0)```

Tatsächlich können wir aus der Fehlermeldung schließen, wo das Problem liegt. 
Zunächst werden uns die Dimensionen (Anzahl der Zeilen und Spalten) angegeben. 
`X` hat `4` Zeilen und `3` Spalten. `W` hat `5` Zeilen und `3` Spalten. 

Danach folgt: `3 (dim 1) != 5 (dim 0)`. Also, `3 (dim 1)`, die Anzahl der Spalten (`3 (dim 1)`) der ersten Matrix sind ungleich (`!=`) der Anzahl der Zeilen der zweiten Matrix (`5 (dim 0)`).   

**Die Anzahl der Spalten der ersten Matrix sollten gleich der Anzahl der Reihen in der zweiten Spalte sein.**

Wenn wir zum Beispiel, die `W` Matrix umdrehen indem wir sie "über die Diagonale" spiegeln erhalten wir Reihen als Spalten und Spalten als Reihen. Dann stimmen die Anzahl der Spalten der ersten Matrix und Reihen der zweiten Matrix überein.

Das Konvertieren von Spalten zu Reihen und umgekehrt, nennt sich die *Transponierte* einer Matrix.
`W.tranpose()` führt diese Transformation aus. 

In [None]:
print(W, "\n")
print(W.transpose())

Wie Sie sehen können, werden die Zeilen zu Spalten. Dadurch änderen sich auch die Dimensionen der Matrix.

In [None]:
print(W.shape, "\n")
print(W.transpose().shape)

Mit der Transponierung der Matrix `W` sollte die Multiplikation der beiden Matrizen funktionieren, da nun die Anzahl der Spalten/Zeilen identisch ist:

In [None]:
np.dot(X,W.transpose())+b

Es funktioniert tatsächlich. Sehen Sie sich zum Beispiel die erste Spalte an. Diese Werte sind in der Tat die Ergebnisse der ersten Regression, die wir berechnet haben: `np.dot(X, beta)+beta_0`.
Tatsächlich enthält jede Zeile die fünf Regressionsergebnisse für eines der vier Häuser.

Aber wie kann es sein, dass die Regression funktioniert, obwohl wir die Matrix `W` umgedreht haben?

Das liegt daran, wie die Matrixmultiplikation definiert worden ist. Das Skalarprodukt wird nicht zwischen den entsprechenden Zeilen berechnet. Das Skalarprodukt wird zwischen den Zeilen der ersten Matrix und den Spalten der zweiten Matrix berechnet (Zeile mal Spalte, d. h. Dimensionen der Zeilen und Spalten müssen gleich sein). 

![Matthew Scroggs](https://www.mscroggs.co.uk/img/full/multiply_matrices.gif)
<center>Quelle: Matthew Scroggs - 2020 | www.mscroggs.co.uk/blog/73 |</center>


Das auch schon fast alles, was für den Forward Pass in einem neuronalen Netzwerk gebraucht wird.

---

Bis jetzt haben wir immer `np.dot()` für eine Matrixmultiplikation benutzt. Es gibt aber eine extra Funktion `np.matmul()`. Für große Matrizen ist `np.matmul` schneller und wir werden deswegen auch diese Funktion benutzen. 

In [None]:
np.matmul(X,W.transpose())+b

# Ableitungen



Um zu verstehen, wie neuronale Netze lernen, sollte man zumindest in groben Zügen wissen, was Ableitungen sind und wie man sie berechnet.

Die Ableitung einer Funktion beschreibt die Steigung der ursprünglichen Funktion. 
Angenommen, es gibt eine Funktion $f(x)=x^2$. Dann ist die entsprechende Ableitung $\frac{df}{dx}=2x$ (d.h.: *Ableitung von f nach x*). 

Im Bild sind sowohl $f(x)$ (*blau*) also auch die Ableitung $\frac{df}{dx}$ (*orange*) eingezeichnet. <br>Zum Beispiel für $x=-5$ ist $f(-5) = 25$. Die Steigung an diesem Punkt ist: $\frac{df(-5)}{dx}=2\cdot -5= -10$. Das heißt, die Steigung der Funktion $f(x)=x^2$ ist $-10$ wenn $x=-5$ ist.

<img src="Img/lin_alg/ableitung_1edit.png"></img>

Es gibt einige Regeln zu Ableitung. Hier zuerst eine einfache Regel mit Beispiel: 
        $$f(x) = x^n \rightarrow \frac{df}{dx} = n \cdot x^{n-1}$$
        $$f(x) = x^2 \rightarrow \frac{df}{dx} = 2 \cdot x^{2-1}=2x^1= 2x $$
        

Grundsätzlich fallen Konstanten immer in Ableitungen weg.

Das heißt:
Die Ableitung von $f(x)=x^2 + 5$ ist trotzdem nur $2x$, da Konstanten die Funktion nur verschieben, aber nicht in ihre Steigung beeinflussen. 

Anders werden Koeffizienten gehandhabt:

$$f(x) = ax^n \rightarrow \frac{df}{dx} = (n \cdot a)\cdot x^{n-1}$$

Ein Beispiel:

$$f(x) = 4x^3 \rightarrow \frac{df}{dx} = 12x^2$$ 


**Probieren Sie folgende Funktionen abzuleiten (wahrscheinlich einfacher auf Papier):**

$$g(x)= 7x^5 - 3$$

$$h(x)= 0.5x^2 + 3x +12$$



<details>
<summary><strong>Lösung. HIER klicken</strong></summary>

$$\frac{dg}{dx} = 35x^4 $$
$$\frac{dh}{dx} = x +3$$

</details>
<br>

# Kettenregel 

Die wichtigste Regel für neuronale Netze ist die Kettenregel, bei der verkettete Funktionen abgeleitet werden, d.h. allgemeine Funktionen des Typs: $$f(x) = g(h(x))$$ Die Ableitung einer solchen Funktion lautet dann: $$\frac{df}{dx} = \frac{dg}{dh}\cdot \frac{dh}{dx}$$ Anhand der Formel ist sie schwierig zu verstehen, doch anhand eines Beispieles sollte es relativ einfach sein.

$$\begin{align}f(x)&= (3x + 1)^2 \\g(h)&=h^2; \space\space\space\space\space\space h(x) = 3x+1\end{align}$$

$$\begin{align}
\frac{df}{dx} &= \frac{d}{dh} (h^2)\cdot \frac{d}{dx}h\\
&= 2 h\cdot \frac{d}{dx}(3x+1)\\
&= 2 h \cdot 3 \\
&= 6 \cdot (3x+1)
\end{align}$$



Zuvor wurde gesagt, dass die Ableitung die Steigung der ursprünglichen Funktion beschreibt. Man kann die Ableitung $\frac{df}{dx}$ auch wie folgt interpretieren: *Um wie viel ändert sich $f(x)$, wenn ich $x$ ändere?* Hier hängt der Betrag der Änderung natürlich von $x$ selbst ab. Im Beispiel $x^2$ haben kleine Änderungen von $x$ bei Werten um $x=5$ größere Auswirkungen als bei Werten um $x=1$. 

Wenn wir die Gewichte/Weights eines Netzes optimieren wollen, müssen wir auch wissen, wie eine Änderung der Gewichte eine Änderung des Loss bewirkt. 

Hier noch einmal ein schematisches Beispiel für ein neuronales Netz.


<img src="Img/lin_alg/ableitung_3edit.png"></img>

Für das folgende Beispiel betrachten wir nur den letzten Teil genauer. Die Berechnung von $\hat{y}$ erfolgt in zwei Schritten. Zuerst wird $Z_2$ berechnet, dann wird eine nichtlineare Funktion darauf angewendet, die uns $\hat{y}$ liefert. 

<img src="Img/lin_alg/ableitung_4edit.png"></img>

**Zur Vereinfachung betrachten wir in diesem Beispiel nur einzelne Werte**.

$a_1$ ist also in diesem Moment kein Vektor, sondern nur ein einzelner Wert, dasselbe gilt für $w_2$ und $b_2$.

<img src="Img/lin_alg/ableitung_5.png"></img>


Die Frage ist: Welchen Einfluss hat $w_2$ / $b_2$ auf den Loss $J$. Oder wie ändert sich der Loss, wenn wir $w_2$ / $b_2$ ändern?

Mathematisch gesehen können wir dies als die Ableitung von $J$ nach $w_1$ bezeichnen. 
Wir verwenden jetzt $\partial$ anstelle von $d$, da wir über Funktionen mit mehreren Parametern ($w_2$ und $b_2$) sprechen.

$$\frac{\partial J}{\partial w_2}$$

Allerdings gibt es keinen direkten Einfluss von $w_2$ auf den Loss. $w_2$ beeinflusst $z_2$ und $z_2$ hat einen Effekt auf $\hat{y}$. Und schlussendlich hat $\hat{y}$ Einfluss auf den Loss. Die Funktionen zur Berechnung von $\hat{y}$ bzw. $J$ sind also *verkettet*.

Die Kettenregel erlaubt es uns genau so $\frac{\partial J}{\partial w_2}$ zu berechnen.

Zunächst berechnen wir den Effekt von $w_2$ auf $z_2$:
$$\frac{\partial J}{\partial w_2} = \frac{\partial z_2}{\partial w_2}.... $$

Als Nächstes kommt der Effekt von $z_2$ auf $\hat{y}$ dazu:

$$\frac{\partial J}{\partial w_2} = \frac{\partial z_2}{\partial w_2}\frac{\partial \hat{y}}{\partial z_2} $$

Als Letztes noch der Effekt von $\hat{y}$ auf $J$:


$$\frac{\partial J}{\partial w_2} = \frac{\partial z_2}{\partial w_2}\frac{\partial \hat{y}}{\partial z_2}\frac{\partial J}{\partial \hat{y}} $$


Die Kettenregel erlaubt es uns, diese Effekte einfach zu multiplizieren, um die gewünschte Ableitung zu erhalten.
Diese Kette kann beliebig lang werden, daher kann auch ein Netzwerk beliebig groß werden. 
Da es, wie Sie sich erinnern können, auch ein $w_1$ und $b_1$ gibt, kann auch deren Wirkung auf $J$ berechnet werden. Dazu funktioniert die Kettenregel genauso, die "Kette" wird nur länger.


## Beispiel:

$$e_1 = 2x+3$$
$$e_2 = 0.5e_1^3$$

Versuchen Sie $\frac{de_2}{dx}$ zu berechnen.




<details>
<summary><strong>Lösung. HIER klicken</strong></summary>

$$\frac{de_2}{dx}= \frac{de_1}{dx}\frac{de_2}{de_1} $$
$$\frac{de_2}{dx}= 2(1.5e_1^2) $$
    
Da wir wissen, dass $e_1 = 2x+3$ ist, können wir diese auch in die Ableitung einsetzen.
$$\frac{de_2}{dx}= 2(1.5(2x+3)^2) $$ 
$$\frac{de_2}{dx}= 2(1.5(4x^2+12x+9)) $$     
$$\frac{de_2}{dx}= 2(6x^2+18x+13.5) $$ 
$$\frac{de_2}{dx}= 12x^2+36x+27 $$   
</details>
<br>

# Übungsaufgabe

In dieser Übung berechnen Sie auch den Gradienten für $w$ wie in einem neuronalen Netz. 
Natürlich vereinfacht und nur für einen Wert von $w$. In diesem Beispiel verwenden wir eine einfache Lossfunktion und auch keine echte nicht-lineare Funktion. Die Lossfunktion würde in der realen Anwendung nicht funktionieren. Das Gleiche gilt für die nichtlineare Funktion, da sie linear ist. Eine nichtlineare Funktion, würde den Rahmen dieser Übung sprengen.


Bitte versuchen Sie, diese Aufgabe nach bestem Wissen und Gewissen zu lösen. Wie wir schon oft gesagt haben, ist es für uns nicht wichtig, dass Sie das richtige Ergebnis erhalten, sondern dass Sie sich mit dem Thema beschäftigt haben. Manchen Menschen fällt Mathe leichter als anderen, das ist uns bewusst. 



Zurück zu unserem "faux" neuronalen Netz.
Nehmen wir an, die letzte Schicht unseres Netzwerks funktioniert wie folgt:

$$z_2 = a_1w_2+b_2$$
$$\hat{y} = z_2^3-3$$
$$J = \hat{y}^2- y^2$$


Berechnen Sie $\frac{\partial J}{\partial w_2}$, also den „Einfluss“ von $w_2$ auf $J$ (Loss).
Hierfür geben wir die Werte:
<center>
$ a_1 = 2 $ <br> $ b_2=1.4 $ <br>   $ w_2 =0.6 $  <br>  $ y=1 $ 


In [None]:
# Berechnen sie zunächst z_2, y_hat, und J. Also quasi der Forwardpass 
weight =0.6

z_2 = ___*weight+___

y_hat = (z_2**__)-___

J = ____-____

Sie haben den Forward Pass durchgeführt, nun folgt die Berechnung der Gradienten. Dazu müssen wir zunächst nur die einzelnen Ableitungen berechnen.

$$\frac{\partial J}{\partial w_2} = \frac{\partial z_2}{\partial w_2}\frac{\partial \hat{y}}{\partial z_2}\frac{\partial J}{\partial \hat{y}} $$

Als Erstes berechnen Sie $\frac{\partial z_2}{\partial w_2}$ welches wir `dw_2` nennen.

In [None]:
dw_2 = 

Als Nächstes berechnen Sie $\frac{\partial \hat{y}}{\partial z_2}$ welches wir `dz_2` nennen.

In [None]:
dz_2 = 

Als Letzes berechnen Sie $\frac{\partial J}{\partial \hat{y}}$ welches wir `dy_hat` nennen.

In [None]:
dy_hat = 

Um den Gradienten zu berechnen, müssen Sie nun nur diese drei miteinander multiplizieren.

In [None]:
gradient = dw_2*dz_2*dy_hat
gradient

Das war's auch schon! Sie haben die Gradienten berechnet.

**Sie müssen die folgende Aufgabe nicht einreichen, aber Sie können sich daran versuchen.**

Wenn wir diese Ableitungen in einen `for-loop` setzen und die Gewichtung entgegen den Gradienten ein wenig ändern, können wir sehen, dass der Loss langsam kleiner wird. Das "neuronale Netz" wird trainiert.

In [None]:
weight =0.6
for i in range(10):
    z_2 = ___*weight+___
    y_hat = (z_2**__)-___
    J = ____-____
    dw_2 = 
    dz_2 = 
    dy_hat = 
    gradient = dw_2*dz_2*dy_hat
    weight -=  0.0001* gradient # updaten des weights
    print(J)