# Lineare Algebra

Heute werden wir die essenziellen mathematischen Grundlagen für Neuronale Netzwerke erklären.

Das erste mathematische Konzept notwendig ist der **Vektor**
Ein Vektor ist Sammlung von mehrere Werte und wird wie folgt definiert

$$\begin{bmatrix}3 & 4 & 0.5\end{bmatrix}$$ 
Dieser Vektor enthält genau drei Werte. Mit Vektoren können wir einzelne Datenpunkte beschrieben. Zum Beispiel könnten wir die Daten eines Hauses in diesem Vektor speichern. Der erste Wert gibt an viele Bäder das Haus hat, der zweite wie viele Schlafzimmer, und der dritte Wert gibt das Alter der Heizung in Jahren an.

Ihnen ist bestimmt aufgefallen, dass ein Vektor erstaunlich Ähnlichkeiten zu einem 1-dimensionalen `array` hat.
`array([3,4,0.5])`. Tatsächlich, sollen `np.arrays` die gleichen Funktionen wie Vektoren haben. Die mathematischen Regeln die für Vektoren gelten, gelten auch für die `arrays`.


Wir können zum Beispiel einen Vektor mit einer Zahl multiplizieren:
*Für bessere Übersicht schreiben wir den Vektor untereinander*
$$3\cdot\begin{bmatrix}3 \\ 4 \\ 0.5\end{bmatrix}= \begin{bmatrix}3\cdot 3 \\ 4 \cdot 3 \\ 0.5 \cdot 3\end{bmatrix}= \begin{bmatrix}9 \\ 12 \\ 1.5\end{bmatrix} $$ 



In [5]:
import numpy as np
np.array([3,4,0.5])*3

array([ 9. , 12. ,  1.5])

Gleiches gilt auch für Addition und Substraktion:
$$3+\begin{bmatrix}3 \\ 4 \\ 0.5\end{bmatrix}= \begin{bmatrix}3+3 \\ 4+3 \\ 0.5 + 3\end{bmatrix}= \begin{bmatrix}6 \\ 7 \\ 3.5\end{bmatrix} $$ 

In [6]:
3+np.array([3,4,0.5])

array([6. , 7. , 3.5])

Auch können wir zwei Vektoren addieren:
    
    
$$\begin{bmatrix}3 \\ 4 \\ 0.5\end{bmatrix} + \begin{bmatrix}0.3 \\ 3 \\ -0.2\end{bmatrix} = \begin{bmatrix}3 +0.3 \\ 4+3 \\ 0.5-0.2\end{bmatrix} =  \begin{bmatrix}3.3 \\ 7 \\ 0.3\end{bmatrix}$$

In [48]:
np.array([3,4,0.5])+ np.array([0.3,3,-0.2])

array([3.3, 7. , 0.3])

Interessant werden Vektoren erst, wenn wir mehrere miteinander multiplizieren.

Vor allem das sogenannte Skalarprodukt ist für usn wichtig und wird wie folgt berechnet:
$$\begin{bmatrix}3 \\ 4 \\ 0.5\end{bmatrix} \cdot \begin{bmatrix}0.3 \\ 3 \\ -0.2\end{bmatrix} = (3\cdot 0.3) + (3 \cdot 4)+ (0.5\cdot -0.2) = 12.8  $$


Berechnen Sie das Skalarprodukt für die beiden Vektoren per Hand: 

$$\begin{bmatrix}8 \\ 0.25 \\ -1\end{bmatrix} \cdot \begin{bmatrix}0.1 \\ 12 \\ 8\end{bmatrix} = $$

<details>
<summary><strong>Lösung. HIER klicken</strong></summary>

$$\begin{bmatrix}8 \\ 0.25 \\ -1\end{bmatrix} \cdot \begin{bmatrix}0.1 \\ 12 \\ 8\end{bmatrix} =(8\cdot 0.1) + (0.25 \cdot 12)+ (-1\cdot 8) = -4.2  $$
</details>
<br>



In `numpy` benutzen wir `np.dot()`, um das Skalarprodukt zu berechnen. 

In [21]:
np.dot(np.array([3,4,0.5]), np.array([0.3,3,-0.2]))

12.8

Wie Ihnen vielleicht schon aufgefallen ist, ähnelt das Skalarprodukt einer linearen Regression:

In [22]:
x    = np.array([3,4,0.5])
beta = np.array([0.3,3,-0.2])
np.dot(x,beta)

12.8

`x` ist der Inputvektor der die Informationen für drei Variablen enthält. Zum Beispiel für ein Haus, das `3` Bäder und `4` Schlafzimmer hat. Es hat vor einem halben Jahr (`0.5`) eine neue Heizung bekommen. Der zweite Vektor enthält die Koeffizienten der Regression. Also $\beta_1, \beta_2, \beta_3$. Mit der Regression können wir dann den Wert des Hauses in 100.000 € ermitteln. 

Effektive führt das Skalarprodukt zu einer Vereinfachung der Formel. Anstatt zu schreiben:
$$\hat{y} = \beta_1x_1 +\beta_2x_2 +\beta_3x_3$$
können wir die Formel auch so schreiben.

$$\hat{y} = x\beta$$

Hier muss angenommen werden, dass $x$ und $\beta$ Vektoren sind. 
Es fehlt natürlich immer noch das $t$ oder auch $\beta_0$. Also der y-Achsenabschnitt. Wie oben erklärt, können einzelne Werte einfach zu Vektoren addiert werden. 

Die komplette Formel wird deshalb:

$$\hat{y} = x\beta+\beta_0$$

Können Sie diese Formel mit `numpy` schreiben? Berechnen Sie $\hat{y}$ für `x`. Hierbei ist $\beta_0=-5$.

In [16]:
beta_0 =-5
y_hat = _____________________
y_hat

7.800000000000001

<details>
<summary><strong>Lösung. HIER klicken</strong></summary>

```python
y_hat = np.dot(x,beta)+beta_0
    
```
</details>
<br>


Angenommen, wir wollen nun nicht nur `y_hat` für ein Haus bestimmen, sondern für mehrere Häuser gleichzeitig, dann geht das mit genau derselben Formel. 

`X` enthält nun nicht nur einen Vektor, sondern gleich mehrere. Wie Sie schon gelernt haben, können solche Datenstrukturen als 2D-Array gespeichert werden. Ein 2D-Array ist mit einer Matrix in der Mathematik vergleichbar. 

Wenn wir von Matrizen sprechen, benutzen kapitalisierte Variablennamen, um zu kennzeichnen, dass wir von einer Matrix sprechen.

Unten ist `X` gegeben. Sie können sehen, dass `np.dot(X,beta) + beta_0` immer noch das richtige Ergebnis liefert. Diesmal aber für jeder der 4 Reihen.

In [1]:
X = np.array([[3,4,0.5],
              [2,1,1.2],
              [4,2,0.12],
              [3,3,2]])

np.dot(X,beta) + beta_0

NameError: name 'np' is not defined

---
Die Notation $\beta$s kommt aus der traditionellen Statistik. Im maschinellen Lernen werden die Koeffizienten mit   $w$, für "weights", gekennzeichnet. Darüber hinaus wird $\beta_0$, der y-Achsenabschnitt, als $b$ (Bias) bezeichnet.
Die Regressionsgleichung ist deshalb:

$$Xw+b$$

Wir werden ab jetzt diese Notation beibehalten.

---

Wie Sie gelernt haben, ist die Stärke von Neuronalen Netzwerken, das Ausführen von mehr als nur einer Regression gleichzeitig.
Das heißt, wir haben nicht nur eine Reihe von Regressionskoeffizienten, sondern mehrerer. Wie viele?
Das ist Ihnen selber überlassen

In [2]:
W =  np.array([beta,
              [6,0,-2],
              [1,0,3],
              [0,0,-1],
              [1,2,-1]])
b = np.array([beta_0,3,2,0.5,-2])

NameError: name 'np' is not defined

`W` enthält nun die Gewichte für insgesamt fünf lineare Regressionen. Die erste Reihe enthält  noch unsere `beta` Koeffizienten aus der initiale Regression.  Jede weitere Reihe enthält neue Koeffizienten/Gewichte für eine weite Regression. Anhand der Anzahl der Reihen können wir also erkennen, wie viele Regressionen wir machen. 
Auch `b` enthält fünf Werte. Für jede Regressionen enthält er den y-Achsenabschnitt

In einem neuronalen Netzwerk bedeutet, dass auch wie viele Nodes wir in der Hidden Layer haben werden!

Wollen wir jetzt mit diesen beiden Matrizen rechnen, passiert Folgendes:

In [32]:
np.dot(X,W)+b

ValueError: shapes (4,3) and (5,3) not aligned: 3 (dim 1) != 5 (dim 0)

Eine Fehlermeldung:

```shapes (4,3) and (5,3) not aligned: 3 (dim 1) != 5 (dim 0)```

Tatsächlich können wir aus der Fehlermeldung schließen, was das Problem ist. 
Zunächst werden uns die Dimensionen (Anzahl der Reihen und Spalten) ausgegeben. 
`X` `4` Reihen und `3` Spalten. `W` hat `5` Reihen und `3` Spalten. 

Darauf folgt: `3 (dim 1) != 5 (dim 0)`. Also, `3 (dim 1)`, die Anzahl der Spalten (`3 (dim 1)`) der ersten Matrix sind ungleich (`!=`) der Anzahl an Reihen der zweiten Spalte (`5 (dim 0)`).  

**Die Anzahl der Spalten der ersten Matrix sollten gleich der Anzahl der Reihen in der zweiten Spalte sein.**

Wenn wir zum Beispiel, die `W` Matrix umdrehen, also Reihen als Spalten und Spalten als Reihen, dann würden Anzahl der Spalten und Reihen gleich sein.

Das Konvertieren von Spalten zu Reihen und umgekehrt, nennt sich das *Transpose* einer Matrix.
`W.tranpose()` führt diese Transformation aus. 

In [41]:
print(W, "\n")
print(W.transpose())

[[ 0.3  3.  -0.2]
 [ 6.   0.  -2. ]
 [ 1.   0.   3. ]
 [ 0.   0.  -1. ]
 [ 1.   2.  -1. ]] 

[[ 0.3  6.   1.   0.   1. ]
 [ 3.   0.   0.   0.   2. ]
 [-0.2 -2.   3.  -1.  -1. ]]


Wie Sie sehen, werden aus den Reihen Spalten. Das führt auch dazu, dass sich die Dimension der Matrix ändern.

In [56]:
print(W.shape, "\n")
print(W.transpose().shape)

(5, 3) 

(3, 5)


Mit dem Transpose der Matrix `W` sollte die Multiplikation der beiden Matrizen funktionieren, da jetzt die Anzahl der Spalten/Reihen identisch ist:

In [58]:
np.dot(X,W.transpose())+b

array([[ 7.8  , 20.   ,  6.5  ,  0.   ,  8.5  ],
       [-1.64 , 12.6  ,  7.6  , -0.7  ,  0.8  ],
       [ 2.176, 26.76 ,  6.36 ,  0.38 ,  5.88 ],
       [ 4.5  , 17.   , 11.   , -1.5  ,  5.   ]])

Tatsächlich klappt es. Schauen Sie sich zum Beispiel, die erste Spalte an. Diese Werte sind nämlich die Ergebnisse der ersten Regression, die wir berechnet haben: `np.dot(X, beta)+beta_0`.
Tatsächlich enthält jede Reihe die fünf Regressionsergebnisse für jeweils eins der vier Häuser.

Aber wie kann es sein, dass die Regression funktioniert, obwohl wir die `W` Matrix umgedreht haben.

Das liegt daran, wie eine Matrixmultiplikation definiert ist. Es werden nicht Skalarprodukt zwischen korrespondierenden Reihen berechnet. Sondern, Skalarprodukt werden zwischen den Reihen der ersten Matrix und den Spalten der zweiten Matrix berechnet. 


![Matthew Scroggs](https://www.mscroggs.co.uk/img/full/multiply_matrices.gif)
<center>Credit: Matthew Scroggs - 2020 | www.mscroggs.co.uk/blog/73 |</center>

Tatsächlich ist das auch schon fast alles, was für den Forward Pass gebraucht wird.

---

Bis jetzt haben wir immer `np.dot()` für eine Matrixmultiplikation benutzt. Tatsächlich gibt es extra eine Funktion `np.matmul()`. Für große Matrizen ist `np.matmul` schneller und wir werden deswegen auch diese Funktion benutzen. 

In [83]:
np.matmul(X,W.transpose())+b

array([[ 7.8  , 20.   ,  6.5  ,  0.   ,  8.5  ],
       [-1.64 , 12.6  ,  7.6  , -0.7  ,  0.8  ],
       [ 2.176, 26.76 ,  6.36 ,  0.38 ,  5.88 ],
       [ 4.5  , 17.   , 11.   , -1.5  ,  5.   ]])

# Ableitungen



Um zu verstehen, wie neuronale Netzwerke lernen, sollten Sie zumindest in groben Zügen verstehen, was Ableitung aussagen und wie man sie berechnen kann.

Die Ableitung einer Funktion beschreibt die Steigung der ursprünglichen Funktion. 
Angenommen es gibt eine Funktion $f(x)=x^2$. Dann ist die dazugehörige Ableitung $\frac{df}{dx}=2x$ (spich: *Ableitung von f nach x*). 

Im Bild sind sowohl $f(x)$ (*blau*) also auch die Ableitung $\frac{df}{dx}$ (*orange*) eingezeichnet. Zum Beispiel für $x=-5$ ist $f(-5) = 25$. Die Steigung an diesem Punkt ist: $\frac{df(-5)}{dx}=2\cdot -5= -10$. Das heißt, die Steigung der Funktion $f(x)=x^2$ ist $-10$ wenn $x=-5$ ist.

<img src="Img/lin_alg/ableitung_1.png"></img>

Es gibt einige Regeln zu Ableitung. Wir werden nur zwei davon besprechen. 
        $$f(x) = x^n \rightarrow \frac{df}{dx} = n \cdot x^{n-1}$$
        $$f(x) = x^2 \rightarrow \frac{df}{dx} = 2 \cdot x^{2-1}=2x^1= 2x $$
        

Grundsätzlich fallen Konstanten immer in Ableitungen weg.

Das heißt:
Die Ableitung von $f(x)=x^2 + 5$ ist trotzdem nur $2x$, da Konstanten die Funktion nur verschieben, aber nicht in ihre Steigung beeinflussen. 

Anders werden Koeffizienten gehandhabt:

$$f(x) = ax^n \rightarrow \frac{df}{dx} = (n \cdot a)\cdot x^{n-1}$$

Ein Beispiel:

$$f(x) = 4x^3 \rightarrow \frac{df}{dx} = 12x^2$$ 


**Probieren Sie folgende Funktionen abzuleiten (wahrscheinlich einfacher auf einem Papier):**

$$g(x)= 7x^5 - 3$$

$$h(x)= 0.5x^2 + 3x +12$$



<details>
<summary><strong>Lösung. HIER klicken</strong></summary>

$$\frac{dg}{dx}35x^4 $$
$$\frac{dh}{dx}x +3$$

</details>
<br>

# Kettenregel 

Die wichtigste Regel für neuronale Netzwerke ist die Kettenregel. Anhand der Formel ist sie schwierig zu verstehen, doch anhand eines Beispieles sollte es relativ einfach sein. 

Zuvor hieß es, dass die Ableitung die Steigung der originalen Funktion beschreibt. Man kann die Ableitung $\frac{df}{dx}$ auch wie folgt interpretieren: *Um wie viel verändert sich $f(x)$, wenn ich $x$ verändern*. Hierbei ist natürlich die Stärke der Veränderung abhängig von $x$ selber. Im Beispiel $x^2$ haben kleiner Veränderung in $x$, größeren Effekt für Werte um $x=5$ als für Werte um $x=1$. 

Wenn wir die Gewichte eines Netzwerkes optimieren wollen, müssen wir auch wissen, wie eine Veränderung der Gewichte eine Veränderung im Loss herbeiführt. 


Hier ist nochmal ein schematisches Beispiel des Neuronalen Netzwerkes.

<img src="Img/lin_alg/ableitung_3.png"></img>

Für das folgende Beispiel schauen wir uns nur den letzten Teil genauer an. Die Berechnung von $\hat{y}$ erfolgt in zwei Schritten. Zunächst wird $Z_2$ berechnet, dann wird eine nicht-lineare Funktion darauf angewandt, was uns $\hat{y}$.

<img src="Img/lin_alg/ableitung_4.png"></img>

**Für dieses Beispiel schauen wir uns ein Beispiel mit nur einem Wert an**

Also $a_1$ ist, für diesen Moment, kein Vektor, sondern nur ein einzelner Wert, das Gleiche gilt für $w_2$ und $b_2$.

<img src="Img/lin_alg/ableitung_5.png"></img>

Die Frage ist: Welchen Einfluss hat $w_2$/$b_2$ auf den Loss $J$. Oder wie verändert sich der Loss, wenn wir $w_2$/$b_2$ verändern?

Mathematische können wir das als Ableitung von $J$ nach $w_1$ bezeichnen. 
Wir benutzen jetzt $\partial$ anstatt von $d$, da wir über Funktionen mit mehr Parametern sprechen ($w_2$und $b_2$).

$$\frac{\partial J}{\partial w_2}$$

Allerdings, gibt es keinen direkten Einfluss von $w_2$ auf den Loss. $w_2$ beeinflusst $z_2$ und $z_2$ hat einen Effekt auf $\hat{y}$. Und schlussendlich hat $\hat{y}$ Einfluss auf den Loss.

Die Kettenregel erlaubt es uns genau so $\frac{\partial J}{\partial w_2}$ zu berechnen.

Zunächst berechnen wir den Effekt von $w_2$ auf $z_2$:
$$\frac{\partial J}{\partial w_2} = \frac{\partial z_2}{\partial w_2}.... $$

Als Nächstes kommt der Effekt von $z_2$ auf $\hat{y}$ dazu:

$$\frac{\partial J}{\partial w_2} = \frac{\partial z_2}{\partial w_2}\frac{\partial \hat{y}}{\partial z_2} $$

Als Letztes noch der Effekt von $\hat{y}$ auf $J$


$$\frac{\partial J}{\partial w_2} = \frac{\partial z_2}{\partial w_2}\frac{\partial \hat{y}}{\partial z_2}\frac{\partial J}{\partial \hat{y}} $$


Die Kettenregel erlaubt es uns diese Effekte einfach zu multiplizieren, um die gewünschte Ableitung zur erhalten.
Diese Kette kann beliebig lang werden, deswegen kann auch ein Netzwerk beliebig groß werden. 
Denn wie Sie sich erinnern können, gibt es auch noch ein $w_1$ und $b_1$, auch deren Effekt auf $J$ kann berechnet werden. Hier wird die "Kette" nur noch länger.


## Beispiel:

$$e_1 = 2x+3$$
$$e_2 = 0.5e_1^3$$

Berechnen Sie $$\frac{de_2}{dx}$$.




<details>
<summary><strong>Lösung. HIER klicken</strong></summary>

$$\frac{de_2}{dx}= \frac{de_1}{dx}\frac{de_2}{de_1} $$
$$\frac{de_2}{dx}= 2(1.5e_1^2) $$
    
Da wir wissen, dass $e_1 = 2x+3$ ist, können wir diese auch in die Ableitung einsetzen.
$$\frac{de_2}{dx}= 2(1.5(2x+3)^2) $$ 
$$\frac{de_2}{dx}= 2(1.5(4x^2+12x+9)) $$     
$$\frac{de_2}{dx}= 2(6x^2+18x+13.5) $$ 
$$\frac{de_2}{dx}= 12x^2+36x+27) $$   
</details>
<br>

# Übungsaufgabe 2

In dieser Übungsaufgabe berechenen Sie auch wie in einem Neuronalen Netzwerk, den Gradienten für $w$. 
Natürlich vereinfacht und auch nur für einen Wert von $w$. In diesem Beispiel benutzen wir eine simple Lossfunktion und auch keine echte nicht-lineare Funktion. Die Lossfunktion würde in der tatsächlichen Applikation nicht funktionieren. Das gleiche gilt für die nicht-lineare Funktion, sie ist nämlich linear. Als Übungsaufgabe wäre es zu schwierig eine nicht-lineare Funktion und eine tatsächliche Loss Funktion abzuleiten. 

Bitte versuchen Sie diese Übung nach ihrem Vermögen zulösen. Wie schon öfter gesagt, ist es uns nicht wichtig, dass Sie das richtige Ergebnis erhalten, sondern das Sie sich mit der Materie befasst haben. Manchen fällt Mathe leichter als anderen, das ist uns bewusst. 


Zürück zu unserem Fake Netzwerk.
Angenommen die letzte Layer unseres Netzwerk funktioniert wie folgt:

$$z_2 = a_1w_2+b_2$$
$$\hat{y} = z_2^3-3$$
$$J = \hat{y}^2- y^2$$


Berechnen Sie $\frac{\partial J}{\partial w_2}$, also den "Einfluss" von $w_2$ auf $J$ (Loss).
Hierfür geben wir die Werte:

$$a_1 = 2 | b_2=1.4 | w_2 =0.6 | y=1 $$

In [135]:
# Berechnen sie zunächst z_2, y_hat, und J. Also quasi der Forwardpass 
weight =0.6

z_2 = ___*weight+___

y_hat = (z_2**__)-___

J = ____-____

1182.4051199999992


Sie haben den Forwardpass ausgeführt, jetzt kommt die Berechnung der Gradienten. Dafür müssen wir zunächst nur die einzelnen Ableitungen berechnen.

$$\frac{\partial J}{\partial w_2} = \frac{\partial z_2}{\partial w_2}\frac{\partial \hat{y}}{\partial z_2}\frac{\partial J}{\partial \hat{y}} $$

Als Erstes berechnen Sie $\frac{\partial z_2}{\partial w_2}$ welches wir `dw_2` nennen.

In [None]:
dw_2 = 

Als nächstes berechnen Sie $\frac{\partial \hat{y}}{\partial z_2}$ welches wir `dz_2` nennen.

In [None]:
dz_2 = 

Als letzes berechnen Sie $\frac{\partial J}{\partial \hat{y}}$ welches wir `dy_hat` nennen.

In [None]:
dy_hat = 

Um den Gradienten zu berechnen, müssen Sie nun nur diese drei Miteinander multiplizieren.

In [None]:
gradient = dw_2*dz_2*dy_hat
gradient

Das war es auch schon! Sie haben den Gradienten berechnet.
Folgendes müssen Sie nicht mehr abgeben, Sie können sich aber daran probieren. Wenn wir diese Ableitungen in einen `for-loop` packen, und das Gewicht entgegen des Gradienten ein klein wenig verändern, können wir sehen, dass der Loss langsam kleiner wird.

In [7]:
weight =0.6
for i in range(10):
    z_2 = ___*weight+___
    y_hat = (z_2**__)-___
    J = ____-____
    dw_2 = 
    dz_2 = 
    dy_hat = 
    gradient = dw_2*dz_2*dy_hat
    weight -=  0.0001* gradient # updaten des weights
    print(J)

SyntaxError: invalid syntax (<ipython-input-7-827356c2b103>, line 6)