# Neuronales Netzwerk


## Einleitung

Seit jeher versucht man die rätselhaften und unerklärlichen Prozesse zu verstehen, welche die Natur mit sich bringt. Sei es auf physikalischer, chemischer oder biologischer Ebene. Zu diesen faszinierenden Themen gehören für mich auch die spannenden Prozesse des menschlichen Gehirns. Es ist das komplizierteste Organ, welches grundsätzlich für die Aufnahme und Verarbeitung von Signalen zuständig ist und besteht aus mehreren Milliarden von Neuronen. Um zu verstehen wie ein solch grosses biologisches Neuronales Netzwerk funtioniert, haben Wissenschaftler bereits vor vielen Jahren den Versuch gestartet, diese hochkomplexen Vorgänge vereinfacht als mathematische Formeln darzustellen und zu beschreiben. Diese Modelle nannte man anschliessend Künstliche Neuronale Netzwerke (KNN), da sie auf den Prozessen eines echten Gehirns basieren. Heute stehen wir an einem ganz anderen Punkt bezüglich der Entwicklung von diesen Künstlichen Neuronalen Netzwerken, dank der Neurowissenschaften. Trotzdem gibt es immernoch viele Unklarheiten und Mysterien welche die Forschungswelt beschäftigen. Das Ziel dieser Arbeit ist es einige dieser komplexen Vorgänge von KNNs herunterzubrechen und zu erklären, auch anhand einer vereinfachten Anleitung eines Künstlichen Neuronalen Netzwerks, welches Ziffern von null bis neun klassifizieren kann.

## Perzeptron

Um diese Vorgänge zu verstehen, möchte ich zuerst ganz kurz auf das einfachste KNN zusprechen kommen. Das Perzeptron. Es stellt ein Modell eines einzigen Neurons dar, welches Eingaben erhält, diese verarbeitet und eine Ausgabe produziert.


![image-5.png](attachment:image-5.png)


Im folgenden Abschnitt wird kurz erklärt wie ein solches Perzeptron funktioniert. Sobald man den Vorgang eines einzigen Neurons verstanden hat, wird es logischerweise einfacher Neuronale Netzwerke zu verstehen, da diese im Grunde genommen einfach aus vielen verketteten Neuronen bestehen. 

![image-7.png](attachment:image-7.png)

Wie bereits erwähnt besteht ein Perzeptron aus einem einzigen Neuron. Dieses Neuron erhält Eingaben z.B. in Form einer Matrix und produziert anschliessend mithilfe eines bestimmten Algorithmus eine Ausgabe. Im Falle einer falschen Ausgabe so müssen einzelne Parameter des Algorithmus angepasst werden, um das richtige Ergebnis zu erhalten. Dieser Prozess ist einigermassen anspruchsvoll und wird "Gradient descent" genannt. Vorerst muss jedoch aufgeklärt werden, was mit dem "Algorithmus" gemeint ist. Dies ist nicht allzu kompliziert und ist in 2 Abschnitte unterteilbar.
<a id="1"></a>
#### Schritt 1: Summe

Wie die untenstehende Abbildung zeigt, hat das Perzeptron gewisse Eingaben auch Inputs genannt. In diesem Falle gibt es die Inputs [$I_0$] und [$I_1$]. Die Inputs werden danach mit individuellen Gewichten multiplizert und anschliessend wird die Summe aller Multiplikationen berechnet. In unserem Beispiel sähe dies folgendermassen aus:
$$[I_0] \times [w_0] + [I_1] \times [w_1] = x$$

Dies ist der erste Schritt, welcher der Algorithmus durchführt. Die gewichtete Summe aller Inputs sozusagen. Diese Operation wirkt sehr einfach und grundsätzlich ist sie auch einfach, jedoch sollte man im Hinterkopf behalten, dass dieses Beispiel lediglich 2 Inputs beinhaltet. Der Vorgang bleibt aber der gleiche egal ob 2 oder 10'000 Inputs.
<a id="2"></a>
#### Schritt 2: Aktivierungsfunktion

Der zweite Schritt beinhaltet eine sogenannte **Aktivierungsfunktion**. Wichtig ist anzumerken, dass die Aktivierungsfunktion ein Kerngedanke darstellt, wenn es um Künstliche Neuronale Netzwerke geht und alle KNNs besitzen solche Aktivierungsfunktionen. Grundsätzlich erlaubt einem die Aktivierungsfunktion, die Ausgabe auf einen bestimmten Bereich anzupassen. z.B. gibt es eine Aktivierungsfunktion, welche nur Zahlen im Bereich zwischen 0 und 1 Zahlen erzeugt, um zu grosse Werte zu vermeiden.

In unserem Beispiel kann man es sich einfach so vorstellen, dass die Summe aller Multiplikationen und Gewichten aus Schritt 1 ($x$), nun an die Aktivierungsfunktion weitergereicht wird. Diese Funktion erzeugt dann die finale Ausgabe. Logischerweise gibt es verschiedenste Aktivierungsfunktionen. Es kommt ganz auf den spezifischen Verwendungszweck an. Bei einem linearen Klassifizierungs Problem macht es beispiesweise keinen Sinn, eine komplizierte non-lineare Funktion zu wählen. 
![image-8.png](attachment:image-8.png)


Das Grundprinzip eines Neurons ist jetzt sicher einmal verständlich geworden.

***
<b> <summary> <font color="red"><b> Lernkontrolle</b></font></summary> </b> <details>
 
    
Entweder über [diesen](https://app.Lumi.education/run/Z-5BQz) Link oder den untenstehenden QR-Code:
![image-9.png](attachment:image-9.png)


</details>


***



***
## Mathematik
Um Neuronale Netzwerke verstehen zu können, sind verschiedenste mathematische Grundlagen von grosser Bedeutung. Deshalb werden die wichtigsten im folgenden Abschnitt kurz aufgezeigt und erklärt. 
  
  <details>
  <summary><font color="red"><b>Hier findet man die ganze Mathematik</b></font> </summary>
  



  #### <u>Vektoren</u>

Beginnen wir mit Vektoren. Es muss gesagt werden, dass wir schlussendlich Matrizen benötigen werden, der Einfachheit halber werde ich aber zuerst Vektoren erklären. D.h. wer sich bereits mit Vektoren auskennt, kann diesen Abschnitt ohne Probleme überspringen. Das Verständnis von Vektoren ist ausschlaggebend, wenn man ein neuronales Netzwerk programmieren will. Aus diesem Grunde sind Vektoren sehr wichtig.In diesem Kontext verwenden wir einen Vektor algebraisch 
(mathematisch) als eine Reihe von Zahlen in Klammern und knapp gesagt sind Vektoren in Python einfache Listen. Dies steht im Gegensatz zur Sichtweise der Physik, wo die Darstellung des Vektors normalerweise als Pfeil gesehen wird, der durch eine Länge und eine Richtung charakterisiert ist.  Allgemein muss man sich Vektoren als eine n-dimensionale Liste mit Werten vorstellen. Beispielsweise: 

$$\begin{bmatrix} a_1 & a_2 & ...& a_n \end{bmatrix} $$    

Mit Vektoren sind ganz viele mathematische Operationen möglich.
Wir benötigen jedoch nicht alle sondern im Moment nur das Skalarprodukt oder auch Punktprodukt.


  #### <u>Punktprodukt</u>

Das Dotproduct ist nicht schwer zu verstehen und es ist vom Prinzip derselbe Vorgang, wie die oben besprochene gewichtete Summe aller Inputs in ein Perzeptron. Man nimmt zum Beispiel zwei 2D Vektoren: [2,3] und [3,4]. Nun multipliziert man die beiden Zahlen, mit derselben Position der jeweiligen Vektoren. D.h. in diesem Beispiel nimmt man die erste Stelle des ersten Vektors; die Zahl 2 und multipliziert diese mit der ersten Stelle des zweiten Vektors; die Zahl 3. undso weiter, bis man das Produkt aller Positionen berechnet hat. In unserem Fall bedeute das lediglich noch "3 * 4" zu berechen. Sobald man das Produkt aller Positionen hat, berechnet man bloss noch die Summe aller Produkte. D.h. (2 * 3)+(3 * 4)= 18.
Das Ziel des Skalarprodukts ist es, aus zwei Vektoren einen Skalar zu bekommen.

die entsprechende Formel:
    
$$ \vec a \cdot \vec b = \sum_{i=1}^n a_i b_i = a_1b_1 + a_2b_2 + ... + a_nb_n$$
    
Dieser Vorgang ist von grosser Bedeutung und der Grund warum er hier erklärt wird, ist, weil man diesen Vorgang später wiederbraucht einfach mit Matrizen anstelle von Vektoren.

Doch die Frage stellt sich nun, weshalb ist das Verständnis von Vektoren so wichtig im Zusammenhang mit Neuronalen Netzwerken?

>[Vektoren](https://www.geogebra.org/calculator/gsg7n82f)

Es zeigt sich, dass es möglich ist mit der Anpassung von einzelnen Parameter eines Vektors, den Zielvektor zu erhalten. Diese Vorstellung wird analog im Bereich der Neuronalen Netzwerke verwendet. Mithilfe der stetigen Anpassung gewisser Parameter, das erwünschte Ergebnis zu erzielen.
Als nächstes möchte ich aber auf Matrizen zusprechen kommen, denn wenn man ein neuronales Netz programmiert, hat man es nicht mehr mit Vektoren sondern mit Matrizen zu tun.


  #### <u>Martrizen</u>

Wir wollen versuchen zu verstehen, wie diese Operationen funktionieren, sobald wir anfangen Zahlen in Matrizen zu schreiben. Warum ist das nötig? Hierfür gibt es unzählige Gründe. Ein Beispiel sind die Bildschirmpixel, welche als Matrix geschrieben sind. Weiter sind beispielsweise Daten einer Tabelle in Excel in einer Matrix gespeichert. Oder die Gewichte zwischen Neuronen in einem Neuronalen Netzwerk können in Matrizen gespeichert werden. Es gibt ganz viele Fälle, in welchen die Zahlen, die wir bearbeiten wollen als Matrix gespeichert sind. Was ist eine Matrix überhaupt? Eine Matrix ist im Gegensatz zum Vektor keine lineare Liste, sondern ein 2 dimensionales Raster aus Werten. Beispielsweise: 

$$\begin{bmatrix} 3 & 4  \\ 1 & 5\\6& 1 \end{bmatrix}$$

Diese Matrix hat die Form (3, 2), da sie 3 Reihen und 2 Spalten hat. 

Nun soll erklärt werden wie man Matrizen multipliziert, auch Matrizenmultiplikation genannt.


  #### <u>Martrizenmultiplikation</u>

Das Matrixprodukt ist eine Operation, bei der wir 2 Matrizen haben, und wir Skalarprodukte
aller Kombinationen von Zeilen der ersten Matrix und den Spalten der zweiten Matrix durch. 
Das Ergebnis ist eine Matrix mit diesen atomaren Skalarprodukten. Die Matrixmultipliaktion ist nur möglich, wenn die Anzahl Zeilen der ersten Matrix mit der Anzahl Spalten der Zweiten übereinstimmen. Ein bedeutsamer Unterschied zur Vektorenmultiplikation mit dem Skalarprodukt ist, dass bei der Matrizenmultiplikation als Produkt eine neue Matrix entsteht und nicht eine Zahl. Das Skalarprodukt spielt aber wie erwähnt eine grosse Rolle bei der Matrixmultiplikation. Sie funktioniert wie folgt: Man verwendet das Skalarprodukt in dem man die Einträge der ersten Zeile der ersten Matrix mit den entsprechenden Einträgen der ersten Spalte der zweiten Matrix multipliziert. Anschliessend summiert man alle Produkte und erhält einen Skalar. Diese Zahl wird dann an erster Stelle in der Ergebnismatrix eingetragen. Danach geht man einfach eine Spalte weiter in der zweiten Matrix und wiederholt den Prozess usw. bis zur letzen Spalte in der zweiten Matrix. Anschliessend geht man in der ersten Matrix eine Zeile nach unten und beginnt wieder von vorne, d.h. man nimmt das Skalarprodukt der zweiten Zeile der ersten Matrix und der ersten Spalte der zweiten Matrix. Dieses Vorgehen wird wiederholt bis zum Schluss. 

Man hat zum Beispiel die Matrix X und Y

$$X : \begin{bmatrix} 1 & 2 & 3 \\ 4 & 5 & 6 \end{bmatrix} Y : \begin{bmatrix} 7 & 5 \\ 3 & 2 \\ 4 & 6 \end{bmatrix}$$

Wie erwähnt sollten die Anzahl Spalten der ersten Matrix und die Anzahl Zeilen der zweiten Matrix übereinstimmen. Die erste Matrix (X) besitzt zwei Zeilen und die zweite (Y) besitzt zwei Spalten. Nun wendet man das Skalarprodukt auf die erste Zeile bzw. Spalte an. Das sieht in unserem Beispiel folgendermassen aus.

$$\begin{bmatrix}\color {Blue}1&\color {Blue} 2 &\color {Blue} 3 \\ 4 & 5 & 6 \end{bmatrix} \cdot \begin{bmatrix}\color {Red}7&5 \\\color {Red}3&2 \\\color {Red}4&6 \end{bmatrix} = \begin{bmatrix}\color {Blue} 1\times \color {Red}7 +\color {Blue} 2\times \color {Red}3 + \color {Blue}3\times \color {Red}4 & - \\ - &- \end{bmatrix} = \begin{bmatrix} \textbf{25} & - \\ - & -  \end{bmatrix}$$

Grundsätzlich geht man bei der Matrixmultiplikation einfach eine Spalte weiter in der zweiten Matrix und wendet das Skalarprodukt an. In unserem Beispiel sieht das so aus:

$$\begin{bmatrix}\color {Blue}1&\color {Blue} 2 &\color {Blue} 3 \\ 4 & 5 & 6 \end{bmatrix}  \cdot \begin{bmatrix}7&\color {Red}5 \\3&\color {Red}2 \\4&\color {Red}6 \end{bmatrix} = \begin{bmatrix}- & \color {Blue} 1\times \color {Red}5 +\color {Blue} 2\times \color {Red}2 + \color {Blue}3\times \color {Red}6 \\ - &- \end{bmatrix} = \begin{bmatrix} 25 & \textbf{27} \\ - & -  \end{bmatrix}$$

Nun gibt es keine weiteren Spalten mehr in Y, das heisst wir gehen zur nächsten Zeile in X über und wiederholen den Vorgang.

$$\begin{bmatrix}1& 2 & 3 \\ \color {Blue}4 & \color {Blue}5 & \color {Blue}6 \end{bmatrix}  \cdot \begin{bmatrix}\color {Red}7&5 \\\color {Red}3&2 \\\color {Red}4&6 \end{bmatrix} = \begin{bmatrix}25 & 27\\ \color {Blue}4\times \color {Red}7+ \color {Blue}5\times \color {Red}3 +\color {Blue} 6\times \color {Red}4 & - \end{bmatrix} = \begin{bmatrix} 25 & 27\\ \textbf{67} & -  \end{bmatrix}$$

Insgesamt erhält man folgende Lösung:

$$\begin{bmatrix} 1\times 7 + 2\times 3 + 3\times 4 & 1\times 5 + 2\times 2 + 3\times 6\\ 4\times 7+ 5\times 3 + 6\times 4 & 4\times 5 + 5\times 2 + 6\times 6 \end{bmatrix} = \begin{bmatrix} 25 & 27 \\ 67 & 66  \end{bmatrix}$$
    
***

An dieser Stelle möchte ich auf eine hilfreiche [Website](http://matrixmultiplication.xyz/) verweisen, welche das Matrixprodukt gut veranschaulicht.
***

Was ist jetzt aber, wenn wir zum Beispiel Eingaben in der Form einer (3,2) Matrix haben und unsere Gewichte, an welchen wir das Matrixprodukt anwenden wollen, haben dieselbe Form (3,2). Dafür gibt es eine einfache Lösung. Wie transponieren eine Matrix, sodass sich ihre Form von (3,2) zu (2,3) ändert.
<a id="3"></a>
#### Transponierung/ Transposition

Nun kommt noch eine Operation dazu - Transponierung. Die Transposition verändert einfach eine 
Matrix so, dass ihre Zeilen zu Spalten und Spalten zu Zeilen werden: 

$$ \begin{bmatrix} 1 & 2 & 9 \\ 4 & 5 & 6 \\3 & 7 & 2 \end{bmatrix}^T =\begin{bmatrix} 1 & 4 & 3 \\ 2 & 5 & 7 \\9 & 6 & 2 \end{bmatrix}$$

Zuerst möchte ich die Operation aber anhand von Vektoren erklären. Es gibt Zeilenvektoren und Spaltenvektoren. Ein Zeilenvektor ist im Grunde auch eine Matrix, deren erste Dimension (die Anzahl der Zeilen) einfach gleich 1 ist und deren 
Größe der zweiten Dimension (die Anzahl der Spalten) gleich n ist - die Größe des Vektors. Die Form eines Zeilenvektors ist also (1, n):
$$\vec{a} = \begin{bmatrix} a_1 & a_2 & ...& a_n\end{bmatrix}$$

Die andere Möglichkeit eines Vektors ist der Spaltenvektor. Ein Spaltenvektor ist eine Matrix, bei der die Größe der zweiten Dimension (die Anzahl der Spalten) gleich 1 ist, d.h. er hat die Form (n, 1):
$$\vec{b} = \begin{bmatrix} b_1 \\ b_2 \\ ...\\ b_n\end{bmatrix}$$

Der Vektor b kann genau gleich erstellt werden wie der Vektor a, nur muss er zudem transponiert werden. Die Transposition verwandelt einfach Zeilen in Spalten und Spalten in Zeilen:

$$ \begin{bmatrix} b_1 & b_2 & ...& b_n\end{bmatrix}^T = \begin{bmatrix} b_1 \\ b_2 \\ ...\\ b_n\end{bmatrix}$$

Umgekehrt geht das natürlich genauso:
$$ \begin{bmatrix} b_1 \\ b_2 \\ ...\\ b_n\end{bmatrix}^T = \begin{bmatrix} b_1 & b_2 & ...& b_n\end{bmatrix} $$

Das Transponieren  einer Matrix funktioniert analog, es werden einfach Zeilen und Spalten getauscht. Speziell ist, bei einer quadratischen Matrix, so wie die obige, werden alle Einträge einfach an der Hauptdiagonale gespiegelt. Um auch noch eine andere Möglichkeit demonstrieren. Eine Matrix von der Form (2, 3) wird transponiert, dabei entsteht eine Matrix der Form (3, 2):

$$ \begin{bmatrix} 1 & 2 & 9 \\ 4 & 5 & 6 \end{bmatrix}^T = \begin{bmatrix} 1 & 4  \\ 2 & 5 \\9 & 6  \end{bmatrix}$$
    
    
#### <u> Calculus</u>
    
<a id="5"></a>    
    **1. Power Rule:**
    
$f(x) = x^n$ dann ist die Ableitung: $f'(x) = n\times x^{n-1}$
    

<a id="4"></a>    
    **2. Chain Rule**
 
Angenommen man hat die Funktionen $y = x^2$ und $x = z^2$. Man möchte die Ableitung von y abhängig von z:
    
$$\frac{\partial y}{\partial z}$$
    
Nun kann man zuerst die Ableitung von y abhängig von x berechnen:
    
    
$$\frac{\partial y}{\partial x} = 2x$$
    
Dann die Ableitung von x abhängig von z:
    
$$\frac{\partial x}{\partial z} = 2z$$
    
und diese beiden dann miteinander multiplizieren:
    
$$ \frac{\partial y}{\partial x} \times  \frac{\partial x}{\partial z}      =2x \times 2z $$
    
Das bedeutet man kann Ableitungen "aneinanderketten".<br>
Für ein tieferes Verständnis von Differenzialrechnungen empfehle ich die Videos von 3Blue1Brown. Sie sind sicherlich sehr hilfreich, um sich ein solides Grundwissen anzueignen.
 - [Essence of Calculus](https://www.youtube.com/playlist?list=PLZHQObOWTQDMsr9K-rj53DwVRMYO3t5Yr)
    
***
<b> <summary> <font color="red"><b> Lernkontrolle</b></font></summary> </b> <details>
 
    
Entweder über [diesen](https://app.Lumi.education/run/BvAweK) Link oder den untenstehenden QR-Code:
![image-10.png](attachment:image-10.png)   


</details>


***
    
    
</details>

***

Das Ziel dieser Anleitung ist es ein einfaches Neuronales Netzerk zu programmieren. Die Schwierigkeit besteht jedoch darin, dass das neuronale Netzwerk ganz ohne Deep Learning-Frameworks wie TensorFlow, Keras oder Pytorch enstehen soll. 

Ich möchte mit einem kurzen Überblick beginnen, um zu veranschaulichen, was auf uns zu kommt und zugleich um ein wenig Struktur in die Arbeit zu bringen.

## Übersicht

1. Grundgerüst erstellen: Die nötigen Funktionen festlegen
2. Parameter Initialisieren: Die Anzahl der Neuronen und sonstige Parameter werden festgelegt
3. Forward Propagation: Die Daten werden durch das Neuronale Netzwerk fliessen und eine Ausgabe ergeben
4. Backward Propagation: Die wahrscheinlich falsche Ausgabe mithilfe der Gewichte verbessern.
5. Daten importieren
6. Training des neuronalen Netzwerkes




## Grundgerüst
Beginnen wir mit einem Grundgerüst für unseren Code. Das heisst wir überlegen kurz, welche Funktionen wir benötigen werden. Im ersten Schritt benötigen wir sicherlich eine Funktion, welche unsere Parameter initialisert. Diese nenne ich: <code>init_params</code>. Als nächstes benötigen wir eine Funktion, welche die forwardpropagation durchführt, das heisst eine erste Ausgabe liefert. Ich gebe ihr den Namen: <code>forward_prop</code>. Die Ausgabe dieser Funktion ist sicherlich noch nicht korrekt, deshalb benötigen wir zum Schluss noch eine Funktion, welche unsere Ausgabe verbessert. Das ist die Ausgabe der backwardpropagation. Deshalb nenne ich sie: <code>backward_prop</code>. Kombiniert ergibt das folgendes Ergebnis:

In [1]:
def init_params():
    return

def forward_prop():
    return 

def backward_prop():
    return

## Initialisierung der Parameter
Starten wir mit der Initialisierung unserer Parameter. Das heisst wir erstellen eine Funktion, welche unsere Verknüpfungsgewichte zwischen den Schichten festlegen soll. Die Dimensionen der Gewichtsmatrizen legen wir anhand der Anzahl der Neuronen in der Eingabeschicht bzw. der Versteckten- und der Ausgabeschicht fest. Diese drei Parameter sind also Eingaben, die unsere Funktion benötigt. 

In [None]:
def init_params(input_nodes, hidden_nodes, output_nodes):
    return

Jetzt müssen wir die Gewichte initialisieren. Sie sind essenziell in einem Neuronalen Netzwerk, da man durch die Verfeinerung und Anpassung der Gewichte auf das gewünschte Ergebnis kommt. Gehen wir vom folgendem Neuronalen Netzwerk aus:
![image.png](attachment:image.png)

Wir benötigen eine Matrix mit den Gewichten für die Verbingungen zwischen der Eingabeschicht und der ersten versteckten Schicht. Diese kürze ich so ab: $w_{1}$

Zudem benötigen wir eine weitere Matrix für die Verknüpfungen zwischen der versteckten Schicht und der Ausgabeschicht: $w_{2}$.

Wie initialisieren wir die Gewichte? Die Anfangswerte der Gewichte können grundsätzlich zufällig gewählt werden, es sollte jedoch beachtet werden, dass die Werte nicht gross sind, um unnötige Komplikationen zu vermeiden. Probiere die folgenden Funktionen aus, welche eignen sich gut? Bevor man diese Funktionen verwenden kann, muss die Bibliothek numpy importiert werden, welche beliebige algebraische Operationen ausfühern kann. Mit folgendem command ist das möglich: <code>import numpy as np</code>

<pre><code>1. np.random.rand(X, X)
2. np.random.random([X, X])
3. np.random.randn(X, X)
4. np.zeros([X, X])
5. np.random.randint(X, size=(X, X))</code></pre>



Wir werden die numpy-Funktion "*np.random.rand(Zeilen, Spalten)*" verwenden. Diese generieret zufällige Werte zwischen 0 und 1. Da wir aber auch an negativen Werten interessiert sind, subtrahieren wir einfach noch 0.5 vom Ergebnis, so erhalten wir Werte zwischen -0.5 und 0.5. 

In [10]:
import numpy as np
np.random.rand(3,3) - 0.5

array([[ 0.16209822, -0.25296615,  0.30172713],
       [ 0.16008349,  0.08877175, -0.28466904],
       [ 0.45992348, -0.00945197, -0.41981435]])

Nun können wir diese Operation analog in unser Netzwerk übertragen. Die Frage ist nur noch, wie gross sollen diese beiden Matrizen werden? Dies kann man sich gut überlegen. Angenommen das neuronale Netzwerk hat 3 Eingabeneuronen und 3 in der versteckten Schicht und alle 3 Eingabeneuronen sind mit allen 3 Neuronen der versteckten Schicht verbunden. Das heisst jedes Neuron der Eingabeschicht hat jeweils 3 Verbindungen. Insgesamt sind es $3 \times 3$. Die Grösse der Gewichtsmatrix ist also abhängig von der Anzahl der Neuronen der verbindenden Schichten. Dies muss unbedingt berücksichtigt werden im Code.

In [None]:
W1 = np.random.rand(hidden_nodes, input_nodes) - 0.5  # Verknüpfungsgewichte zwischen Input layer und hidden layer 
W2 = np.random.rand(output_nodes, hidden_nodes) - 0.5  # Verknüpfungsgewichte zwischen hidden layer und output layer

***
<b> <summary> <font color="red"><b> Lernkontrolle</b></font></summary> </b> <details>
 
    
Entweder über [diesen](https://app.Lumi.education/run/PgwTbS) Link oder den untenstehenden QR-Code:
![image.png](attachment:image.png)


</details>


***


Bis jetzt haben wir ein Grundgerüst für unser neuronales Netzwerk erstellt und die Gewichte mit einer Funktion zufällig initialisiert. Nun können wir uns der nächsten Aufgabe widmen - forwardpropagation. 

## Forward Propagation

Das Netzwerk soll eine erste Ausgabe generieren. Das Netz bekommt eine Eingabe, diese wird aufgrund der Gewichte modereriert. Anschliessend transformiert eine Aktivierungsfunktion die summierten Eingangssignale in das Ausgangssignal der jeweiligen Schichten. Wie bereits beim Perzeptron erklärt ist der [erster Schritt](#1) die Summe aller multiplizierten Werte. Möglich mithilfe des Punktprodukts, bzw. des Matrixprodukts:

$$Z_{1} = w_{1} \cdot X$$
Hier Steht das $Z_1$ für die Eingaben in die erste versteckte Schicht, welche dem Matrixprodukt zwischen den Eingaben ($X$) und den Gewichten ($w_{1}$) entspricht. Dieses $Z_1$ benötigen wir nämlich im nächsten Schritt als Eingabe in die Aktivierungsfunktion. Die Matrixmultiplikation müssen wir aber nicht einzeln für jedes Neuron durchführen. Hier kommt die numpy-Bibliothek ins Spiel. Mit der Funktion *np.dot()* können wir ganz einfach das Punktprodukt zweier Matrizen berechnen. 

In [None]:
Z1 = np.dot(W1, X)

Auch der die Eingaben in die zweite Schicht $Z2$ sind sehr einfach zu schreiben. Anstatt des Parameters $X$ verwenden wir $A1$. Dieser steht für die Ausgaben aus der ersten Schicht, welche die Eingaben der zweiten bilden.

In [None]:
Z2 = np.dot(W2, A1)

Das ist bereits der ganze Code.<p> &#128516;</p>
Diese zwei Linien Code erledigen die gesamte Arbeit für uns. Sie müssen nicht einmal geändert werden, sollte man die Anzahl der Neuronen ändern. 

Nun fehlt  nur noch [Schritt 2](#2)- die Aktivierungsfunktion. Drei verschiedene werde ich kurz ansprechen.
### Sigmoid
Diese Funktion generiert Werte zwischen 0 und 1. 0 steht für negative Unendlichkeit. Bei der Eingabe von 0 gibt sie den Wert 0,5 aus und 1 steht für positive Unendlichkeit. Die Formel der Sigmoidfunktion sieht so aus: $$y= \frac {1}{1+e^{-x}} $$

Als Funktion in Code:

In [None]:
def Sigmoid(inputs): 
    E = math.e 
    return 1/(1+E**(-inputs))

$E$ steht hier für die Eulersche Zahl, nachdem Mathematiker Leonard Euler. Um die Zahl nicht ausschreiben zu müssen importieren wir sie mithilfe der Aussage <code>math.e</code> und nennen sie $E$.

Die Sigmoid-Funktion, die in der Vergangenheit in versteckten Schichten verwendet wurde, wurde schließlich ersetzt durch die 
Rectified Linear Units Aktivierungsfunktion (oder ReLU)

### Rectified Linear Unit (ReLU)
Die ReLu Aktivierungsfunktion ist eine lineare Funktion, welche positive Werte erzeugt und alle negativen auf Null setzt.
Die Formel der ReLu : $$y = max (0,x) $$

$max()$, nimmt im Grunde einfach den höheren Wert entweder $0$ oder $x$ als Ausgabewert. Eine negativer Wert für $x$ wird nämlich auf Null gesetzt, da null zwingend grösser ist als ein negativer Wert. Jeder positive Wert von $x$ ist eine Ausgabe, da er höher als null ist.

Auch in python ist diese Funktion einfach auszudrücken:

In [None]:
def ReLU(x):
    return np.maximum(x, 0)

### Softmax
Die Softmax-Aktivierungsfunktion wandelt kurz gesagt die Werte ihrer Eingabe in Wahrscheinlichkeiten um. Wenn ein Vektor die Eingabe bildet so wird jeder Wert des Vektors durch die Summe aller Werte geteilt.
Die entsprechende Formel ist: $$S_{i,j} = \frac {e^{z_{i,j}}}{\sum_{l=1}^Le^{z_{i,l}}}$$

Auch das ist nicht schwer in Code auszudrücken:

In [None]:
def softmax(x):
    A = np.exp(x) / sum(np.exp(x))
    return A

Wie erwähnt bildet die Summe aller Eingaben multipliziert mit den Gewichten nun die Eingabe für die Aktivierungsfunktion, d.h $Z_1$. Ich werde von nun an die Sigmoid-Funktion verwenden. Das ist ganz einfach zu notieren: <code>A1 = Sigmoid(Z1)</code>

analog dazu: <code>A2 = Sigmoid(Z2)</code>

Ein Detail, welches man auf keinen Fall vergessen sollte, sind die Parameter, welche unsere Funktion <code>forward_prop()</code> benötigt. Zum einen sind es die beiden Gewichtsmatrizen $W_1$ bzw. $W_2$, zum anderen die Daten $X$.

In [None]:
def init_params(input_nodes, hidden_nodes, output_nodes):
    
    W1 = np.random.rand(hidden_nodes, input_nodes) - 0.5  # Erste versteckte Schicht   
    W2 = np.random.rand(output_nodes, hidden_nodes) - 0.5  # Zweite versteckte Schicht

    return W1,  W2

def Sigmoid(inputs): 
    E = math.e 
    return 1/(1+E**(-inputs))


def forward_prop(W1, W2, X):
    
    Z1 = np.dot(W1, X)
    A1 = Sigmoid(Z1)
    Z2 = np.dot(W2, A1)
    A2 = Sigmoid(Z2)
    
    return Z1, A1, Z2, A2


def backward_prop():
    return

Jetzt fehlt nur noch "backward_prop()-Funktion". Bevor wir uns jedoch mit dieser beschäftigen, sollte man nun einmal probieren ein kleines Netz zu erstellen, um Fehlerquellen frühzeitig zu bemerken, falls vorhanden. Hierzu kann man eine kleine Funktion erstellen, welche als Eingabe die Inputs $X$, die Anzahl der Eingabe-, Versteckten- und Ausgabeschicht benötigt. Nun kann man in dieser Funktion die zwei Gewichte initialisieren. Zudem muss führt man die <code>forward_prop</code> mit Z1,A1,Z2,A2 durch. 

Nun kann man die Anzahl der Neuronen bestimmen und das Netz mit zufällig gewählten Eingangswerten abfragen. Bsp:<code>X = [1.0, 0.5, -1.5, 0.5]</code>

***
<b> <summary> <font color="red"><b> Eine mögliche Lösung</b></font></summary> </b> <details>
 
<pre><code>    
input_nodes= 4
hidden_nodes= 10
output_nodes= 4    
    
X = [1.0, 0.5, -1.5, 0.5]
    
def test(X, input_nodes, hidden_nodes, output_nodes):
    W1, W2 = init_params(input_nodes, hidden_nodes, output_nodes)
    Z1, A1, Z2, A2 = forward_prop(W1,W2, X)
    print(Z2)
    return W1,  W2
    
W1, W2 = test(X, input_nodes, hidden_nodes, output_nodes)
</code></pre>    	
</details>


***

## Training

Nun kommen wir zum spannenderen Abschnitt- und zwar wie ein Neuronales Netzwerk lernt. Wie bringen wir ihm die Ziffern von 0 bis 9 bei und was tun wir wenn es eine falsche Annahme tätigt? Der nächste Abschnitt versucht diese Fragestellungen verständlich zu beantworten. 
Wichtig ist zu wissen: Das Training besteht aus zwei Teilen:
 - Der erste Durchlauf mit einem Trainingsbeispiel, der eine erste Ausgabe liefert. Das haben wir aber bereits gemacht, mit der forwardpropagation
 - Backpropagation - d.h. die berechnete Ausgabe im ersten Teil mithilfe der anpassbaren Gewichten so aktualisieren, dass sie sich der gewünschten Ausgabe annähern
 
Der erste Teil unterscheidet sich nicht von der <code>forward_prop-Funktion</code>. Die Ausgaben diser Funktion bilden somit auch die Eingaben in die <code>backward_prop</code> Funktion. Um das Netzwerk zu trainieren benötigen wir nun nicht nur eine "X" sondern auch eine "Y" mit allen Zielwerten. Wir müssen ja irgenwie überprüfen können ob unser Netzwerk richtig liegt und mit dem "Y", welche das erwünschte Ergebnis enthält, ist das möglich. 
<div class="alert alert-block alert-success">
<b><p style="font-size:20px">&#128161;</p></b> <p> Diese Methode des Lernverfahrens nennt man übrigens <mark>supervised learning</mark> , da man im Besitz der erwünschten Zielwerte ist und das neuronale Netzwerk so überewacht und trainiert.</p>
</div>

Zudem benötigen wir noch eine Lernrate als Eingabe, um unsere Gewchte später zu aktualisieren.


***
<b> <summary> <font color="red"><b>  Vollständiger Code bis jetzt</b></font></summary> </b> <details>
   
<pre><code>import numpy as np
import math

def init_params(input_nodes, hidden_nodes, output_nodes):
    W1 = np.random.rand(hidden_nodes, input_nodes) - 0.5 
    W2 = np.random.rand(output_nodes, hidden_nodes) - 0.5 

    return W1,  W2
    
def Sigmoid(inputs): 
    E = math.e 
    return 1/(1+E**(-inputs))
    
def forward_prop(W1, W2, X):
    Z1 = np.dot(W1, X)
    A1 = Sigmoid(Z1)
    Z2 = np.dot(W2, A1)
    A2 = Sigmoid(Z2)
    return Z1, A1, Z2, A2
 
def backward_prop(Z1, A1, Z2, A2, W1, W2, X, Y, alpha):
    return W1, W2

</code></pre>
</details>

***

Jetzt kommen wir zum komplexen und zugleich spannensten Teil: Die Aktualisierung der Gewichte aufgrund der entstandenen Fehler. Zuerst muss aber das Prinzip der Backpropagation erläutert werden.

## Backpropagation

 - Forwardpropagation: Daten in Vorwärtsrichtung durch das Netzwerk bewegen
 - Backpropagation : Den Ausgabefehler in Rückwärtsrichtung durch das Netzwerk bewegen und somit die Gewichte zu aktualisieren

Bis jetzt haben wir die Eingabedaten einmal durch unser Netzwerk, von der Eingabeschicht, über die Versteckteschicht, bis zur Ausgabeschicht bewegt und zum Schluss erhalten wir ein Ergebnis. Nun wollen wir uns mit diesen Ausgabewerten befassen. Da wir ja im Besitz der korrekten Werte sind, wissen wir wie gut die Vorhersage unseres Netzwerks war. Das Ziel ist es nun mithilfe der Zielwerte, unser Netzwerk zu verbessern, sodass es möglichst fehlerlos funktionieren kann. Dieses Thema ist unglaublich kompliziert und erfordert viele Kenntisse in der Mathematik. Ich kann und werde nicht alles genau erklären können, vielmehr probiere ich einen grundlegenden Überblick über das Thema zu verschaffen, sodass der Begriff "Backpropagation" verständlicher wird. 

Fangen wir aber ganz einfach an. Nehmen wir an, wir haben nur ein Neuron in der versteckten Schicht welches zur Ausgabeschicht führt. Die Ausgabeschicht besitzt ebenfalls nur ein Neuron. 

![image-6.png](attachment:image-6.png)

Sagen wir unser Ausgabewert ist 0.5. Wie erwähnt besitzt man im *supervised learing* die Zielwerte bereits. Nehmen wir an, unser Zielwert ist 1. Mit diesen Informationen kann man den Fehler des Netzwerks berechnen. Auch Error genannt. Der Error ist die Differenz zwischen dem Zielwert und der Vorhersage des Netzwerkes:
$$ Error = Zielwert - Vorhersage $$


In unserem fall ist $Error = 0.5$. Mit dieser Information können wir uns nun überlegen, wie wir das Gewicht ändern müssen, sodass der Wert des Fehler kleiner wird. Anders gesagt, wir müssen das Gewicht erhöhen und zwar in die Richtung des Fehlers.<br> Was ist jetzt aber wenn wir zwei versteckte Neuronen haben und somit zwei Gewichte, welche unsere Ausgabe bzw. den Fehler beeinflussen. 

![image-5.png](attachment:image-5.png)



Man muss den Fehler aufteilen auf die beiden Gewichte. Das wichtige ist aber, dass man ihn nicht gleichmässig aufteilt, sondern man teilt den Fehler proportional zu den grössen der Gewichte auf. Das bedeutet, bei den Gewichten $w_{1,1}=0.2$ und $w_{2,1}= 0.1$ gehen dementsprechend 2/3 des Ausgabefehlers zum ersten Gewicht und 1/3 zum Zweiten. <br>
Warum macht man das so?<br> Das Beispiel soll den Einfluss der Gewichte auf die Ausgabe bzw. den Fehler darstellen.
>[Warum spielt der Wert der Gewichte eine Rolle?](https://www.geogebra.org/graphing/fagxtb8t)

Man sieht sehr schön, dass $w_{1}= 0.5$ einen grösseren Einfluss auf die Position der Linie hat. Somit beeinflusst dieses Gewicht die Ausgabe bzw. den Fehler stärker. Aus diesem Grund würde es keinen Sinn machen, den Ausgabefehler gleichmässig auf die beiden Gewichte aufzuteilen, da $w_1$ einen grösseren Einfluss auf den Fehler hat. <br>
Die Schreibweise ist sehr verständlich und nachvollziehbar. Wie gesagt müssen wir den Fehler des neuronalen Netzwerkes aufteilen und der Anteil hängt von den grössen der Gewichte ab. Der Anteil des Fehlers um das erste Gewicht zu verfeinern lautet so:


$$ \frac {w_{1,1}}{w_{1,1}+w_{2,1}}$$ 


Das macht Sinn. So sind die Anteile immer proportional zu den Grössen der Gewichte. Analog dazu der Anteil für das zweite Gewicht:


$$ \frac {w_{2,1}}{w_{1,1}+w_{2,1}}$$

***
<b> <summary> <font color="red"><b> kurzes Beispiel</b></font></summary> </b> <details>
   
Angenommen das erste Gewicht ist  dreimal grösser als das zewite. $w_{1,1}=3, w_{2,1}= 1$. So ergibt sich für den Anteil des ersten Gewichts: 


$$\frac {w_{1,1}}{w_{1,1}+w_{2,1}} = \frac {3}{3+1}= \frac {3}{4}$$


und für den Anteil des zweiten Gewichts:



$$\frac {w_{2,1}}{w_{1,1}+w_{2,1}} = \frac {1}{3+1}= \frac {1}{4}$$	

    	
</details>

***


Das heisst wir können eine Gleichung aufstellen, welche den Fehler der versteckten Schicht beschreibt, welche direkt mit dem Ausgabeneuron verbunden ist.

$$ e_{h1}= \frac {w_{1,1}}{w_{1,1}+w_{2,1}} \times e_1$$

und gleichermassen:

$$ e_{h2}= \frac {w_{2,1}}{w_{1,1}+w_{2,1}} \times e_1$$

 - $e_{h1}$ bzw.   $e_{h2}$ stehen für die Fehler in der versteckten Schicht
 - $w_{1,1}$ bzw.$w_{2,1}$ stehen für die Verbindungsgrwichte
 - $e_1$ steht für den Ausgabefehler des Netzwerks 
 
 
Diese Idee der proportionalen Aufteilung des Fehlers kann auf beliebig viele Neuronen angewendet werden. Das heisst bei 50 Neuronen die mit einem Ausgabeneuron verbunden wären, würde der Ausgabefehler proportional auf die 50 Gewichte verteilt.<br>  

Nun wollen wir uns das Szenario anschauen, im Falle von zwei Ausgabeneuronen.
![image-4.png](attachment:image-4.png)

Das bedeutet auch, wir haben Zwei Ausgabefehler $e_1$ bzw. $e_2$. Diese müssen natürlich berücksichtigt werden in unserer Gleichung, denn nun werden die beiden Fehler $e_{h1}$ und $e_{h2}$ von beiden Ausgabefehlern beeinflusst. Die Gleichung für $e_{h1}$ verändert sich folgendermassen:

$$ e_{h1}= \frac {w_{1,1}}{w_{1,1}+w_{2,1}} \times e_1 + \frac {w_{1,2}}{w_{1,2}+w_{2,2}} \times e_2$$

und gleichermassen:

$$ e_{h2}= \frac {w_{2,1}}{w_{1,1}+w_{2,1}} \times e_1 + \frac {w_{2,2}}{w_{1,2}+w_{2,2}} \times e_2$$


Die wichtigste Frage mit der wir uns beschäftigen müssen, ist, wie berechnet man den Fehler eines Neurons an einem beliebigen Ort in einem Netzwerk? Denn sobald dieses nichtmehr direkt mit der Ausgabeschicht verbunden ist, kann die einfache Formel "Error = Zielwert - Vorhersage" nicht mehr so angewendet werden.   



Funktion wenn man die Normalisierung der Gewichte streicht:

$$ e_{h1}=\color {Blue} w_{1,1} \times e_1 + \color {Red}w_{1,2}\times e_2 $$


$$e_{h2}=\color {Blue} w_{2,1} \times e_1 +\color {Red} w_{2,2}\times e_2$$
Wenn man sich diese beiden Gleichungen anschaut dann fällt auf, man kann sie auch als Matrixmultiplikation schreiben:


$$\begin{bmatrix} \color {Blue} w_{1,1}&\color {Red}w_{1,2}\\\color {Blue} w_{2,1}&\color {Red}w_{2,2}\end{bmatrix} \cdot \begin{bmatrix}  e_1\\ e_2 \end{bmatrix}$$


Diese Multiplikation liefert uns dasselbe Ergebnis. Das heisst dieses Matrixprodukt liefert uns die Fehler der versteckten Schicht. Eine weitere Besonderheit fällt auf, sobald man die Matrix der Gewichte betrachtet. Wenn man sich die Matrix der Gewichte anschaut, welche man in die Vorwärtsrichtung benötigt sieht diese folgendermassen aus:

$$\begin{bmatrix} w_{1,1}&w_{2,1}\\ w_{1,2}&w_{2,2}\end{bmatrix}$$

Diese sieht der oben gezeigten Matrix sehr ähnlich, tatsächlich ist die Matrix, welche wir benötigen um den Fehler in der versteckten Schicht zu berechnen, die [transponierte](#3) Matrix der Gewichte.

Das bedeutet wir haben eine neue Formel für unseren Fehler:

$$ error_{versteckt} = w_{ho}^{T} \cdot error_{ausgabe}$$

***
<b> <summary> <font color="red"><b> Lernkontrolle</b></font></summary> </b> <details>
 
    
Entweder über [diesen](https://app.Lumi.education/run/Mo4PvS) Link oder den untenstehenden QR-Code:
![image-7.png](attachment:image-7.png)

</details>


***

Nun wollen wir uns mit der Frage beschäftigen, wie  man die Verknüpfungsgewichte eigentlich aktualisiert? Wir haben bereits einen wichten Teil erarbeitet, welcher uns helfen soll die Gewichte zu aktualisieren- den Fehler berechnet. Um die Gewichte zu aktualisieren benötigen wir nämlich den Fehler.

Um auf die gestellte Frage zurückzukommen, es gibt eine Technik names "gradient descent" oder Gradientverfahren auf deutsch. 

## Gradientverfahren

Dieses Verfahren ist sehr komplex und bringt viele Hürden mit sich. Ich probiere einen Überblick zu verschaffen, werde aber zudem noch andere Quellen angeben, welche das Verfahren verdeutlichen sollen.

Der folgende Textabschnitt soll dieses Verfahren verständlicher machen.
>Stellen Sie sich eine sehr komplizierte Landschaft vor mit Bergspitzen und Tälern sowie Bergen mit tückischen Unebenheiten und Spalten. Es ist finster, und Sie können nichts sehen. Sie wissen, dass Sie sich auf einer Anhöhe befinden und ganz nach unten gelangen müssen. Von der gesamten Landschaft besitzen Sie keine genaue Karte. Allerdings haben Sie eine Taschenlampe. Was tun Sie jetzt? Wahrscheinlich werden Sie im Schein der Taschenlampe den Boden in der nahen Umgebung inspizieren. Weiter entferntes Gelände ist überhaupt nicht zu sehen und gleich gar nicht die gesamte Landschaft. Sie können erkennen, welcher Teil des Bodens anscheinend nach unten führt, und kleine Schritte in dieser Richtung gehen. Auf diese Weise tasten Sie sich langsam den Berg hinunter, immer Schritt für Schritt, ohne eine vollständige Karte zu besitzen und ohne im Voraus eine Route geplant zu haben.
Die mathematische Version dieses Konzepts heißt "Gradientenverfahren" oder auch "Verfahren des steilsten Abstiegs" - es dürfte klar sein, warum. Nachdem Sie einen Schritt gegangen sind, untersuchen Sie wieder die nahe Umgebung, um festzustellen, in welcher Richtung Sie Ihrem Ziel näher kommen. Dann wagen Sie erneut einen Schritt in diese Richtung. Das setzen Sie so lange fort, bis Sie glücklich am Fuß der Berge angekommen sind. Der Gradient entspricht der Bodenneigung. Sie gehen in die Richtung, wo die Neigung am steilsten nach unten führt.
>>-Tariq Rashid

Wir verwenden also das Gradientverfahren um uns an das Minimum einer Funktion anzunähern. Im Falle unseres neuronalen Netzwerkes steht der Ausgabefehler für diese Funktion. Das bedeutet mit dem Gradientverfahren nähern wir uns Schritt für Schritt dem kleinsten Wert des Fehlers an. Beim annähern können wir unsere Schritte verkleinern, bis wir an der erwünschten Position angelangt sind. In dem wir den Fehler minimieren, verbessern wir die Ausgabe des Netzwerkes.

Wenn man sich dieses Verfahren anhand einer Funktion wei $y = x^2$ vorstellt, dann sieht es nicht allzu kompliziert aus. Dies ist üblicherweise jedoch nicht der Fall. Komplexe Funktionen hängen oftmals von vielen Parameter ab, vergleichbar mit unserer Fehlerfunktion, welche von den vielen Gewichten abhänging ist. Da wir das globale Minimum der Fehlerfunktion ansteuern, um so die Netzwerkausgabe zu verbessern, stellen sogenannte [lokale Minima](https://de.wikipedia.org/wiki/Extremwert#/media/Datei:Extrema_example_de.svg) eine Hürde für uns dar. Um das Szenario zu vermeiden, in einem lokalen Minimum zu landen, müssen wir unser Netzwerk bloss einige Male mit verschiedenen Gewichten trainieren. 

>[Visualiserirung](https://www.geogebra.org/calculator/cmez9wzm)


Die essenzielle Funktion die wir benötigen um unsere Gewichte zu aktualisieren, ist die Fehlerfunktion des neuronalen Netzwerkes. Diese haben wir ja bereits und ist ganz einfach zu notieren: $Fehler = Zielwert - Ausgabe$. Aus verschiedensten Gründe ua. um Nullwerte zu vermeiden werden wir jedoch das Quadrat der Differenz verwenden. D.h. $Fehler = (Zielwert - Ausgabe)^2$

Um uns dem globalen Minimum der Funktion zu nähern, müssen wir die Steigung der Funktion im Bezug auf die Gewichte berechnen. Die Frage ist wie der Fehler beeinflusst wird, sobald Änderungen bei den Gewichten vorgenommen werden. Dabei sind wir logischerweise auf die **Differenzialrechnung** angewiesen.
***
Als Hilfe sei hier nochmals auf die Videos von [3Blue1Brown](https://youtube.com/playlist?list=PLZHQObOWTQDMsr9K-rj53DwVRMYO3t5Yr&si=YQ4vBxmPSneyBYo4) verwiesen 
***
Der oben bereits erwähnte Fall kann man folgendermassen als Ausdruck aufschreiben:

$$\frac{\partial E}{\partial w_{xy}} $$

Dieser Ausdruck besagt: wie verändert sich der Fehler $E$, wenn man den Wert des Gewichts $w_{xy}$ ändert.

Dieser Ausdruck ist sehrwahrscheinlich nicht intuitiv verständlich, deshalb möchte ich zuerst auf ein einfacheres Szenario zurückgreifen und später wieder auf diesen Ausdruck zurückkommen.


***
<b> <summary> <font color="red"><b> Einfacheres Beispiel </b></font></summary> </b> <details>

Gehen wir von folgender Situation aus: Ansatt einer komplizierten Funktion haben wir nur die Funktion $y = mx $. Nehmen wir an $x$ sind unsere Eingaben in das Netzwerk und $y$ sind die Ausgaben. Die Zielewerte nennen wir $\hat y$. Das ergibt:
$$error = y - \hat y$$

Soweit so gut.<br>
Das Ziel ist es ja unser Modell zu trainieren, sodass es möglichst genaue Ausgaben liefert. Um ein Modell zu trainieren, optimieren wir die Gewichte, um die Genauigkeit und Zuverlässigkeit des Modells zu verbessern. Dafür brauchen wir einen Weg oder eine Methode, mitwelcher wir bestimmen können wie richtig/falsch unser Netzwerk ist.
An dieser Stelle kommt eine neue Funktion ins Spiel- die "**Cost function**". Ähnlich gibt es die "**Loss function**". Der Unterschied zwischen diesen beiden Funktionen ist lediglich, dass die Loss function eine Funktion ist, eine Vorhersage definiert ist und diesen Fehler misst. Die Cost ist allgemeiner. Sie ist eine Summe von Verlustfunktionen über Ihren Trainingssatz. Sie ist also mehr ein Durchschnittswert aller Beispielen.  
    

Deswegen möchte ich zuerst kurz auf die Loss-funktion zusprechen kommen. Da der "Loss" den Fehler misst, sollte er idealerweise 0 sein. Wer sich ein bisschen mit diesen Funktionen auskennt, weiss, dass es verschiedene Arten von "Loss"-Funktionen gibt. Wir werden die "squared loss"-Funktion verwenden. In unserem Beispiel sieht diese folgendermassen aus:

$$ Loss = \sum_{i=1}^n (y - \hat y)^2$$

Wie gesagt ist unser Ziel, den Loss so weit wie möglich zu minimieren. Im Grunde genommen heisst das nichts anderes, als den Eingabewert zu finden, der uns den tiefsten Punkt der Funktion liefert. Genau das, was wir in unserem Neuronalen Netzerk tun müssen. Der Weg, welcher uns dieses Minimum liefert ist eben das Gradientverfahren, mithilfe der Differenzialrechnungen. Ich habe probiert eine kleine Visualisierung zu erstellen:

[Wie verhält sich die Steigung im Bezug auf unsere Ausgaben](https://www.geogebra.org/calculator/wgjtcrff)

Es ist gut erkennbar, dass sich die Steigung ändert, sobald sich die Ausgaben verändern. Und zwar je näher wir uns auf das Minimum, unser Ziel, bewegen, desto kleiner wird die Steigung. Das bedeutet, anhand der Steigung können wir uns einfach dem Minimum nähern.<br>
Was wir nun berechnen wollen ist eben die Steigung der Funktion, um somit unsere Gewichte zu aktualisieren. Die Steigung einer Funktion wird bekannterweise durch die Ableitung berechnet.

Zurück zur "Loss function". Wir müssen sie ein wenig vereinfachen. Anstatt die Funktion allgemein für alle Werte von $i=1$ bis $n$ zu formulieren, konzentrieren wir uns auf jeden einzelnen Fehler Schritt für Schritt. Dann können wir den Ausdruck $\sum_{i=1}^n$ weglassen. Des weiteren erstetzen wir die Differenz "$y - \hat y$" einfach mit "$Error$". Dann sieht es schon viel einfacher aus:

$$L = (Error)^2$$

Wie gesagt ist es unser Ziel den Loss zu minimieren und zwar mithilfe unseres einzigen Parameters $m$. Wie verändert sich der Loss, wenn man m verändert. Hier kommt die Ableitung ins Spiel, welche genau das als Fraktion ausdrückt, was wir suchen:

$$\frac{\partial L}{\partial m}$$

Jetzt kommen wir in den Gebrauch der  [Chain Rule](#4). Wir können diese Verwenden, da Loss eine Funktion ist, welche abhängig vom Error ist und Error ist eine Funktion, welche abhängig von m  ist. 

***


$$Loss = (Error)^2$$

$$Error = mx -y$$
    
    
Da: $Error = y -  \hat y = mx - \hat y$  
    
Unsere Vorhersage ($y$) entsteht ja, in dem wir die Eingaben ($x$) mit dem Parameter ($m$) multiplizieren.  	


***




Die Anwendung der Regel liefert uns die Gleichung:

$$\frac{\partial L}{\partial m} = \color{Blue}{\frac{ \partial L }{\partial Error}} \cdot \color{Red}{\frac{\partial Error}{\partial m}}$$


Die  [Power Rule](#5) klärt uns den ersten Ausdruck:


$$\frac{\partial L}{\partial m} = \color{Blue}{2\times Error} \cdot \frac{\partial Error}{\partial m}$$

Um den zweiten Ausdruck zu verstehen müssen wir uns nochmals die Gleichung  Des Errors anschauen: $Error = mx -y$
Die Ableitung von Konstaten ergibt immer null, deshalb können wir $y$ ignorieren. Die Ableitung vom Ausdruck $mx$ sollte nichmehr schwer sein. die Antwort ist $x$. Eingesetzt in die Gleichung:


$$\frac{\partial L}{\partial m} = \color{Blue}{2\times Error} \cdot \color{Red}x$$	
    
    
Der konstante Faktor 2 spielt für uns keine grosse Rolle, unteranderem aus dem Grund, dass wir diesen Ausdruck später sowieso mit einer Lernrate multiplizieren werden. Wir können die 2 also auch weglassen. Wir erhalten diesen einfachen Ausdruck:  
    
<div class="alert alert-block alert-warning">

$$\frac{\partial L}{\partial m} =  (y - \hat y)\cdot x$$	


</div>
  
Wie wollen wir das Gewicht ($m$) also verbessern? Die oben gezeigte Gleichung liefert uns die Antwort. Nun fügen wir noch eine Lernrate ($\alpha $)hinzu. Diese sagt beeinflusst eigentlich nur die Grösse des Schrittes, den wir machen wollen. Was wir nun machen, um $m$ zu verbessern: wir subtrahieren von $m$ die Multiplikation der Lernrate und des erarbeiteten Ausdrucks und wir haben unsere Lösung:
    
$$ m^+= m - \alpha \times  (y - \hat y) \cdot x$$
    
Hier haben wir die einfache Formel $y=mx$ benutzt. Ich hoffe dieses Beispiel der Lossfunktion hat das Vorgehen gut aufgezeigt. Zuerst wenden wir die Kettenregel an und bekommen somit mehrere Fraktionen. Im zweiten Schritt berechnen wir die Ableitung dieser Fraktionen. 
   
In unserem Neuronalen Netzwerk haben wir grundsätzlich den selben Aufbau, nur mit mehreren Dimensionen. Diese Logik probieren wir nun auf unser Netzwerk zu übertragen. 
</details>


***

Wir probieren uns nun an dem erhaltenen Ergebnis der einfachen Funktion $y= mx$ zu orientieren, um die Gewichte unseres Neuronalen Netzwerkes zu verbessern. Um diese nochmals hervorzurufen:

$$ m^+ = m- \alpha \times Error \times Eingaben$$

Wenn wir uns nur einmal die Verknüpfungsgewichte zwischen der Versteckten- und Ausgabeschicht anschauen. Wir nennen sie $w_2$. Wir können die Formel für die Aktualisierung der Gewichte leider nicht eins zu eins übernehmen. 

$$ w_2^+ =w_2 - \alpha \times Error \times Eingaben$$

Dieser Ausdruck ist fast richtig, jedoch fehlt noch ein kleiner Teil.
Um diesen herauszufinden, rufen wir uns nochmals die Funktion unseres Netzwerks in Erinnerung:

$y= Sigmoid(w \cdot I)$ oder auch $y= \sigma(w \cdot I)$ geschrieben.$\sigma$ steht hier für die Sigmoidfunktion.

Zudem betrachten wir nochmals den Ausdruck $\frac{\partial E}{\partial w_{i,j}}$. Unser Ziel ist es herauszufinden wie der Fehler $E$ von den Gewichten beeinflusst wird. Ich möchte das aber mithilfe der **Cost function** durchführen:




$$Cost= \frac{1}{m} \sum_{i=1}^m (y_i - \hat y_i)^2$$


$m$ = Anzahl der Ausgabeneuronen<br>
$y$ = Ausgabewert des n-ten Neurons<br>
$\hat y$ = Zielwert des n-ten Neurons<br>

Was passiert hier genau? Fangen wir ganz rechts an. Die Funktion berechnet das Quadrat der Differenz des Ausgabewertes eines Neurons und des Zielwertes. Das macht sie für alle Neuronen und summiert diese Werte. Zuletzt wird diese Summe durch die Anzahl der Ausgabeneuronen geteilt, da wir einen Durchschnittswert wollen.<br>

Der Wert der Cost-function gibt uns an, wie gut unser Netzwerk insgesamt ist. Je höher der Wert, desto schlechter ist unser Netzwerk. 

Wir gehen nun rückwärts durch unser neuronales Netzwerk und aktualisieren unsere Gewichte so, dass der Wert der Cost-function so weit wie möglich verringert wird. Wir wollen also wissen wie jedes einzelne Gewicht diesen Wert beeinflusst und wie wir unsere Gewichte dementsprechend anpassen müssen. Das machen wir mithilfe der **Ableitung**.

$$\frac {\partial C}{\partial w_x} $$

Um diesen Wert zu berechnen müssen wir ihn zuerst ein wenig auseinander nehemen. Wenn man sich die Formel der Funktion anschaut, merkt man schnell, das der Wert der Cost-function ($C$) nicht direkt abhängig von $w$ ist. $C$ ist vielmehr abhängig von der Ausgabe ($out$) eines Neurons. 

$$\frac {\partial C}{\partial out}$$

Wichtig ist zu erkennen, dass unsere Ausgabe ($out$) nichts anderes ist, als der Wert der Aktivierungsfunktion, welche als Eingaben die gewichteten Summen benötigt. Diese Ausgabe ist also abhängig von der gewichteten Summe ($sum$) aller Eingaben. 

$$\frac {\partial out}{\partial sum}$$

Diese Summe wiederum ist abhängig von den Gewichten $w$.

$$\frac {\partial sum}{\partial w_x}$$

Das heisst wie können die Chain-rule verwenden, welche uns dieses Ergebnis liefert:

$$\frac {\partial C}{\partial w_x} = \frac {\partial C}{\partial out} \cdot \frac {\partial out}{\partial sum} \cdot \frac {\partial sum}{\partial w_x}$$

Ein Beispiel, sodass es hoffentlich klarer wird. Schauen wir uns folgende Abbildung an:

![image-4.png](attachment:image-4.png)
Wir wollen nun wissen, wie wir das erste Gewicht $w_1$ anpassen sollen. Das heisst wir müssen folgenden Ausdruck berechnen:$\frac {\partial C}{\partial w_1}$. Diesen Ausdruck können wir einfach anhand der oben beschriebenen Gleichung in drei Teile auseinandernehmen und Schritt für Schritt durchgehen.

$$\frac {\partial C}{\partial w_1} = \frac {\partial C}{\partial out_{h}} \cdot \frac {\partial out_{h}}{\partial sum_{h}} \cdot \frac {\partial sum_{h}}{\partial w_1}$$

<br>

<a id="7"></a> 
***
<b> <summary> <font color="red"><b> Schritt für Schritt Erklärung der 3 Fraktionen</b></font></summary> </b> <details>
   
## 1. Erste Fraktion
<br>
$$\frac {\partial C}{\partial out_{h}}$$
<br>
Dieser Ausdruck ist der komplizierteste der drei, denn wir müssen ihn nochmals mithilfe der Chain-rule auseinandernehmen. Wenn man nämlich die Abbildung anschaut, fällt auf, dass die Ausgabe der versteckten Schicht ($out_h$) und der Wert der Cost-function nicht direkt voneinander abhängen. $C$ ist aber abhängig von den Ausgaben der letzten Schicht ($out_o$). Diese von der gewichteten Summe ($sum_o$) und diese wiederum von den Ausgaben der versteckten Schicht, d.h. von $out_h$. Der folgende Ausdruck ergibt sich dadurch:

$$\frac {\partial C}{\partial out_{h}} = \color{Red}{ \frac {\partial C}{\partial out_{o}}} \cdot \color{Blue}{ \frac {\partial out_{o}}{\partial sum_{o}}} \cdot \color{Green}{ \frac {\partial sum_{o}}{\partial out_{h}}}$$

nun müssen wir bloss die Ableitungen dieser drei Fraktionen berechnen, was nicht sehr schwierig ist.

1. $\color{Red}{C = \frac {1}{m} (out_{o}-\hat y)^2}$ ergibt einfach $\frac {1}{m} \cdot 2(out_{o}-\hat y)$ die zwei können wir streichen, da wir später sowieso eine Lernrate verwenden werden und die Konstante nicht wirklich einen Einfluss auf unser Ergebnis hat.<br>Somit erhalten wir: $$\color{Red}{\frac {1}{m} \cdot (out_{o}-\hat y)}$$
<br>
2. Als nächsten müssen wir die Ableitung dieser Formel berechnen:$\color{Blue}{ out_o =\frac {1}{1 + e^{-sum_{o}}}}$. Das heisst die Ableitung der Sigmoid Funktion.<br> Diese lautet so:<br>$$\sigma'(x) = \sigma(x) \cdot (1-\sigma(x))$$<br>Mit dieser Ableitung im Kopf, können wir weitermachen. Man soll sich an dieser Stelle zurückerinnern, für was die Aktivierungsfunktion zustädig ist. Einfach gesagt liefert sie uns einfach die Ausgaben einer Schicht. In unserem Fall ist das $out_o$. Setzten wir das in die Ableitung der Sigmoid-Funktion ein, erhalten wir:

$$\color{Blue}{out_o(1-out_o)}$$

3. der letzte Ausdruck ist der einfachste. $\color{Green}{sum_o = w_2 \cdot out_{h}}$. Die Ableitung dieser Gleichung ist sehr einfach. Da wir die Abhängigkeit der Ausgabe der versteckten Schicht $out_h$ im Bezug auf $C$ wollen, werden alle anderen Parameter zu Konstanten. 
***
<b>  <font color="red"><b> kurzes Beispiel</b></font></summary> </b> <details>
   
Angenommen man hat drei Gewichte und drei Ausgaben der vorangehenden Schicht, weöche nun als Eingaben in die neue Schicht dienen. Das heisst, wir wenden das Punktprodukt an:
    
$$o_1 \times w_1 + o_2 \times w_2 + o_3 \times w_3 $$

Wir Erinnern uns: $f(x)=2x;f'(x)= 2$, die Konstante bleibt jeweils bei jedem Durchgang. In unserem Falle $w_1$ bzw. $w_2$ und $w_3$. Das ergibt eine Matrix mit einer Spalte:
    
$$\begin{bmatrix} w_1 \\ w_2 \\w_3 \end{bmatrix}$$


</details>

***
Was zurückbleibt ist also eine Gewichtsmatrix. In unserem Fall ist es $w_2$.<br>Die Ableitung lautet: $$\color{Green}{w_2}$$ 

    
    
***
<div class="alert alert-block alert-warning">
$$\frac {\partial C}{\partial out_{h}} = \frac {1}{m} \cdot (out_{o}-\hat y) \cdot out_o(1-out_o) \cdot w_2$$
</div>

***

   
    
## 2. Zweite Fraktion
<br>
$$\frac {\partial out_{h}}{\partial sum_{h}}$$
<br>

Diese Ableitung wird analog zur bereits besprochenen Fraktion im ersten Teil durchgeführt.<br>
Das ergibt:


***
<div class="alert alert-block alert-warning">
$$  out_h(1-out_h)$$
</div>

***

## 3. Dritte Fraktion
<br>
$$\frac{{\partial sum_{h}}}{{\partial w_1}}$$
<br>

Auch diese Ableitung ist kein Problem. Um es nochmals aufzuzeigen.<br>
$sum_h = I_1 \cdot w_1$. Da wir die Abhängigkeit vom Gewicht suchen wird $I_1$ zur Konstanten. 
Die Ableitung der Gleichung ergibt also:


***
<div class="alert alert-block alert-warning">
$$  I_1$$
</div>

***


</details>

***

## Gewichtsaktualisierung

Nun müssen wir die drei Einzelteile nurnoch zusammenfügen. 

$$ \frac {\partial C}{\partial w_1} = \frac {1}{m} \cdot (out_{o}-\hat y) \cdot out_o(1-out_o) \cdot w_2 \times  out_h(1-out_h) \times I_1$$

Es fehlt nur noch eine Kleinigkeit. Wir wollen unsere aktualisierten Gewichte in From einer neuen Matrix haben. Wenn wir uns die Gleichung anschauen, so ergibt die Multiplikation "$(out_o - \hat y) \cdot out_o(1- out_o) \cdot w_2$"  bloss eine Matrix mit einer Spalte, da die Matrizen elementweise miteinander multipliziert werden. Bei der zweiten Multiplikation "$out_h(1 - out_h) \cdot I_1$" gibt es dasselbe Probem. Der Grund dafür ist, dass jeweils die letzte Matrix $w_2$ bzw. $I$ eine Matrix mit bloss einer Spalte ist. Die Lösung: Wir transponieren sie und erhalten somit die gewüschte Matrix.

Wir erhalten die Formel, welche uns angibt, wie der Gesamte Fehler des Netzwerkes von dem einen Gewicht $w_1$ abhängt :

***
<div class="alert alert-block alert-warning">
$$ \frac {\partial C}{\partial w_1} = \frac {1}{m} \cdot (out_{o}-\hat y) \cdot out_o(1-out_o) \cdot w_2^T \times  out_h(1-out_h) \times I_1^T$$
</div>

***
Den schwierigen Teil, und zwar die Cost-function abhängig vom Gewicht $w_1$ zu berechnen, haben wir geschafft.
Mit dieser Formel können wir nun unser Gewicht $w_1$ aktualisieren. Die Gleichung, welche ich benutzen werde lautet:

$$W_1^+ = W_1 - lr \cdot \frac {\partial C}{\partial w_1}$$



Diesen Ausdruck in code umzusetzten ist nicht sehr schwierig. Für den Ausdruck $\frac {\partial C}{\partial w_1}$ werde ich die Formulierung <code>dW1</code>bzw.<code>dW2</code> verwenden. Wir nennen die Gewichte zwischen der Eingabeschicht und der versteckte Schicht $w1$. Die Lernrate nennen wir $alpha$. Der Code für die Gewichtsaktualisierung sieht also folgendermassen aus:

```
    W1 = W1 - alpha * dW1
    W2 = W2 - alpha * dW2

```

Wir brauchen jedoch noch die Formel für <code>dW2</code>
Den Ausdruck, welchen wir für das Gewicht $w_2$ lösen müssen, heisst folgendermassen:

$$\frac {\partial C}{\partial w_{2}}$$

Diesen können wir jedoch wieder schön auseinandernehmen:

$$\frac {\partial C}{\partial out_{o}} \cdot  \frac {\partial out_{o}}{\partial sum_{o}}\cdot  \frac {\partial sum_{o}}{\partial w_{2}}$$

Wir haben es grundsätzlich bereits im ersten Teil der [Schritt für Schritt Erklärung.](#7) gelöst . Die ersten beiden Fraktionen können wir übernehmen:

$$\frac {\partial C}{\partial out_{h}} = \frac {1}{m} \cdot (out_{o}-\hat y) \cdot out_o(1-out_o) \cdot \frac {\partial sum_{o}}{\partial w_{2}}$$

Die letzte Fraktion ist auch sehr einfach zu lösen. Wir nehmen wieder die Ableitung von:

$$w_1 \times out_{h1} + ... +w_n \times out_{hn} $$

Nur in diesem Falle werden unsere Gewichte zu Konstanten, was uns mit $out_h$ zurücklässt. Diese Matrix müssen wir ebenfalls transponieren und wenn wir alles zusammenfügen, ergibt das:

***
<div class="alert alert-block alert-warning">
$$ \frac {\partial C}{\partial w_2} = \frac {1}{m} \cdot (out_{o}-\hat y) \cdot out_o(1-out_o) \cdot out_h^T$$
</div>

***

Die Gewichtsaktualisierung des zweiten Gewichts lautet also:

$$W_2^+ = W_2 - lr \cdot \frac {\partial C}{\partial w_2}$$

Es fällt auf, die Gleichung der einfachen Funktion $y= mx$ ist sehr ähnlich zu unsrer: $m^+ = m- \alpha \times Error \times Eingaben$

In [None]:
def init_params(input_nodes, hidden_nodes, output_nodes):
    W1 = np.random.rand(hidden_nodes, input_nodes) - 0.5  # Verknüpfungsgewichte zwischen Input layer und hidden layer 
    W2 = np.random.rand(output_nodes, hidden_nodes) - 0.5  # Verknüpfungsgewichte zwischen hidden layer und output layer

    return W1,  W2

def Sigmoid(inputs): #Sigmoid Aktivierungsfunktion
    E = math.e 
    return 1/(1+E**(-inputs)) 

def forward_prop(W1, W2, X): #forward propagation
    Z1 = np.dot(W1, X)
    A1 = Sigmoid(Z1)
    Z2 = np.dot(W2, A1)
    A2 = Sigmoid(Z2)
    return Z1, A1, Z2, A2

def one_hot(Y):
    one_hot_Y = np.zeros((Y.size, Y.max() + 1))
    one_hot_Y[np.arange(Y.size), Y] = 1
    one_hot_Y = one_hot_Y.T
    return one_hot_Y

def backward_prop(Z1, A1, Z2, A2, W1, W2, X, Y, alpha): #backwardpropagation
    one_hot_Y = one_hot(Y)
    dZ2 = A2 - one_hot_Y
    dW2 = (1 / m) * np.dot(dZ2, A1.T)
    
    dZ1 = W2.T.dot(dZ2) * A1 * (1 - A1)
    dW1 = (1 / m) * np.dot(dZ1, X.T)
    
    W1 = W1 - alpha * dW1
    W2 = W2 - alpha * dW2

    return W1, W2


<code>dZ1</code> und <code>dZ2</code> habe ich hier bloss verwendet, sodass der Code nicht zu lang wird. Wie man zudem sehen kann, habe ich in diesem Code bloss einmal die Ableitung der Sigmoid-Funktion eingebaut. Die zweiten Gewichte sind garnicht davon betroffen. Das liegt daran, dass ich eine weitere Funktion verwendet habe: <code>one_hot()</code>

Die Funktion initialisiert eine mit Nullen gefüllte Matrix, wobei die Anzahl der Zeilen durch die Größe der Eingaben bestimmt wird und die Anzahl der Spalten auf dem maximalen Wert der Eingaben plus eins basiert.

Die Anzahl der Spalten in einer One-Hot-kodierten Matrix ist Y + 1 statt nur Y, weil die One-Hot-Kodierung eine zusätzliche Spalte enthält, um das Fehlen bekannter Kategorien darzustellen. Diese zusätzliche Spalte stellt sicher, dass die Kodierung alle möglichen Kategorien verarbeiten kann, auch wenn ein Datenpunkt zu keiner Kategorie gehört.

Betrachten wir das folgende Beispiel mit drei Kategorien: A, B und C. Wir könnten diese Kategorien als 0, 1 bzw. 2 darstellen. Wenn wir eine One-Hot-Codierung ohne die zusätzliche Spalte (Y) erstellen, hätten wir nur Spalten für A und B, die wie folgt aussehen würden:

Kategorie A: [1, 0]
Kategorie B: [0, 1]
Kategorie C: ?
Das Problem ist, dass wir bei einem Datenpunkt der Kategorie C keine Möglichkeit haben, diesen in der One-Hot-Kodierung darzustellen, da es keine entsprechende Spalte gibt. Durch Hinzufügen einer zusätzlichen Spalte können wir die Kategorie "Sonstige" oder "Abwesenheit" darstellen, und die Kodierung wird zu:

Kategorie A: [1, 0, 0]
Kategorie B: [0, 1, 0]
Kategorie C: [0, 0, 1]
Jetzt können wir alle Kategorien darstellen, und wenn eine Kategorie abwesend ist, wird die "andere" Spalte (die zusätzliche) auf 1 gesetzt.

Nun möchte ich erklären, was dieser Befehl bewirkt: <code>one_hot_Y[np.arange(Y.size), Y] = 1</code>

Nehmen wir folgende Eingaben an: <code>Y = np.array([0, 2, 1, 2, 0])</code>

Nun wollen wir unsere erstellte Matrix gefüllt mit Nullen aktualisieren, und zwar aufgrund unserer Eingaben. Das heisst wir wollen an der gegebenen Position aus den Eingaben, eine 1 in unserer Matrix erhalten. Die restlichen Positionen sollen bei null bleiben. 

<code>np.arange(Y.size)</code> erstellt ein Array mit ganzen Zahlen von 0 bis Y.size - 1, was den Zeilen von one_hot_Y entspricht. Das sieht wie folgt aus:

[0, 1, 2, 3, 4]

Y steht wie gesagt für unsere Eingaben mit den Kategoriewerten:

[0, 2, 1, 2, 0]

Das Ergebnis ist eine One-Hot-Codierungsmatrix, bei der jede Zeile eine andere Kategorie darstellt und jede Spalte einem bestimmten Datenpunkt entspricht, wobei eine 1 das Vorhandensein dieser Kategorie für diesen Datenpunkt anzeigt.


In unserem Beispiel heisst das, wir verwenden die Zeilenindizes und die Werte von Y, um den entsprechenden Positionen in one_hot_Y eine 1 zuzuweisen.

Hier ist die schrittweise Ausführung für die gegebene Eingabe:

- Wenn Y[0] = 0 ist, wird one_hot_Y[0, 0] = 1 gesetzt.
- Wenn Y[1] = 2 ist, wird one_hot_Y[1, 2] = 1 gesetzt.
- Wenn Y[2] = 1 ist, wird one_hot_Y[2, 1] = 1 gesetzt.
- Wenn Y[3] = 2 ist, wird one_hot_Y[3, 2] = 1 gesetzt.
- Wenn Y[4] = 0 ist, wird one_hot_Y[4, 0] = 1 gesetzt.<br>
Die endgültige one_hot_Y-Matrix sieht wie folgt aus:

In [None]:
array([[1., 0., 0.],
       [0., 0., 1.],
       [0., 1., 0.],
       [0., 0., 1.],
       [1., 0., 0.]])

Nun haben wir den gesamten Code erstellt, sodass unser Netzwerk bereit ist trainiert zu werden. Dafür erstellen wir wie bereits weiteroben eine "test funktion" mit allen notwendigen Parametern. Das Ergebnis könnte so aussehen:

In [None]:
def test(X, Y, alpha, iterations, input_nodes, hidden_nodes, output_nodes):
    W1, W2 = init_params(input_nodes, hidden_nodes, output_nodes)
    for i in range(iterations):
        Z1, A1, Z2, A2 = forward_prop(W1,W2, X)
        W1, W2 = backward_prop(Z1, A1, Z2, A2, W1, W2, X, Y, alpha)
   
    return W1,  W2 

Wir beginnen mit dem Initialisieren unserer Gewichte. Danach erstellen wir einen Loop, für unsere Funktion <code>forward_prop</code> bzw. <code>backward_prop</code>. Die Länge können wir anhand des Parameters **Iterations** bestimmen. 

Zudem könnten wir noch unsere Genauigkeit des Netzes visualisieren. .........

In [None]:
def predictions(A2):
    return np.argmax(A2, 0)

def accuracy(predictions, Y):
    print(np.sum(predictions == Y) / Y.size)
    

def test(X, Y, alpha, iterations, input_nodes, hidden_nodes, output_nodes):
    W1, W2 = init_params(input_nodes, hidden_nodes, output_nodes)
    for i in range(iterations):
        Z1, A1, Z2, A2 = forward_prop(W1,W2, X)
        W1, W2 = backward_prop(Z1, A1, Z2, A2, W1, W2, X, Y, alpha)
       
        if i % 50 == 0:
            print("Iteration: ", i)
            predictions = predictions(A2)
            print(accuracy(predictions, Y))
    return W1,  W2 

Das ist alles!!! Nun können wir unserem Netzwerk Ziffern von 0 bis 9 geben, welche es beginnt zu klassifizieren. Der letzte Schritt betrifft nur noch die Daten.

## Daten

Bevor wir mit dem Importieren der Daten beginnen, möchte den Datensatz zuerst erklären. Wie gesagt erhält dieser handgeschriebene Ziffern von 0 bis 9. Zudem bestehen alle Bilder aus 28 mal 28 Pixel. Das bedeutet insgesamt aus 784. 

Folgende Abbildung zeigt eine Auswahl von fünf verschiedenen Sechsen dieses Datensatzes.<table><tr><td> ![image-2.png](attachment:image-2.png)</td><td> ![image-3.png](attachment:image-3.png)</td><td> ![image-7.png](attachment:image-7.png)</td><td> ![image-5.png](attachment:image-5.png)</td><td> ![image-6.png](attachment:image-6.png)</td></tr></table>

Hier noch ein Beispiel von fünf Zweien.<table><tr><td> ![image-8.png](attachment:image-8.png)</td><td> ![image-9.png](attachment:image-9.png)</td><td> ![image-10.png](attachment:image-10.png)</td><td> ![image-11.png](attachment:image-11.png)</td><td> ![image-12.png](attachment:image-12.png)</td></tr></table>

Wie man sieht, enthält der Datensatz Ziffern in den unterschiedlichsten Arten. Alle unterscheiden sich voneinander und sogar für uns Menschen, ist nicht jede Ziffer direkt identifizierbar. Da wir aber für alle Ziffern den dazugehörigen Wert besitzen, können wir unser Netzwerk damit trainieren und hoffen, dass es später eimal in der Lage sein wird, unbekannte Daten zu erkennen. 
Man verwenndet grundsätzlich 3 verschiedene Arten von Daten:
1. Trainings Daten: diese verwendet man un sein neuronales Netzwerk zu trainieren, sodass es möglichst akkurate Ausgaben erzielt.
2. Test Daten: Die Test Daten bestehen aus einem kleinen Teil der Trainings Daten, welchen man zu beginn trennt. Dieser kleinere Datensatz wird am Schluss benutzt um zu testen, wie gut das neuronale Netzwerk wirklich performt. Es hat diesen Datensatz ja noch nie zuvor gesehen, im Gegensatz zu den Trainings Daten.
3. Die unbekannten Datensätze: Die Daten auf welche man das Netzwerk letzen Endes anwenden möchte

Die folgende Zelle zeigt einen möglichen Weg unsere Daten zu importieren:

In [1]:
data = pd.read_csv(r"train.csv")

data = np.array(data)
m, n = data.shape
np.random.shuffle(data)

data_test = np.transpose(data[0:1000])
Y_test = data_test[0]
X_test = data_test[1:n]
X_test = X_test / 255.

data_train = np.transpose(data[1000:m])
Y_train = data_train[0]
X_train = data_train[1:n]
X_train = X_train / 255.

NameError: name 'pd' is not defined

Diesen Command führen wir aus um unsere Daten zu Importieren. Ich verwende hier den MNIST-Datensatz mit handgeschriebenen Ziffern. Der Datensatz ist in diesem Fall unter dem Namen "train.csv" gespeichert. Das "r" steht für "read" und hat zur Folge, dass unsere Daten eingelesen werden. Dem geben wir den Namen <code>data</code>. Als nächstes transformieren wir unsere Daten in einen NumpyArray und nennen die Dimensionen <code>m</code> bzw <code>n</code>. Danach werden die Daten durchmischt und unterteilt. Die ersten 1000 Elemente sind unsere Testdaten und alle ab dem 1000sten Element sind unsere Trainingsdaten. Das mache ich so, weil die Trainingsdaten beschriftet sind. So bin ich in der Lage am Schluss mithilfe dieser Beschriftung die Genauigkeit zu berechnen, mit welcher unser Netwzerk die Ziffern im Testdatensatz erkennt.  

Nun haben wir alles geschafft und mit einem einfachen Code können wir unser Netzwerk trainieren. Beispielsweise:

<code>W1, W2, = test(X_train, Y_train, 0.3, 1000, 784, 100, 10)</code>

Der gesamte Code bis hierhin sollte folgendermassen aussehen. Zu oberst habe ich noch die notwendigen Bibliotheken importiert, welche wir benötigen.

In [None]:
import numpy as np
import pandas as pd
import math
from matplotlib import pyplot as plt

data = pd.read_csv(r"train.csv")

data = np.array(data)
m, n = data.shape
np.random.shuffle(data)

data_dev = np.transpose(data[0:1000])
Y_dev = data_dev[0]
X_dev = data_dev[1:n]
X_dev = X_dev / 255.

data_train = np.transpose(data[1000:m])
Y_train = data_train[0]
X_train = data_train[1:n]
X_train = X_train / 255.
_,m_train = X_train.shape

X_train[:, 0].shape

def init_params(input_nodes, hidden_nodes, output_nodes):
    W1 = np.random.rand(hidden_nodes, input_nodes) - 0.5  
    
    W2 = np.random.rand(output_nodes, hidden_nodes) - 0.5 

    return W1,  W2


def Sigmoid(inputs): 
    E = math.e 
    return 1/(1+E**(-inputs))

def ReLU(x):
    return np.maximum(x, 0)

def softmax(x):
    A = np.exp(x) / sum(np.exp(x))
    return A
    
def forward_prop(W1, W2, X):
    Z1 = np.dot(W1, X)
    A1 = Sigmoid(Z1)
    Z2 = np.dot(W2, A1)
    A2 = Sigmoid(Z2)
    return Z1, A1, Z2, A2


def Sig_deriv(x):
    return x*(1-x)


def ReLU_deriv(x):
    return x > 0

def one_hot(Y):
    one_hot_Y = np.zeros((Y.size, Y.max() + 1))
    one_hot_Y[np.arange(Y.size), Y] = 1
    one_hot_Y = one_hot_Y.T
    return one_hot_Y

def backward_prop(Z1, A1, Z2, A2, W1, W2, X, Y, alpha):
    one_hot_Y = one_hot(Y)
    dZ2 = A2 - one_hot_Y
    dW2 = (1 / m) * np.dot(dZ2, A1.T)
    
    dZ1 = W2.T.dot(dZ2) * A1 * (1 - A1)
    dW1 = (1 / m) * np.dot(dZ1, X.T)
    
    W1 = W1 - alpha * dW1
    W2 = W2 - alpha * dW2

    return W1, W2


def predictions(A2):
    return np.argmax(A2, 0)

def accuracy(predictions, Y):
    print(np.sum(predictions == Y) / Y.size)
    


def test(X, Y, alpha, iterations, input_nodes, hidden_nodes, output_nodes):
    W1, W2 = init_params(input_nodes, hidden_nodes, output_nodes)
    for i in range(iterations):
        Z1, A1, Z2, A2 = forward_prop(W1,W2, X)
        W1, W2 = backward_prop(Z1, A1, Z2, A2, W1, W2, X, Y, alpha)
       
        if i % 50 == 0:
            print("Iteration: ", i)
            predictions = predictions(A2)
            print(accuracy(predictions, Y))
    return W1,  W2 

Dieser Code trainiert unser Netzwerk mit den Testdaten und gibt uns alle 50 Iterationen die Genauigkeit des Netzwerkes an. Somit können wir den Verlauf und die Steigerung sehr schön mitverfolgen.
Was in einem nächsten Schritt noch möglich ist, ist das Visualisieren der Ziffern im Testdatensatz. Unser Netzwerk soll ja Ziffern erkennen, wir wollen diese also sehen. 

Dafür benötigen wir zuerst eine Funktion, welche die Vorhersagen (*Predictions*) berechnet. Das können wir mit der bereits erstellten Funktion <code>forward_prop</code> tun. 

***
<b> <summary> <font color="red"><b> Lernkontrolle</b></font></summary> </b> <details>
 
Erstelle eine solche Funktion und nenne sie <code>make_predictions</code>. Die Funktion sollte die Vorhersagen, also <code>predictions(A2)</code> unter dem Namen *prediction* speichern und diese schlussendlich zurückgeben.

</details>


***

Meine Umsetzung sieht folgendermassen aus:

In [1]:
def make_predictions(X, W1,  W2, ):
    Z1, A1, Z2, A2 = forward_prop(W1,  W2, X)
    prediction = predictions(A2)
    return prediction

Nun haben wir die Vorhersagen. Wir benötigen jedoch noch eine letzte Funktion, welche diese visualisiert. Die Funktion wirkt auf den ersten Blick möglicherweise sehr kompliziert. Sie ist jedoch bei genauerem Betrachten gar nicht so schwierig zu verstehen. Ich nenne die Funktion <code>test_predictions</code>

In [None]:
def test_prediction(index, W1,  W2):
    current_image = X_dev[:, index, None]
    prediction = make_predictions(X_dev[:, index, None], W1, W2)
    label = Y_dev[index]
    print("Prediction: ", prediction)
    print("Label: ", label)
    
    current_image = current_image.reshape((28, 28)) * 255
    plt.gray()
    plt.imshow(current_image, interpolation='nearest')
    plt.show()

Die Ausdrücke X_dev bzw Y_dev stehen für unsere Testdaten. Wir haben diese zu Beginn so genannt. Wobei Y_dev die korrespondierenden Beschriftungen zu den Bildern beinhaltet. Ganz grundsätzlich holen wir mit dieser Funktion die Vorhersagen, welche die Funktion <code>make_predictions</code> uns liefert und rufen sie mit dem Befehl <code>print("Prediction: ", prediction)</code> ab. Gleichermassen passiert das mit den *Labels*. Mit den letzten Zeilen visualisieren wir das Bild.

Ein kurzer *Loop* lässt uns soviele Vorhersagen visualisieren, wie wir wollen.

In [None]:
for i in range(10):
    print(test_prediction(i, W1, W2))

Zum Schluss können wir noch die Genauigkeit unseres Netzwerkes auf dem Testdatensatz berechnen. Diese Aufgabe liegt jedoch nicht mehr an mir;)