# Lernen im mehrschichtigen Netz
## Entwurf des Netzes
Das folgende Netz soll programmiert werden. Es besitzt zwei Eingabeneuronen plus ein Bias-Neuron in der Eingabeschicht, zwei Neuronen und ein Bias-Neuron in der verdeckten Schicht und ein Neuron für die Ausgabe. Die Bezeichnungen für die Gewichte sind so, wie sie im folgenden benutzt werden, die Indizes geben an "woher" "wohin".
![Netzaufbau](bilder/NeuronNetz321.png "Titel")
Mit diesem Netz soll die XOR-Funktion berechnet und gelernt werden.
Für die folgenden Beispielrechnungen werden die folgenden Vereinfachungen gemacht:
* alle Gewichte werden mit festen Werten initialisiert

$$W^{IH} = \begin{pmatrix} 0 & 0,2 & 0,1 \\ 0 & -0,2 & 0,1 \\ 0 & 0,1 & 0,1\end{pmatrix}  $$

$$ W^{HO} = \begin{pmatrix}  0,2  \\ 0,1   \\ 0,1   \end{pmatrix} $$

* der Lernfaktor beträgt 1


## Berechnung der Netzeingabe
Als Eingabe soll der Vektor (1, 0, 1) dienen, die erste 1 ist vom Bias-Neuron, die beiden anderen repräsentieren x<sub>1</sub> und x<sub>2</sub>.
Für den Knoten 1 der versteckten Schicht berechnet sich die Eingabe wie folgt:
<span class="math">$$HI_1 =  x_0 \cdot w_{01} + x_1 \cdot w_{11} + x_2 \cdot w_{21} = 0,3 $$</span> 
Das lässt sich sehr elegant als Produkt der Gewichtsmatrix mit dem Eingabevektor beschreiben und implementieren und ergibt HI, die Eingabe in die versteckte Schicht:
<span class="math">$$ IN\cdot W^{IH} = HI  $$</span>

<math>$$\begin{pmatrix}  1  & 0 & 1  \end{pmatrix} \cdot \begin{pmatrix} 0 & 0,2 & 0,1 \\ 0 & -0,2 & 0,1 \\ 0 & 0,1 & 0,1\end{pmatrix}  
      =  \begin{pmatrix}0 & 0,3 & 0,2 \end{pmatrix} $$</math>  
    
Dabei kann die erste Komponente des Ergebnisvektors als Eingabe in den Bias-Knoten der verdeckten Schicht interpretiert werden und wird ignoriert. In der Implementierung haben die Matrizen aus Gründen der Einheitlichkeit stets diese Dimensionen und auch dabei werden einzelne Ergebnisse ignoriert.



## Berechnung der Aktivierung und der Ausgabe
Auf die Eingaben der verdeckten Schicht wird nun jeweils die Stufenfunktion angewendet und man erhält die Aktivierung der versteckten Schicht. Für die Ausgabe der versteckten Schicht wird der erste Wert durch 1 als Ausgabe des Bias-Neutrons ersetzt.

$$\sigma(HI) = \sigma\begin{pmatrix}  0  & 0,3  & 0,2  \end{pmatrix} =  \begin{pmatrix}  0,5 & 0,5744 &  0,5498 \end{pmatrix} $$
$$ HO = \begin{pmatrix} 1 & 0,5744 &  0,5498 \end{pmatrix}$$
Mit der Ausgabe der versteckten Schicht berechnet man die Eingabe in das Ausgabeneuron FI (final in).

$$ HO \cdot W^{HO}= FI  $$

$$\begin{pmatrix}  1 & 0,5744 &  0,5498 \end{pmatrix} \cdot 
     \begin{pmatrix}  0,2  \\ 0,1   \\ 0,1   \end{pmatrix} =  \begin{pmatrix}0,3124\end{pmatrix} $$ 

Auch auf diese Eingabe wird wieder die Sigmoid-Funktion angewendet, man erhält FO (final out):

$$ FO = \sigma(FI) =\sigma\begin{pmatrix}0,3124 \end{pmatrix} = \begin{pmatrix}0,5775\end{pmatrix}  $$

Damit hat die Eingabe einmal das Netz durchlaufen und verursacht einen Fehler, der dann zur Korrektur der Gewichte benutzt wird.
$$ E = \frac {1}{2} (t- FO)^2$$

## Backpropagation
### Gewichtskorrektur aus der Outputschicht heraus
Wir nehmen an, dass unser Netz in der Ausgabeschicht einen Fehler E gemacht hat, der sich aus der Differenz des gewünschten Wertes t und der berechneten Ausgabe FO ergibt. 

$$ E = \frac {1}{2} (t- FO)^2$$

Zur Erinnerung: so setzt sich FO zusammen:

$$FO = \sigma(FI)= \sigma(HO \cdot W^{HO}) $$

Um den Einfluss der einzelnen Gewichte auf den Fehler zu bestimmen und diese entsprechend zu korrigieren, wird der Fehler nach dem jeweiligen Gewicht abgeleitet. Damit erhält man den Gradienten des Fehlers, das ist ein Vektor, der die Richtung der größten Steigung der Fehlerfunktion angibt. Die Korrektur muss dann also entgegengerichtet zu diesem Vektor erfolgen. 
Allgemein gilt:
$$\Delta w^{HO}= -\eta \frac {\delta E}{\delta w^{HO}}$$

Für eine Komponente dieses Vektors soll diese Ableitung berechnet werden:
$$\frac {\delta E}{\delta w^{HO}_{ij}}= \frac {\delta(\frac {1}{2} (t- FO)^2)}{\delta w^{HO}_{ij}} $$

mit der Kettenregel ergibt sich

$$\frac {\delta E}{\delta w^{HO}_{ij}}=-(t-FO) \cdot  \frac {\delta FO}{\delta w^{HO}_{ij}} $$

mit $$FO = \sigma(FI)$$ und 

$$ \sigma '(FI) = \sigma(FI)\cdot (1-\sigma(FI))= FO \cdot (1-(FO)) = der$$

für die Sigmoid-Funktion bekommt man

$$\frac {\delta E}{\delta w^{HO}_{ij}}=-(t-FO) \cdot  \frac {\delta (\sigma(FI))}{\delta w^{HO}_{ij}} $$

$$\frac {\delta E}{\delta w^{HO}_{ij}}=-(t-FO) \cdot \sigma(FI)\cdot (1- \sigma(FI))\cdot \frac {\delta (FI)}{\delta w^{HO}_{ij}} $$

oder 

$$\frac {\delta E}{\delta w^{HO}_{ij}}=-(t-FO) \cdot FO\cdot (1- FO)\cdot \frac {\delta (FI)}{\delta w^{HO}_{ij}} $$

Die Eingabe in die Outputschicht FI (hier mit Index 1) schließlich hängt direkt von den Gewichten ab, in unserem Beispiel gilt
$$FI =HO_0 \cdot w^{HO}_{01}  + HO_1 \cdot w^{HO}_{11}+HO_2 \cdot w^{HO}_{21}$$

wobei HO<sub>0</sub> stets 1 ist (BIAS).

In die Ableitung geht damit nur der Summand ein, in dem das Gewicht, nach dem abgeleitet wird, steht. 

$$\frac {\delta E}{\delta w^{HO}_{01}}=-(t-FO) \cdot FO\cdot (1- FO)\cdot \frac {\delta (HO_0 \cdot w^{HO}_{01}  + HO_1 \cdot w^{HO}_{11}+HO_2 \cdot w^{HO}_{21})}{\delta w_{01}} $$

$$\frac {\delta E}{\delta w^{HO}_{01}}=-(t-FO) \cdot FO\cdot (1- FO)\cdot HO_0 $$

Für die Gewichtskorrektur wird noch mit (-1) und dem Lernfaktor multipliziert. 

$$\Delta w^{HO}_{01}= \eta \cdot (t-FO) \cdot FO\cdot (1- FO)\cdot HO_0 \cdot $$
Analog gilt für die anderen Gewichte:
$$\Delta w^{HO}_{11}= \eta \cdot (t-FO) \cdot FO\cdot (1- FO)\cdot HO_1 \cdot $$

$$\Delta w^{HO}_{21}= \eta \cdot (t-FO) \cdot FO\cdot (1- FO)\cdot HO_2 \cdot $$

so dass es sich zu einer Matrizenmultiplikation zusammenfassen lässt:
$$\Delta w^{HO} = \eta \cdot HO^{T}\cdot(t-FO) \cdot FO\cdot (1- FO)$$
Für unsere Beispieleingabe ergibt sich dann
$$\Delta w^{HO}= 1 \cdot \begin{pmatrix}  1 & 0,5744 &  0,5498 \end{pmatrix}^T \cdot(1-0,5775) \cdot 0,5775\cdot (1- 0,5775) =\begin{pmatrix}  0,1031 \\ 0,0592 \\  0,0567 \end{pmatrix}  $$
und damit als neue Gewichte
$$ w^{HO}_{neu}=w^{HO}+\Delta w^{HO}$$


$$ w^{HO}_{neu}=\begin{pmatrix}  0,2 \\ 0,1 \\  0,1 \end{pmatrix} +\begin{pmatrix}  0,1031 \\ 0,0592 \\  0,0567 \end{pmatrix}=\begin{pmatrix}  0,3031 \\ 0,1592 \\  0,1567 \end{pmatrix} $$

#### Zusammenfassung
$$\Delta w^{HO} = \eta \cdot HO^{T}\cdot(t-FO) \cdot FO\cdot (1- FO)$$
Zur besseren Übersicht fasst man die beiden letzten Faktoren zu einem Korrekturwert Final Delta zusammen:
$$FDelta= (t-FO) \cdot FO\cdot (1- FO)$$

Man kann die Korrektur der Gewichte also interpretieren als Produkt aus Lernrate, Ausgabe der Schicht, Ableitung der Aktivierungsfunktion und Fehler. Das läßt sich auf die anderen Schichten übertragen.


### Gewichtskorrektur aus der Hidden-Schicht heraus  

Analog wie oben geht man vor um die Korrektur von w<sup>IH</sup> zu berechnen. Allerdings ist die Berechnung des Fehlers etwas komplizierter.
In der Ausgabeschicht war es die Differenz aus Ausgabe und Zielwert:
$$FErr = t-FO$$

hier wird der Koorekturwert Final Delta mit dem jeweiligen Gewicht gewichtet:

$$HErr= w^{HO}\cdot FDelta$$
$$HErr= \begin{pmatrix}  0,2 & 0,1 &  0,1 \end{pmatrix} \cdot 0,1031=\begin{pmatrix}  0,0206 & 0,0103 &  0,0103 \end{pmatrix} $$

Dieser Fehler wird mit der Ableitung der Aktivierung multipliziert und das ergibt dann HDelta:
$$HDelta= HErr \cdot HO \cdot (1-HO) $$

Diese Vektoren werden elementweise multipliziert:
$$HDelta=\begin{pmatrix}  0,0206 & 0,0103 &  0,0103 \end{pmatrix} \cdot 
\begin{pmatrix}  0 & 0,2445 &  0,2475 \end{pmatrix}=
\begin{pmatrix}  0 & 0,0025 &  0,0025 \end{pmatrix}$$

Damit können nun die Korrekturen für die Gewichte berechnet werden:

$$\Delta w^{IH} = \eta \cdot IN^{T}\cdot HDelta$$

$$\Delta w^{IH} = 1 \cdot \begin{pmatrix}  1 & 0 &  1 \end{pmatrix}^{T}\cdot 
\begin{pmatrix}  0 & 0,0025 &  0,0025 \end{pmatrix}=
\begin{pmatrix}0 & 0,0025 & 0,0025\\ 0 & 0 & 0 \\0 &0,0025 &0,0025\end{pmatrix}$$

Damit ergeben sich dann als neue Gewichte:

$$ w^{IH}= \begin{pmatrix}0 & 0,2025 & 0,1025\\ 0 & -0,2 & 0,1 \\0 &0,1025 &0,1025\end{pmatrix}$$


Rechenbeispiel als Excel-Tabelle:
hier gelten:
$$der = FO\cdot (1- FO) $$und für die Output-Schicht:

$$delta = (t-FO)\cdot der$$
sowie 
$$\Delta w^{HO}_{01}= \eta \cdot delta \cdot HO_0$$
![Berechnung](bilder/ergebnisseXOR101_neu.png "Rechnung")