# Teil b - Perzeptron

## Perzeptron-Lernalgorithmus

<img src="../Figures/vorwaerts_und_rueckwaerts.png" alt="drawing" style="width:300px;"/>

### Vorwärtspfad und Rückwärtspfad
Im vorherigen Teil wurde die Auswertung durch das Netz im Detail besprochen. <br>
Der Vorwärtspfad besteht aus den folgenden Schritten:
1. den Input $x_i$ bereitstellen.
2. die gewichtete Summe $\vec{w}^T \cdot \vec{x} +w_0$ berechnen.
3. die Stufenfunktion anwenden.
4. Output auswerten.

Der Rückwärtspfad, welcher das Lernen des neuronalen Netzes betrifft, besteht aus den folgenden Schritten:
1. Fehler ermitteln.
2. Darauf basierend die Gewichte ändern.
3. Input bei Berechnung des Fehlers miteinbeziehen.

### Lernen in neuronalen Netzen
Nachdem die Eingaben $\vec{x}$ durch die Fragestellung vorgegeben sind, können in neuronalen Netzen nur die Gewichtungen angepasst werden. Dh. es geht um die Anpassung von Gewichten, wenn man von Lernen sprechen. Die Gewichte werden folgendermaßen angepasst.

1. Dem Netz wird ein Lernbeispiel präsentiert.
2. Berechnungen werden durchgeführt.
3. Der Errechnete Wert $\hat{y}$ wird mit dem gewünschten Wert y vergleichen.
4. Basierend auf dem Unterschied des Vergleichs erfolgt die Anpassung der Gewichte.

Das Netz sollte die Beispiele immer besser lernen und das gewünschte Ergebnis erzeugen. Jeder Durchgang (Epoche) sollte eine Verringerung des Fehlers bewirken. Das Verhalten nennt sich Konvergenz, die Regel Lernalgorithmus.

Der Lernalgorithmus kann verbal folgendermaßen beschrieben werden:
1. Initialisierung der Gewichtungen und des Schwellenwertes. Für die Initialisierung gibt es verschiedene Strategien, bspw. Werte im Intervall (-1,1).
2. Wenn die errechnete Ausgabe eines Neurons und der gewünschte Wert übereinstimmen (z.b. 1 und 1), werden die Gewichte nicht verändert.
3. Stimmen die Werte nicht überein: <br>
3.a. Ist die Ausgabe 0 und der Wunschwert 1, so werden alle Gewichte erhöht. Dies geschieht, da der ermittelte Wert zu gering ist und eine Veränderung stattfinden muss. Das berechnete Ergebnis fällt somit höher aus. <br>
3.b. Ist die Ausgabe 1 und der Wunschwert 0, so werden alle Gewichte verringert.


### Perzeptron Lernalgorithmus

Das mit einem Schwellenwert versehene Perzeptron-Modell beruht auf folgender Idee: entweder es feuert oder es feuert nicht. Die Perzeptron-Regel kann durch folgende Schritte zusammengefasst werden:
1. Die Gewichtungen werden mit kleinen zufälligen Werten initialisiert.
2. Mit jedem Trainingsobjekt $x^{(i)}$ werden folgende Schritte durchgeführt: <br>
2.a Berechnung des Ausgabewertes $\hat{y}$. <br>
2.b Aktualisierung der Gewichtungen.

Die Ausgabe entspricht die von der zuvor definierten Sprungfunktion vorhergesagte Klassenbezeichnung. Die gleichzeitige Aktualisierung der Gewichtungen $w_j$ im Gewichtungsvektor <b>w</b> wird folgendermaßen formal beschrieben:

$s^{(i)} = \vec{w}^T \cdot \vec{x}^{(i)} + w_0$ <br>
$\hat{y}^{(i)} = step(s^{(i)})$ <br>
$E= y^{(i)} - \hat{y}^{(i)}$ <br>
$\Delta w_j = \eta \cdot E $ <br>
$w_j = w_j + \Delta w_j \cdot x_j^{(i)} $<br>


$\vec{w}$ der Gewichtsvektor <br>
$\vec{x}^{(i)}$ der <i>i-</i>te Input-Vektor <br>
$w_0$ der Bias-Vektor <br>
$s^{(i)}$ = gewichtete Summe <br>
$E$ Error, Fehler <br>
$y^{(i)}$ die gewünschte/ tatsächliche Klassenbezeichnung des <i>i</i>-ten Trainingsobjekts.<br>
$\hat{y}^{(i)}$ die vorhergesagte Klassenbezeichnung.<br>
$\Delta{w_j}$ bezeichnet die stattfindende Änderung des Gewichts $w_j$ und  wird zur Aktualisierung der Gewichtungen verwendet. <br>
$\eta$ Eta Lernrate (eine Konstante zwischen 0.0 und 1.0) <br>
$w_j$ der <i>j</i>-te Gewichtsvektor  <br>
$x_j^{(i)}$ der <i>j-</i>te Wert  <br>


Es ist wichtig anzumerken, dass alle Gewichtungen im Gewichtungsvektor gleichzeitig aktualisiert werden, sodass $y^{(i)}$ nicht erneut berechnet werden muss, bevor alle Gewichtungen $\Delta w_j$ aktualisiert wurde. <br>

### Beispiele
#### Allgemeines Beispiel

In den beiden Szenarien, in denen das Perzeptron die Klassenbezeichnung korrekt vorhersagt, bleiben die Gewichtungen unverändert: <br>

* $w_j = \eta(-1--1) \cdot x_j^{(i)} = 0.$
* $w_j = \eta(1-1) \cdot x_j^{(i)} = 0.$

Im Falle einer falschen Vorhersage werden die Gewichtungen in Richtung der positiven bzw. negativen Zielklasse verschoben: 

* $w_j = \eta(1--1) \cdot x_j^{(i)} = \eta(2) \cdot x_j^{(i)}.$
* $w_j = \eta(-1-1) \cdot x_j^{(i)} = \eta(-2) \cdot x_j^{(i)}.$




#### Konkretes Beispiel 1

Ein weiteres Beispiel um ein bessers Gespür für den multiplikativen Faktor $x_j^{(i)}$ zu bekommen: <br>

Es gilt: $y^{(i)}$= +1; $\hat{y}^{(i)}$ = -1; $\eta$= 1.

Angenommen $x_j^{(i)}$= 0.5 und dieses Objekt wird mit -1 klassifiziert. Somit ergibt sich folgende Berechnung zur Aktualisierung des Gewichts: <br>

$\Delta w_j = (1--1) \cdot 0.5 = (2) \cdot 0.5 = 1.$

In diesem Fall wird die zugehörige Gewichtung um 1 erhöht. Somit wird die Nettoeingabe $x_j^{(i)} \cdot w_j$ positiver, wenn das nächste Mal auf das Objekt getroffen wird. Und somit die Wahrscheinlichkeit erhöht, dass der Schwellenwert der Sprungfunktion überschritten und das Objekt als +1 klassifiziert wird. Die Aktualisierung der Gewichtungen erfolgt proportional zum Wert $x_j^{(i)}$.

#### Konkretes Beispiel 2
Weiteres Beispiel: 
$x_j^{(i)}$=2 wird irrtürmlich als -1 klassifiziert. Update-Berechnung wiefolgt:
$\Delta w_j = (1--1) \cdot 2 = (2) \cdot 2 = 4.$ <br>
Die Aktualisierung des Objekts erfolgt sogar noch stärker.


### Zusammenfassung
Folgende Abbildung illustriert die Funktionsweise des Perzeptrons:
* nimmt Eingabe $\vec{x}$ entgegen.
* kombiniert diese mit den Gewichtungen $\vec{w}$.
* berechnet die Nettoeingabefunktion.
* diese wird an Aktivierungsfunktion (hier: Heaviside-Funktion) übergeben.
* erzeugt binäre Ausgabe: 0 oder 1.
* dies entspricht der Vorhersage für die Klassenbezeichnung.
* Während der Lernphase wird die Ausgabe genutzt, um
* a) den Fehler festzustellen
* b) die Gewichtungen zu aktualisieren

<img src="../Figures/Perzeptron.png" alt="drawing" style="width:600px;"/>


Es gilt zu beachten, dass die Konvergenz des Perzeptrons nur dann gewährleistet ist, wenn beide Klassen linear trennbar sind. Sollte dies nicht der Fall sein, kann eine maximale Anzahl an Durchläufen der Trainingsdaten (Epochen) oder ein Schwellenwert für die Anzahl der Fehlklassifizierungen definiert werden.

## Implementierung

Die Implementierung erfolgt innerhalb der Klasse <b>Perceptron</b>. Im folgenden werden die einzelnen Methoden und deren Funktionsweise kurz vorgestellt. <br>

### Konstruktor
Das Perceptron-Objekt wird mit der Lernrate <b>eta</b> und der Anzahl der Epochen (Durchläufe der Trainingsdaten) <b>epochs</b> initialisiert. Wählen Sie geeignete Werte für die Epoche (Anzahl der Durchläufe) und die Lernrate Eta.

### gewichtete_summe()-Methode:
In dieser Methode soll die beschriebene gewichtete Summe $\vec{w}^T \cdot \vec{x} + w_0$ berechnet werden. Zur Berechnung des Skalarprodukts zweier Arrays ergeben sich zwei Möglichkeiten. <br>

* Python: via <b>sum(...)</b>. Berechnung wird mit den einzelnen Elementen durchgeführt.<br>
* Numpy: via <b>np.dot(a,b)</b>. Hat den Vorteil, dass arithmetische Operationen vektorisiert sind. Vektorisierung bedeutet, dass arithmetische Operationen automatisch auf alle Elemente eines Arrays angewendet werden. Durch die Formulierung der arithmetischen Operationen als eine Reihe von Array-Rechenanweisungen kann die Fähigkeit moderner CPUs besser genutzt werden. Darüber hinaus verwendet Numpy hochoptimierte Bibliotheken für lineare Algebra wie bspw. BLAS und LAPACK, welche in C oder Fortran implementiert sind.<br>


### heaviside()-Methode:
Implementierung der Heaviside-Funktion. Parameter ist die gewichtete Summe . Es soll die vorhergesagte Klassenbezeichnungen für den Eingangsvektor $\vec{x}$  ermittelt werden. 

### fit()-Methode:

<b>Gewichtungen</b>: <br>

Die Gewichtungen in <b>w</b> werden mit einem Vektor $\mathbb R^{m+1}$ initialisiert, m gibt die Anzahl der Dimensionen (Merkmale) in der Datensammlung an. Dem ersten Element dieses Vektors (dies entspricht der Bias-Einheit) wird der Wert 1 zugeordnet. Gehen Sie von zwei Merkmalen aus (weiter unten wird die Datenstruktur beschrieben).<br>

Die Gewichtungen werden nicht mit null initialisiert, weil sich die Lernrate Eta $\eta$ nur dann auf das Ergebnis der Klassifizierung auswirkt, wenn die Gewichtungen von Null verschiedene Werte besitzt. <br>

Überlegen Sie sich geeignete Initialisierungswerte für die Gewichtungen. Bspw. können die Werte der Gewichtungen einer Normalverteilung entnommen werden. Als Standardabweichung kann hierbei 0.01 dienen. <br>

Hinweis: die Normalverteilung kann via <b>np.random.normal</b> oder <b>np.random.RandomState</b> und <b>randomstate.rgen.normal</b> erzeugt werden.

<b>Funktionsweise</b>: <br>

In dieser Methode soll das Training des neuronalen Netzes umgesetzt werden. <br>

Pro Epoche werden alle Trainingsobjekte durchlaufen und die Gewichtungen gemäß der Perzeptron-Lernregel aktualisiert. Innerhalb der <b>fit()</b>-Methode werden die zuvor definierten Methoden aufgerufen, um die Klassenbezeichnung für die Aktualisierung der Gewichtungen vorherzusagen und die Gewichtungen zu aktualisieren. <br>

Sammeln Sie in einer Liste <b>errors</b> die in jeder Epoche auftretenden Fehlklassifizierungen. Dadurch kann später analysiert werden, wie gut das Perzeptron während des Trainings funktioniert hat. Geben Sie diese Liste als Rückgabewert der Methode zurück.<br>

In [1]:
class Perceptron(object):
    
    def __init__(self, eta=None, epochs=None):
        # TODO : implement
        pass
        
    def gewichtete_summe(self, x):
        # TODO: implement
        return None 
        
    def heaviside(self, summe):
        # TODO: implement
        return None
    
    def fit(self, X, y):
        # TODO: implement
        return None

## Datensatz

### Möglichkeit 1): Iris-Datensatz manuell reduzieren.

Für die folgende Implementierung wird der Iris-Datensatz verwendet. Dieser ist unter /Data abgelegt. Lesen Sie den Datensatz ein.

Zur Implementierung werden je zwei Klassen und zwei Merkmale des Iris-Datensatz als zweidimensionalen Merkmalsraum verwendet. Dies geschieht aus praktischen Gründen wie bspw. die Nachvollziehbarkeit der Werte und die Visualisierung der Merkmale.
Selektieren Sie aus dem Datensatz die beiden Klassen *Setosa* und *Versicolor* und  hiervon die beiden Merkmale "Länge des Kelchblatts" und "Länge des Blütenblatts". 

Wählen Sie für die Bestimmung der Eingabematrix <b>X</b> die Merkmale Kelch- und Bluetenblattlaenge (Sepal Length und Petal Length) aus. Wählen für die Bestimmung des Zielvektors $\vec{y}$ die Werte von setosa und versicolor. Setzen Sie hierfür eine Zielvariable auf 1, die andere auf 0.

Visualisieren Sie den entstandenen Merkmalsraum, so dass die verschiedenen Zielvariablen unterscheidbar sind.

### Möglichkeit 2): Iris-Datensatz aus PCA-Dimensionsreduktion.
Alternativ können Sie die erzeugten Komponenten aus dem PCA-Aufgabenblatt verwenden. Somit führen Sie die Prozesskette durch.


In [2]:
df = None # TODO: implement


# Auswahl von setosa und versicolor
y = None # TODO: implement 

# Auswahl von Kelch- und Bluetenblattlaenge
X = None # TODO: implement

# Diagramm ausgeben
# TODO: implement

Zum Beispiel: <br>
<img src="../Figures/Sepal-Length-Petal-Length.png" alt="drawing" style="width:400px;"/>

## Training und Visualisierung des Errors

Führen Sie das Training anhand der Perzeptron-Klasse und der <b>fit</b>-Methode mit unterschiedlichen Parametern für die Epoche (bspw. 10, 30, 100, etc.) und die Lernrate (bspw. 1, 0.01, 0.00000001, etc.) durch. Visualisieren Sie die von der <b>fit</b>-Methode zurückgegebenen Errors in einem Plot (d.h. x-Achse=Epochen; y-Achse=Fehler). Dieser Plot ist von großer Bedeutung. Hierbei können Sie die Leistungsfähigkeit Ihrer Implementierung prüfen.

Vergleichen Sie die Ergebnisse mit den unterschiedlich gewählten Parametern.

In [3]:
# TODO: Implement

Beispiel Error-Plot: <br>

<img src="../Figures/example-error-plot.png" alt="drawing" style="width:400px;"/>