## NN.MLP.01: Perzeptron-Netze

In [7]:
import numpy as np

def sign(x):
    # Ausgabe genau in {-1, +1}
    return np.where(x >= 0, 1, -1)

#Perzeptron-Netz (3 Perzeptrons)
# h1 = sign(x2 - 3)  -> +1, wenn x2 >= 3
# h2 = sign(x1 - 2)  -> +1, wenn x1 >= 2
# y  = sign(h1 + h2 + 1)  -> OR-Verknüpfung

def predict(X):
    """
    X: array shape (n, 2) mit Spalten [x1, x2]
    return: array shape (n,) in {-1, +1}
    """
    x1 = X[:, 0]
    x2 = X[:, 1]

    h1 = sign(x2 - 3)          # w=(0,1), b=-3
    h2 = sign(x1 - 2)          # w=(1,0), b=-2
    y  = sign(h1 + h2 + 1)     # w=(1,1), b=+1

    return y

# Test
test_points = np.array([
    [0, 0],     # im dunklen Block -> -1
    [0, 4],     # oben (x2>=3) -> +1
    [3, 0],     # rechts (x1>=2) -> +1
    [3, 4],     # beides -> +1
])
print(predict(test_points))



[-1  1  1  1]


### NN.MLP.02: Vorwärtslauf im MLP

Gegeben ist ein MLP mit 25 Zellen in der Eingabeschicht,  
64 Zellen in der ersten versteckten Schicht,  
32 Zellen in der zweiten versteckten Schicht und  
4 Zellen in der Ausgabeschicht.  
Bias-Zellen werden nicht mitgezählt. In allen Zellen wird die ReLU-Aktivierungsfunktion verwendet.



### Dimensionen der Gewichtsmatrizen und Bias-Vektoren

Es gilt die Vorwärtslauf-Gleichung
\[
z^{[l]} = W^{[l]} a^{[l-1]} + b^{[l]}.
\]

Damit ergeben sich:

- $W^{[1]} \in \mathbb{R}^{64 \times 25}$,  
  $b^{[1]} \in \mathbb{R}^{64 \times 1}$

- $W^{[2]} \in \mathbb{R}^{32 \times 64}$,  
  $b^{[2]} \in \mathbb{R}^{32 \times 1}$

- $W^{[3]} \in \mathbb{R}^{4 \times 32}$,  
  $b^{[3]} \in \mathbb{R}^{4 \times 1}$



### Vorwärtslauf in Matrix-Notation

Für einen Eingabevektor $x \in \mathbb{R}^{25 \times 1}$ mit $a^{[0]} = x$ gilt:

- $z^{[1]} = W^{[1]} a^{[0]} + b^{[1]}$,  
  $a^{[1]} = \mathrm{ReLU}(z^{[1]})$

- $z^{[2]} = W^{[2]} a^{[1]} + b^{[2]}$,  
  $a^{[2]} = \mathrm{ReLU}(z^{[2]})$

- $z^{[3]} = W^{[3]} a^{[2]} + b^{[3]}$,  
  $a^{[3]} = \mathrm{ReLU}(z^{[3]})$

Die Ausgabe des Netzes ist der Vektor $a^{[3]} \in \mathbb{R}^{4 \times 1}$.



### Interpretation der Ausgabe

Die Ausgabeschicht besitzt vier Neuronen mit ReLU-Aktivierung, sodass die
Ausgabe aus vier nichtnegativen Werten besteht.  
Das Netzwerk eignet sich daher beispielsweise für ein Multi-Output-
Regressionsproblem mit vier Zielgrößen oder zur Berechnung von vier
Aktivierungs- bzw. Score-Werten in einem Klassifikationsproblem.

## NN.MLP.03: Tensorflow Playground

### Gaussian

![Mein Bild](regressionsmodell.png)



**Entscheidungsgrenze:**  
Die Entscheidungsgrenze ist linear und entspricht einer Geraden. Der Gaussian-Datensatz ist annähernd linear separierbar, sodass die Klassen gut getrennt werden können.

**Trainings- und Testkosten / Überanpassung:**  
Trainings- und Testkosten sinken schnell und bleiben auf einem ähnlichen Niveau. Es tritt keine Überanpassung auf.

**Berechnungsgeschwindigkeit:**  
Die Entscheidungsgrenze wird sehr schnell berechnet, da das Modell nur wenige Parameter besitzt.

**Korrekte Klassifikation aller Datenpunkte:**  
Nahezu alle Datenpunkte können korrekt klassifiziert werden. Einzelne Fehlklassifikationen können durch Überlappungen der gaußförmigen Verteilungen entstehen.

### Fazit: XOR-Datensatz mit logistischer Regression

**Entscheidungsgrenze:**  
Die Entscheidungsgrenze ist linear und kann die XOR-Struktur nicht korrekt abbilden. Eine einzelne Gerade reicht nicht aus, um die diagonal angeordneten Klassen zu trennen.

**Trainings- und Testkosten / Überanpassung:**  
Trainings- und Testkosten bleiben relativ hoch und liegen nahe beieinander. Es tritt keine Überanpassung auf, da das Modell zu einfach ist und die Datenstruktur nicht erfassen kann (Underfitting).

**Berechnungsgeschwindigkeit:**  
Die Entscheidungsgrenze wird sehr schnell berechnet, da keine versteckten Schichten vorhanden sind und nur wenige Parameter gelernt werden.

**Korrekte Klassifikation aller Datenpunkte:**  
Nein, nicht alle Datenpunkte können korrekt klassifiziert werden. Der XOR-Datensatz ist nicht linear separierbar, weshalb logistische Regression grundsätzlich ungeeignet ist.

### Fazit: Circle-Datensatz mit logistischer Regression

**Entscheidungsgrenze:**  
Die Entscheidungsgrenze ist linear und kann die ringförmige Struktur des Circle-Datensatzes nicht abbilden. Eine einzelne Gerade ist nicht ausreichend, um innere und äußere Klasse zu trennen.

**Trainings- und Testkosten / Überanpassung:**  
Trainings- und Testkosten bleiben relativ hoch und liegen nahe beieinander. Es tritt keine Überanpassung auf, da das Modell zu wenig Kapazität besitzt und die Datenstruktur nicht erfassen kann (Underfitting).

**Berechnungsgeschwindigkeit:**  
Die Entscheidungsgrenze wird sehr schnell berechnet, da das Modell keine versteckten Schichten enthält und nur wenige Parameter lernt.

**Korrekte Klassifikation aller Datenpunkte:**  
Nein, nicht alle Datenpunkte können korrekt klassifiziert werden. Der Circle-Datensatz ist nicht linear separierbar, weshalb logistische Regression für dieses Problem ungeeignet ist.

### Fazit: Spiral-Datensatz mit logistischer Regression

**Entscheidungsgrenze:**  
Die Entscheidungsgrenze ist linear und kann die spiralförmige Struktur des Datensatzes nicht abbilden. Eine einzelne Gerade ist nicht ausreichend, um die ineinander verschlungenen Klassen zu trennen.

**Trainings- und Testkosten / Überanpassung:**  
Trainings- und Testkosten bleiben relativ hoch und unterscheiden sich nur geringfügig. Es tritt keine Überanpassung auf, da das Modell zu einfach ist und die komplexe Datenstruktur nicht erfassen kann (Underfitting).

**Berechnungsgeschwindigkeit:**  
Die Entscheidungsgrenze wird sehr schnell berechnet, da keine versteckten Schichten vorhanden sind und nur wenige Parameter gelernt werden.

**Korrekte Klassifikation aller Datenpunkte:**  
Nein, nicht alle Datenpunkte können korrekt klassifiziert werden. Der Spiral-Datensatz ist stark nichtlinear separierbar, weshalb logistische Regression für dieses Problem ungeeignet ist.

### Fazit: 1 Hidden Layer mit 2 Neuronen 

**Entscheidungsgrenze:**  
Mit einem versteckten Layer und zwei Neuronen ist die Entscheidungsgrenze bereits nichtlinear.  
Beim Circle-Datensatz kann die ringförmige Struktur teilweise erfasst werden, jedoch bleibt die Trennung ungenau.  
Beim Spiral-Datensatz reicht die Modellkapazität nicht aus, um die komplexe spiralförmige Struktur korrekt abzubilden.  
ReLU erzeugt eher kantige, stückweise lineare Grenzen, während tanh und Sigmoid glattere Entscheidungsgrenzen liefern.

**Trainings- und Testkosten / Überanpassung:**  
Die Trainings- und Testkosten sinken im Vergleich zur logistischen Regression deutlich, bleiben jedoch bei Spiral relativ hoch.  
Trainings- und Testkosten liegen nahe beieinander, sodass keine Überanpassung auftritt.  
Insgesamt zeigt sich weiterhin Underfitting, insbesondere beim Spiral-Datensatz.

**Berechnungsgeschwindigkeit:**  
Das Training erfolgt schnell. ReLU konvergiert meist am schnellsten, während Sigmoid und tanh etwas langsamer lernen.

**Korrekte Klassifikation aller Datenpunkte:**  
Nein, nicht alle Datenpunkte können korrekt klassifiziert werden.  
Die geringe Anzahl an Neuronen reicht nicht aus, um die komplexen nichtlinearen Strukturen vollständig zu modellieren, insbesondere beim Spiral-Datensatz.

### Fazit: 1 Hidden Layer mit 3 Neuronen 

**Entscheidungsgrenze:**  
Mit drei Neuronen im versteckten Layer wird die Entscheidungsgrenze deutlich flexibler.  
Beim Circle-Datensatz kann die ringförmige Struktur nun größtenteils korrekt erfasst werden.  
Beim Spiral-Datensatz wird die spiralförmige Struktur besser angenähert, jedoch noch nicht vollständig nachgezeichnet.  
ReLU erzeugt eher kantige, polygonartige Grenzen, während tanh und Sigmoid glattere und besser an die Daten angepasste Entscheidungsgrenzen liefern.

**Trainings- und Testkosten / Überanpassung:**  
Die Trainings- und Testkosten sinken im Vergleich zum Modell mit zwei Neuronen deutlich.  
Beim Circle-Datensatz sind beide Kosten sehr niedrig und ähnlich, was auf eine gute Generalisierung hinweist.  
Beim Spiral-Datensatz bleiben die Kosten höher, liegen jedoch weiterhin nahe beieinander, sodass keine Überanpassung auftritt.

**Berechnungsgeschwindigkeit:**  
Das Training verläuft weiterhin schnell. ReLU konvergiert am schnellsten, während tanh und insbesondere Sigmoid etwas mehr Epochen benötigen.

**Korrekte Klassifikation aller Datenpunkte:**  
Beim Circle-Datensatz können nahezu alle Datenpunkte korrekt klassifiziert werden.  
Beim Spiral-Datensatz ist eine vollständige korrekte Klassifikation noch nicht möglich, da die Modellkapazität für die komplexe Struktur weiterhin begrenzt ist.

### Fazit: 1 Hidden Layer mit 5 Neuronen 

**Entscheidungsgrenze:**  
Mit fünf Neuronen im versteckten Layer ist die Entscheidungsgrenze deutlich komplexer und flexibel.  
Beim Circle-Datensatz kann die ringförmige Struktur sehr gut und nahezu vollständig abgebildet werden.  
Beim Spiral-Datensatz wird die spiralförmige Struktur nun deutlich besser nachgezeichnet, auch wenn kleinere Ungenauigkeiten verbleiben.  
ReLU führt zu stückweise linearen, teilweise kantigen Grenzen, während tanh und Sigmoid glattere und natürlicher wirkende Entscheidungsgrenzen erzeugen.

**Trainings- und Testkosten / Überanpassung:**  
Die Trainings- und Testkosten sind beim Circle-Datensatz sehr niedrig und liegen eng beieinander, was auf eine gute Generalisierung hindeutet.  
Beim Spiral-Datensatz sinken die Trainingskosten deutlich, während die Testkosten höher bleiben, jedoch ohne starkes Auseinanderdriften.  
Eine ausgeprägte Überanpassung ist nicht zu beobachten.

**Berechnungsgeschwindigkeit:**  
Das Training ist weiterhin effizient. ReLU konvergiert am schnellsten, während tanh und Sigmoid etwas mehr Epochen benötigen, jedoch stabil lernen.

**Korrekte Klassifikation aller Datenpunkte:**  
Beim Circle-Datensatz können nahezu alle Datenpunkte korrekt klassifiziert werden.  
Beim Spiral-Datensatz ist eine vollständige korrekte Klassifikation weitgehend möglich, jedoch aufgrund der komplexen Struktur nicht in jedem Fall perfekt.

### Fazit: 2 Hidden Layers mit jeweils 5 Neuronen

**Entscheidungsgrenze:**  
Durch zwei versteckte Schichten mit jeweils fünf Neuronen wird die Entscheidungsgrenze sehr flexibel und komplex.  
Beim Circle-Datensatz kann die ringförmige Struktur nahezu perfekt und stabil abgebildet werden.  
Beim Spiral-Datensatz wird die spiralförmige Struktur deutlich besser modelliert als mit nur einer versteckten Schicht, die Entscheidungsgrenze folgt den Windungen größtenteils korrekt.  
ReLU erzeugt weiterhin eher stückweise lineare Grenzen, während tanh und Sigmoid sehr glatte und fein angepasste Entscheidungsgrenzen liefern.

**Trainings- und Testkosten / Überanpassung:**  
Die Trainings- und Testkosten sind beim Circle-Datensatz extrem niedrig und nahezu identisch, was auf eine sehr gute Generalisierung hinweist.  
Beim Spiral-Datensatz sinken die Trainingskosten stark, während die Testkosten etwas höher bleiben, jedoch ohne starkes Auseinanderdriften.  
Eine deutliche Überanpassung ist nicht zu beobachten, trotz der erhöhten Modellkomplexität.

**Berechnungsgeschwindigkeit:**  
Das Training benötigt etwas mehr Epochen als bei flacheren Netzen, bleibt jedoch insgesamt effizient.  
ReLU konvergiert am schnellsten, während tanh und Sigmoid langsamer, aber stabil trainieren.

**Korrekte Klassifikation aller Datenpunkte:**  
Beim Circle-Datensatz können nahezu alle Datenpunkte korrekt klassifiziert werden.  
Beim Spiral-Datensatz ist eine weitgehend korrekte Klassifikation möglich, jedoch bleiben vereinzelt Fehlklassifikationen aufgrund der sehr komplexen Struktur bestehen.

### Fazit: 3 Hidden Layers mit jeweils 7 Neuronen 

**Entscheidungsgrenze:**  
Durch drei versteckte Schichten mit jeweils sieben Neuronen wird eine sehr komplexe und fein strukturierte Entscheidungsgrenze gelernt.  
Beim Circle-Datensatz wird die ringförmige Struktur nahezu perfekt und sehr stabil abgebildet.  
Beim Spiral-Datensatz kann die spiralförmige Struktur weitgehend korrekt nachvollzogen werden, die Entscheidungsgrenze folgt den Windungen sehr eng.  
ReLU erzeugt eher segmentierte, stückweise lineare Grenzen, während tanh besonders glatte und gut angepasste Entscheidungsgrenzen liefert. Sigmoid zeigt tendenziell weniger stabile Ergebnisse.

**Trainings- und Testkosten / Überanpassung:**  
Beim Circle-Datensatz sind Trainings- und Testkosten extrem niedrig und nahezu identisch, was auf eine sehr gute Generalisierung hinweist.  
Beim Spiral-Datensatz sinken die Trainingskosten stark, während die Testkosten höher bleiben. In einigen Konfigurationen deutet der Abstand zwischen Trainings- und Testkosten auf beginnende Überanpassung hin, jedoch ohne extremes Overfitting.

**Berechnungsgeschwindigkeit:**  
Das Training benötigt aufgrund der hohen Modellkomplexität mehr Epochen als bei flacheren Netzen.  
ReLU konvergiert am schnellsten, tanh etwas langsamer, während Sigmoid am langsamsten trainiert.

**Korrekte Klassifikation aller Datenpunkte:**  
Beim Circle-Datensatz können nahezu alle Datenpunkte korrekt klassifiziert werden.  
Beim Spiral-Datensatz ist eine weitgehend korrekte Klassifikation möglich, jedoch bleiben vereinzelt Fehlklassifikationen bestehen, insbesondere bei Rand- und Übergangsbereichen.

### Fazit:4 Hidden Layers mit 7 Neuronen 

**Entscheidungsgrenze:**  
Das Netzwerk mit vier versteckten Schichten und jeweils sieben Neuronen ist in der Lage, eine sehr komplexe und feingranulare Entscheidungsgrenze zu lernen.  
Die nichtlinearen Strukturen des Datensatzes (z. B. Kreis- bzw. Spiralform) werden nahezu vollständig korrekt erfasst.

**Trainings- und Testkosten:**  
Die Trainingskosten sinken sehr schnell auf nahezu 0, was auf eine hohe Modellkapazität hinweist.  
Die Testkosten sind abhängig von der Aktivierungsfunktion:
- Mit ReLU und Tanh bleiben Trainings- und Test-Loss sehr niedrig.
- Mit Sigmoid sind Trainings- und Test-Loss deutlich höher und das Lernen instabiler.

**Überanpassung:**  
Aufgrund der hohen Modellkomplexität besteht grundsätzlich die Gefahr der Überanpassung.  
In den gezeigten Experimenten ist diese jedoch nur gering ausgeprägt, da Trainings- und Test-Loss meist ähnlich niedrig sind.  
Bei ungünstiger Aktivierungsfunktion (Sigmoid) zeigt sich jedoch eine schlechtere Generalisierung.

**Berechnung der Entscheidungsgrenze:**  
Die Entscheidungsgrenze benötigt mehr Epochen zur Konvergenz als bei flacheren Netzen, wird danach jedoch sehr stabil und präzise.  
Der Rechenaufwand ist höher, aber gerechtfertigt durch die deutlich bessere Modellleistung.

**Klassifikationsfähigkeit:**  
Mit dieser Architektur können nahezu alle Datenpunkte korrekt klassifiziert werden.  
Dies ist möglich, da das tiefe Netzwerk hochkomplexe nichtlineare Zusammenhänge modellieren kann.

**Zusammenfassung:**  
Ein MLP mit vier Hidden Layers und sieben Neuronen pro Schicht eignet sich sehr gut für stark nichtlineare Datensätze.  
Die besten Ergebnisse werden mit ReLU oder Tanh erzielt, während Sigmoid für tiefe Netze weniger geeignet ist.

### Einfluss der Aktivierungsfunktion 
die Wahl der Aktivierungsfunktion hat sowohl Einfluss auf die Form der Entscheidungsgrenze als auch auf die Geschwindigkeit der Berechnung.  
Nichtlineare Aktivierungsfunktionen wie ReLU und tanh ermöglichen komplexe, stark gekrümmte Entscheidungsgrenzen und führen in der Regel zu einer schnelleren und stabileren Konvergenz.  
Die Sigmoid-Funktion lernt deutlich langsamer, neigt bei tiefen Netzen zu Sättigungseffekten und erzeugt oft ungenauere Entscheidungsgrenzen.

## Fazit Noise Level 15

Durch das Erhöhen des Noise Levels auf 15 wird die Klassifikationsaufgabe deutlich schwieriger, da sich die Klassen stärker überlappen. In allen getesteten Konfigurationen steigt der Test-Loss im Vergleich zu den rauschfreien Daten, und die Entscheidungsgrenzen werden sichtbar unruhiger und weniger klar.

Modelle mit wenigen versteckten Schichten bzw. Neuronen sind unter hohem Noise nicht mehr in der Lage, die komplexe Struktur der Daten zuverlässig zu erfassen und zeigen Underfitting. Netzwerke mit mehr Schichten und höherer Kapazität können die Struktur zwar besser approximieren, neigen jedoch dazu, sich stärker an das Rauschen anzupassen, was zu instabilen Lernkurven und teilweise Overfitting führt.

Die Wahl der Aktivierungsfunktion beeinflusst vor allem die Stabilität des Lernprozesses:
- ReLU lernt schneller, reagiert jedoch empfindlicher auf stark verrauschte Daten.
- Tanh zeigt meist glattere Entscheidungsgrenzen und ein stabileres Lernverhalten.
- Sigmoid konvergiert langsamer und liefert bei hohem Noise insgesamt die schwächsten Ergebnisse.

Insgesamt zeigt sich, dass bei stark verrauschten Daten nicht nur die Modellkomplexität, sondern auch die Wahl einer geeigneten Aktivierungsfunktion entscheidend für die Generalisierungsfähigkeit des Modells ist. Eine höhere Netzkapazität allein führt nicht zwangsläufig zu besseren Ergebnissen.