# Übungsblatt: Overfitting & MLP

## NN.MLP.01:

In [6]:
import numpy as np

def sign(x):
    return 1 if x >= 0 else -1

def perceptron_net(x1, x2):
    h1 = sign(x2 - 3)
    h2 = sign(x1 - 2)

    y = sign(h1 + h2 + 0.5)
    return y

test_points = [
    (0, 4),   # +1 (oben)
    (3, 0),   # +1 (rechts)
    (0, 0),   # -1 (außerhalb)
    (3, 4)    # +1 (beides)
]

for x1, x2 in test_points:
    print(f"x1={x1}, x2={x2} -> {perceptron_net(x1, x2)}")



x1=0, x2=4 -> 1
x1=3, x2=0 -> 1
x1=0, x2=0 -> -1
x1=3, x2=4 -> 1


# NN.MLP.02:

## Dimensionen der Gewichtsmatrizen und Bias-Vektoren

Gewichte:

- $W^{[1]} \in \mathbb{R}^{64 \times 25}$
- $W^{[2]} \in \mathbb{R}^{32 \times 64}$
- $W^{[3]} \in \mathbb{R}^{4 \times 32}$

Bias:

- $b^{[1]} \in \mathbb{R}^{64}$
- $b^{[2]} \in \mathbb{R}^{32}$
- $b^{[3]} \in \mathbb{R}^{4}$

## Vorwärtslauf in Matrix-Notation

Sei $x \in \mathbb{R}^{25}$ der Eingabevektor. Dann gilt:

$$
\begin{aligned}
a^{[0]} &= x \\
z^{[1]} &= W^{[1]} a^{[0]} + b^{[1]}, \quad a^{[1]} = \mathrm{ReLU}(z^{[1]}) \\
z^{[2]} &= W^{[2]} a^{[1]} + b^{[2]}, \quad a^{[2]} = \mathrm{ReLU}(z^{[2]}) \\
z^{[3]} &= W^{[3]} a^{[2]} + b^{[3]}, \quad a^{[3]} = \mathrm{ReLU}(z^{[3]})
\end{aligned}
$$


# NN.MLP.03

## 01:

### 1. Datensatz: Kreis (Circle)
* **Entscheidungsgrenze:** Eine gerade Linie, die durch die konzentrischen Kreise schneidet. Sie kann die innere Punktwolke nicht umschließen.
* **Kosten & Anpassung:** Test-Loss ist sehr hoch (0.528). Es liegt klares Underfitting vor.
* **Geschwindigkeit:** Schnell (110 Epochen), da das Modell simpel ist, aber es lernt keine Lösung.
* **Korrekte Klassifizierung:** Nein. Ein Kreis ist nicht linear separierbar. Ohne nicht-lineare Features oder Hidden Layers ist eine Lösung unmöglich.

### 2. Datensatz: Exklusives Oder (XOR)
* **Entscheidungsgrenze:** Eine gerade Linie, die versucht, diagonal gegenüberliegende Cluster zu trennen, was geometrisch unmöglich ist.
* **Kosten & Anpassung:** Test-Loss ~0.5 (Raten). Starkes Underfitting.
* **Geschwindigkeit:** Sehr schnell (53 Epochen), das Modell "gibt auf".
* **Korrekte Klassifizierung:** Nein. XOR ist das klassische Beispiel für nicht linear separierbare Daten.

### 3. Datensatz: Gaussian (Zwei Cluster)
* **Entscheidungsgrenze:** Eine gerade Linie trennt die beiden Punktwolken perfekt.
* **Kosten & Anpassung:** Test-Loss ist 0.000. Perfektes Modell ("Good Fit"), kein Overfitting.
* **Geschwindigkeit:** 315 Epochen (länger, um den Fehler auf absolut Null zu drücken).
* **Korrekte Klassifizierung:** Ja. Dieser Datensatz ist linear separierbar; eine gerade Linie reicht völlig aus.

### 4. Datensatz: Spirale (Spiral)
* **Entscheidungsgrenze:** Eine gerade Linie schneidet willkürlich durch die Spiralarme.
* **Kosten & Anpassung:** Hoher Test-Loss (0.481). Starkes Underfitting.
* **Geschwindigkeit:** 89 Epochen.
* **Korrekte Klassifizierung:** Nein. Spiralen sind hochgradig nicht-linear. Das Modell ist viel zu einfach für diese Komplexität.

# 02:
# Vergleichsanalyse: 1 Hidden Layer (2 Neuronen)

### 1. Wie verhält sich die Entscheidungsgrenze?
* **Strukturelles Limit:** Mit nur 2 Neuronen kann das Netzwerk mathematisch nur zwei lineare Trennlinien kombinieren.
* **Datensatz "Kreis":**
    * Eine geschlossene Form (Kreis) ist unmöglich, da man dafür mindestens 3 Geraden (für ein Dreieck) bräuchte, um eine Fläche einzuschließen.
    * **ReLU:** Erzeugt eine eckige, nach oben offene "V"-Form.
    * **Tanh / Sigmoid:** Erzeugen einen glatten, offenen "Kanal" oder Streifen.
* **Datensatz "Spirale":**
    * Die Entscheidungsgrenze scheitert komplett und zeigt meist nur eine leichte Kurve oder zwei fast parallele Linien. Die komplexe Struktur der Spirale kann nicht erfasst werden.

### 2. Trainings- und Testkosten & Überanpassung
* **Ergebnis:** In allen Fällen liegt massives Underfitting vor. Das Modell ist zu simpel ("High Bias").
* **Werte (Test Loss):**
    * *Kreis:* ~0.24 bis 0.29 (Sigmoid schnitt hier am "besten" ab, löst das Problem aber nicht).
    * *Spirale:* ~0.47 bis 0.52 (Das ist fast so schlecht wie bloßes Raten bei 0.5).
* **Überanpassung:** Tritt nicht auf, da das Modell nicht einmal die Trainingsdaten lernen kann.

### 3. Geschwindigkeit der Berechnung
* **Konvergenz:** Sehr schnell (oft unter 150 Epochen stabil).
* **Grund:** Das Modell stößt extrem schnell an seine kapazitäre Grenze. Es findet die "bestmögliche schlechte Lösung" und lernt dann nicht mehr weiter.

### 4. Korrektheit der Klassifizierung
* **Nein.**
    * Beim Kreis werden Randbereiche falsch klassifiziert, da die Form nicht geschlossen werden kann.
    * Bei der Spirale werden fast alle Datenpunkte falsch getrennt, da 2 Neuronen nicht die nötigen Zick-Zack-Bewegungen der Spiralarme abbilden können.

### 5. Analyse der Hidden Layers (Versteckte Schichten)
* **Funktionsweise:** Die zwei Neuronen in der versteckten Schicht lernen jeweils eine einzelne Trennlinie (bzw. bei Sigmoid/Tanh einen weichen Übergang).
* **Vergleich Output:** Die letzte Schicht (Output) addiert lediglich diese zwei simplen Komponenten.
    * *Unterschied:* Man sieht deutlich, dass ReLU harte Kanten liefert, während Sigmoid/Tanh weichere Übergänge schaffen. Das Grundproblem der fehlenden Komplexität (zu wenig Neuronen) können aber alle Aktivierungsfunktionen nicht kompensieren.

# Vergleichsanalyse: 1 Hidden Layer (3 Neuronen)

### 1. Wie verhält sich die Entscheidungsgrenze?
* **Struktureller Durchbruch:** Mit 3 Neuronen stehen dem Netzwerk 3 Linien zur Verfügung. Geometrisch reicht das aus, um eine geschlossene Form (ein Dreieck) zu bilden.
* **Datensatz "Kreis":**
    * **Erfolg:** Das Netzwerk schafft es endlich, die inneren blauen Punkte vollständig zu umschließen.
    * **Form:** Bei ReLU sieht man ein scharfkantiges Dreieck. Bei Tanh und Sigmoid ist es ein abgerundetes, weiches Dreieck ("Blob"), das die Daten sehr gut trennt.
* **Datensatz "Spirale":**
    * **Misserfolg:** Die 3 Linien reichen bei weitem nicht aus, um den komplexen Windungen der Spirale zu folgen. Die Grenze bleibt zu einfach.

### 2. Trainings- und Testkosten & Überanpassung
* **Datensatz "Kreis":**
    * **Good Fit:** Der Test-Loss sinkt massiv auf Werte um 0.010 bis 0.022. Das Modell hat das Problem gelöst. Es liegt kein Overfitting vor, sondern eine gute Generalisierung.
* **Datensatz "Spirale":**
    * **Underfitting:** Der Loss bleibt sehr hoch (ca. 0.46 bis 0.50). Das Modell ist weiterhin zu einfach für diese Datenstruktur (High Bias).

### 3. Geschwindigkeit der Berechnung
* **Verhalten:** Die Berechnung stabilisiert sich zügig (ca. 200–300 Epochen).
* **Unterschied:** Beim Kreis konvergiert das Netz gegen eine echte Lösung (globales Minimum). Bei der Spirale stagniert es, weil mit der begrenzten Kapazität keine Verbesserung möglich ist.

### 4. Korrektheit der Klassifizierung
* **Kreis:** Ja. Fast alle Punkte werden korrekt klassifiziert. Die blauen Punkte sind erfolgreich "eingesperrt".
* **Spirale:** Nein. Die Klassifizierung ist kaum besser als Raten, da die Spiralarme ignoriert werden.

### 5. Analyse der Hidden Layers (Versteckte Schichten)
* **Funktionsweise:** Die 3 Neuronen lernen jeweils eine Gerade, die an den Rändern der blauen Punktwolke entlangläuft.
* **Kombination:** Das Output-Neuron kombiniert diese drei "Schnitte". Wo sich die aktiven Bereiche der drei Geraden überschneiden, entsteht die "Insel" für die blaue Klasse.
* **Erkenntnis:** Dies beweist geometrisch, dass man mindestens 3 Neuronen (ein Dreieck) benötigt, um eine Fläche in einem 2D-Raum vollständig zu umschließen.

# Vergleichsanalyse: 1 Hidden Layer (5 Neuronen)

### 1. Wie verhält sich die Entscheidungsgrenze?
* **Strukturelle Kapazität:** Mit 5 Neuronen stehen dem Netzwerk 5 lineare Schnitte zur Verfügung. Das erlaubt die Bildung eines Fünfecks (Polygon), was eine sehr gute Annäherung an einen Kreis ist.
* **Datensatz "Kreis":**
    * **Erfolg:** Das Netzwerk bildet eine geschlossene Form, die den inneren blauen Cluster fast perfekt umschließt.
    * **Form:** Bei ReLU erkennt man deutlich ein eckiges Polygon (Fünfeck). Bei Tanh und Sigmoid sind die Ecken abgerundet, was zu einer fast perfekten Kreisform führt.
* **Datensatz "Spirale":**
    * **Misserfolg:** Trotz der 2 zusätzlichen Neuronen (im Vergleich zu vorher) reicht die Kapazität nicht aus. Die 5 Linien können die vielfachen Windungen der Spirale nicht nachzeichnen. Die Grenze bleibt zu grob.

### 2. Trainings- und Testkosten & Überanpassung
* **Datensatz "Kreis":**
    * **Good Fit:** Der Test-Loss ist extrem niedrig (0.010 bei ReLU, 0.016 bei Tanh). Das Problem ist gelöst. Es gibt kein Overfitting.
* **Datensatz "Spirale":**
    * **Underfitting:** Der Loss stagniert bei hohen Werten (~0.48 bis 0.52). Das Modell leidet weiterhin an High Bias, da es die Datenstruktur nicht erfassen kann.

### 3. Geschwindigkeit der Berechnung
* **Kreis:** Das Modell konvergiert zügig und stabil zu einer optimalen Lösung.
* **Spirale:** Die Berechnung erreicht sehr schnell ein Plateau, da mit nur 5 Geraden keine bessere geometrische Lösung möglich ist.

### 4. Korrektheit der Klassifizierung
* **Kreis:** Ja. Die Trennung ist präzise. Die 5 Neuronen reichen aus, um den blauen Bereich vom orangen Bereich zu isolieren.
* **Spirale:** Nein. Große Teile der Spiralarme werden falsch klassifiziert, da das Modell versucht, mit wenigen geraden Schnitten durch eine geschwungene Struktur zu gehen.

### 5. Analyse der Hidden Layers (Versteckte Schichten)
* **Funktionsweise:** Jedes der 5 Neuronen definiert eine Kante des Polygons.
* **Visualisierung:** Wenn man die Maus über die Neuronen hält, würde man 5 verschiedene Geraden sehen, die aus unterschiedlichen Winkeln auf das Zentrum zeigen.
* **Synthese:** Das Output-Neuron kombiniert diese 5 "Wände", um den inneren Raum einzuzäunen. Für den Kreis ist das perfekt. Für die Spirale bräuchte man jedoch dutzende solcher Neuronen, um den Schlauch der Spirale Segment für Segment nachzubilden.

# Vergleichsanalyse: 2 Hidden Layers (5 Neuronen pro Schicht)

### 1. Wie verhält sich die Entscheidungsgrenze?
* **Strukturelle Tiefe:** Durch die zweite Schicht kann das Netzwerk die 5 Linien aus der ersten Schicht komplexer kombinieren (z.B. XOR-Logik auf Formen anwenden).
* **Datensatz "Kreis":**
    * **Erfolg:** Die Form ist extrem präzise und umschließt die blauen Punkte perfekt.
    * **Unterschied:** Im Vergleich zu nur einer Schicht wirken die Grenzen bei ReLU noch schärfer und "selbstbewusster". Bei Tanh/Sigmoid entsteht eine fast mathematisch perfekte Kreisform.
* **Datensatz "Spirale":**
    * **Misserfolg:** Trotz der zweiten Schicht scheitert das Netzwerk. Die Entscheidungsgrenze sieht chaotisch aus oder bildet nur eine einfache Kurve. Die Spirale erfordert viel mehr "Knicke" (Neuronen), als die ersten 5 Neuronen bereitstellen können.

### 2. Trainings- und Testkosten & Überanpassung
* **Datensatz "Kreis":**
    * **Perfektion:** Der Test-Loss sinkt auf extrem niedrige Werte (bis zu 0.002 bei Tanh). Das ist fast null Fehler. Kein Overfitting.
* **Datensatz "Spirale":**
    * **Stagnation:** Der Loss bleibt hoch (ca. 0.47 bis 0.48). Das Hinzufügen einer zweiten Schicht hat das Underfitting-Problem bei dieser geringen Neuronenanzahl nicht gelöst.

### 3. Geschwindigkeit der Berechnung
* **Kreis:** Konvergiert sehr schnell. Das Netzwerk findet die Lösung fast augenblicklich.
* **Spirale:** Das Training stagniert früh. Da die erste Schicht (5 Neuronen) nicht genug Information liefert, kann die zweite Schicht nichts Nützliches daraus bauen.

### 4. Korrektheit der Klassifizierung
* **Kreis:** Ja, absolut fehlerfrei in allen Testfällen.
* **Spirale:** Nein. Die Klassifizierung ist kaum besser als Zufall.

### 5. Analyse der Hidden Layers (Versteckte Schichten)
* **Schicht 1:** Diese 5 Neuronen schneiden den Raum immer noch nur mit 5 geraden Linien.
* **Schicht 2:** Diese Neuronen kombinieren die 5 Linien zu Polygonen oder offenen Formen.
* **Das Flaschenhals-Problem:** Das Versagen bei der Spirale liegt an der ersten Schicht. Da hier nur 5 Linien entstehen, kann die zweite Schicht (egal wie klug sie ist) daraus keine Spirale mit vielen Windungen bauen. Man bräuchte in der ersten Schicht mehr Neuronen, um genug "Baumaterial" für die Spirale zu haben.

# Vergleichsanalyse: 3 Hidden Layers (7 Neuronen pro Schicht)

### 1. Wie verhält sich die Entscheidungsgrenze?
* **Strukturelle Tiefe:** Mit 3 Schichten und insgesamt 21 Neuronen kann das Netzwerk komplexe, hierarchische Strukturen lernen (Linien $\rightarrow$ Ecken $\rightarrow$ gewundene Pfade).
* **Datensatz "Kreis":**
    * **ReLU & Tanh:** Erzeugen eine perfekte, eng anliegende Hülle um die blauen Punkte.
    * **Sigmoid:** Scheitert hier interessantweise (Loss 0.503). Die Grenze bleibt ein diffuser Kreis, der die Klassen nicht trennt. Dies ist ein Indiz für das "Vanishing Gradient Problem" (verschwindende Gradienten), das bei tiefen Netzen mit Sigmoid oft auftritt.
* **Datensatz "Spirale":**
    * **Durchbruch:** Dies ist die erste Konfiguration, die die Spirale ansatzweise erkennt.
    * **ReLU:** Bildet einen zackigen, gewundenen "Schlauch", der den Spiralarmen folgt.
    * **Tanh:** Versucht eine glattere Spirale zu formen, ist aber an den Rändern noch unsauber.
    * **Sigmoid:** Versagt komplett (nur eine einfache Kurve), da das Signal durch die vielen Schichten zu schwach wird.

### 2. Trainings- und Testkosten & Überanpassung
* **Datensatz "Kreis":**
    * **Ergebnis:** Bei ReLU und Tanh nahezu 0.00 Fehler (Loss ~0.001–0.004). Perfekter Fit.
* **Datensatz "Spirale":**
    * **Fortschritt:** Der Loss sinkt erstmals signifikant unter das Raten (auf ca. 0.350 bei ReLU und 0.382 bei Tanh).
    * **Bewertung:** Es ist immer noch ein gewisses Underfitting vorhanden (die Spirale wird nicht perfekt getrennt), aber das Modell hat die grundlegende Struktur "verstanden".

### 3. Geschwindigkeit der Berechnung
* **Beobachtung:** Das Training dauert länger, um gute Ergebnisse zu erzielen.
* **Problem bei Sigmoid:** Das Modell lernt fast gar nicht (Stagnation), da die Gewichts-Updates in tiefen Schichten extrem klein werden.

### 4. Korrektheit der Klassifizierung
* **Kreis:** Perfekt (außer bei Sigmoid).
* **Spirale:** Wesentlich besser als zuvor. Die inneren Arme der Spirale werden bei ReLU und Tanh größtenteils korrekt klassifiziert. Fehler treten vor allem an den extremen Außenrändern der Spirale auf.

### 5. Analyse der Hidden Layers (Versteckte Schichten)
* **Hierarchie:**
    * **Schicht 1:** Lernt immer noch nur einfache Geraden.
    * **Schicht 2:** Kombiniert diese zu Ecken und einfachen Kurven.
    * **Schicht 3:** Kombiniert die Kurven zu komplexen, schlauchigen Pfaden.
* **Fazit:** Man sieht hier deutlich, warum "Tiefe" (mehr Layer) für komplexe Probleme wie die Spirale wichtiger ist als nur "Breite" (mehr Neuronen in einer Schicht). Nur durch die Tiefe kann die komplexe Topologie der Spirale modelliert werden.

# Vergleichsanalyse: 4 Hidden Layers (7 Neuronen pro Schicht)

### 1. Wie verhält sich die Entscheidungsgrenze?
* **Strukturelle Tiefe:** Mit 4 Schichten steigt die Komplexität enorm. Theoretisch können sehr komplizierte Formen gebildet werden, praktisch treten aber Trainingsprobleme auf.
* **Datensatz "Kreis":**
    * **ReLU:** Bildet eine sehr scharfe, fast hexagonale oder polygonale geschlossene Form um die blauen Punkte.
    * **Tanh:** Erzeugt eine sehr glatte, perfekte Kreisform.
    * **Sigmoid:** Versagt hier komplett. Die Entscheidungsgrenze zieht sich kaum zusammen. Das Netzwerk ist "zu tief" für Sigmoid, das Signal geht verloren.
* **Datensatz "Spirale":**
    * **ReLU:** Schafft es als einzige Funktion, der Spirale grob zu folgen (zackiger Schlauch), wirkt aber instabil.
    * **Tanh & Sigmoid:** Versagen beide. Tanh bildet eher konzentrische Kreise statt einer Spirale, Sigmoid lernt gar nichts (alles wird einer Klasse zugeordnet).

### 2. Trainings- und Testkosten & Überanpassung
* **Datensatz "Kreis":**
    * **Ergebnis:** Perfekt für ReLU und Tanh (Loss ~0.001).
    * **Problem:** Sigmoid bleibt bei einem hohen Loss (~0.506) stecken. Das ist reines Raten.
* **Datensatz "Spirale":**
    * **Verschlechterung:** Interessanterweise sind die Ergebnisse hier oft schlechter als mit 3 Schichten.
    * **Werte:** ReLU erreicht ca. 0.387 (akzeptabel, aber Underfitting). Tanh (~0.486) und Sigmoid (~0.506) stagnieren komplett.

### 3. Geschwindigkeit der Berechnung
* **Phänomen:** Das Training dauert länger oder friert komplett ein.
* **Vanishing Gradient Problem:** Bei 4 Schichten zeigt sich massiv das Problem verschwindender Gradienten. Besonders bei Sigmoid (und hier auch Tanh) kommen die Fehlerkorrekturen nicht mehr in den ersten Schichten an. Die Gewichte werden nicht aktualisiert.

### 4. Korrektheit der Klassifizierung
* **Kreis:** Ja, perfekt gelöst durch ReLU und Tanh. Sigmoid scheitert.
* **Spirale:** Nein. Selbst ReLU klassifiziert viele Randbereiche falsch. Tanh und Sigmoid sind hier unbrauchbar. Mehr Schichten haben hier ohne weitere Hilfsmittel (wie Batch Normalization) geschadet statt genützt.

### 5. Analyse der Hidden Layers (Versteckte Schichten)
* **Beobachtung:**
    * **Schicht 1 & 2:** Bei Sigmoid sieht man fast keine Aktivierungsmuster mehr; die Neuronen sind "tot" oder gesättigt.
    * **Tiefe vs. Trainierbarkeit:** Das Experiment zeigt deutlich, dass "tiefer" nicht automatisch "besser" heißt. Ohne moderne Aktivierungsfunktionen (wie ReLU) ist es extrem schwer, Informationen durch 4 Schichten zu transportieren. ReLU hält die Gradienten aktiv, weshalb es hier als einziges noch lernt.

# 03:
# Analyse: Einfluss von Rauschen (Noise = 15) & Überanpassung

### 1. Wann spricht man von Überanpassung (Overfitting)?
* **Definition:** Überanpassung tritt auf, wenn das Modell das "Rauschen" (zufällige Fehler oder Ausreißer im Datensatz) statt des eigentlichen Musters ("Signal") lernt.
* **Visuelles Merkmal:** Die Entscheidungsgrenze wird unnötig komplex. Sie bildet "Inseln", Schlaufen oder sehr zackige Linien, nur um einzelne Ausreißer-Punkte (z.B. einen einzelnen blauen Punkt tief im orangen Gebiet) korrekt zu klassifizieren.
* **Metrisches Merkmal:**
    * Der **Training Loss** sinkt weiter (das Modell "merkt" sich die Ausreißer).
    * Der **Test Loss** beginnt zu steigen oder stagniert auf einem deutlich schlechteren Niveau als der Training Loss. Die Schere zwischen Training- und Test-Kurve geht auseinander.

### 2. Beobachtungen in den Experimenten (mit Noise 15)
* **Bei geringer Komplexität (z.B. 2-3 Neuronen):**
    * **Verhalten:** Das Modell ist zu starr ("High Bias"). Es ignoriert das Rauschen zwangsläufig, da es keine komplexen Grenzen bilden kann. Es entsteht *kein* Overfitting, sondern weiterhin Underfitting.
* **Bei hoher Komplexität (z.B. 4 Schichten, viele Neuronen):**
    * **Verhalten:** Das Netzwerk hat genug Kapazität, um die verstreuten Punkte einzeln einzukreisen.
    * **Ergebnis:** Die Entscheidungsgrenze sieht zerklüftet aus. Das Modell generalisiert schlecht auf neue Daten (Testdaten), da es sich zu sehr auf die spezifische Verteilung der Trainingsdaten inkl. ihrer Fehler versteift hat.

### 3. Fazit
* **Erkenntnis:** Rauschen zwingt uns, die Komplexität des Modells zu begrenzen (Regularisierung) oder das Training rechtzeitig zu stoppen (Early Stopping), um zu verhindern, dass das Netz "Phantome" jagt. Eine glattere Grenze, die ein paar Fehler in Kauf nimmt, ist bei Noise=15 meist besser als eine perfekte Trennung der Trainingsdaten.