### **Mathematische Erklärung der Wissensspeicherung in einem MLP**  

Ein **Multilayer Perceptron (MLP)** besteht aus mehreren Schichten von Neuronen. Die Verbindungen zwischen den Neuronen sind mit **Gewichten** \( W \) versehen, die während des Trainings angepasst werden, um Muster zu lernen.

---

## **1. Grundstruktur eines MLP**  
Ein MLP mit einer Eingabeschicht, einer versteckten Schicht und einer Ausgabeschicht folgt dieser Struktur:

$$
\mathbf{x} \rightarrow \text{Eingabeschicht} \rightarrow \text{Versteckte Schicht} \rightarrow \text{Ausgabeschicht} \rightarrow \hat{\mathbf{y}}
$$

Jede Schicht führt eine **lineare Transformation** mit einer Aktivierungsfunktion durch:

### **Vorwärtspropagation**  
Für eine Schicht \( l \) mit Eingabe \( \mathbf{x} \), Gewichten \( W^{(l)} \) und Bias \( b^{(l)} \) wird der **Netzinput** \( \mathbf{z}^{(l)} \) berechnet als:

$$
\mathbf{z}^{(l)} = W^{(l)} \mathbf{x} + b^{(l)}
$$

Anschließend wird eine **Aktivierungsfunktion** \( \sigma \) (z. B. ReLU oder Sigmoid) angewendet:

$$
\mathbf{a}^{(l)} = \sigma(\mathbf{z}^{(l)})
$$

Die Aktivierung \( \mathbf{a}^{(l)} \) wird zur Eingabe der nächsten Schicht.

### **Beispiel für eine vollständige MLP-Berechnung**
Angenommen, wir haben:
- Eingabe \( \mathbf{x} = [x_1, x_2]^\top \)
- Eine versteckte Schicht mit zwei Neuronen und Gewichten:

  \[
  W^{(1)} = \begin{bmatrix} w_{11} & w_{12} \\ w_{21} & w_{22} \end{bmatrix}, \quad b^{(1)} = \begin{bmatrix} b_1 \\ b_2 \end{bmatrix}
  \]

- Aktivierung in der versteckten Schicht:

  \[
  \mathbf{z}^{(1)} = W^{(1)} \mathbf{x} + b^{(1)}
  \]

  \[
  \mathbf{a}^{(1)} = \sigma(\mathbf{z}^{(1)})
  \]

- Eine Ausgabeschicht mit Gewichten \( W^{(2)} \):

  \[
  W^{(2)} = \begin{bmatrix} w_{31} & w_{32} \end{bmatrix}, \quad b^{(2)} = [b_3]
  \]

- Ausgabe:

  \[
  z^{(2)} = W^{(2)} \mathbf{a}^{(1)} + b^{(2)}
  \]

  \[
  \hat{y} = \sigma(z^{(2)})
  \]

---

## **2. Wie speichert das MLP Wissen?**  

Das Wissen des Netzwerks ist in den Gewichten \( W^{(l)} \) und Biases \( b^{(l)} \) gespeichert. Diese Parameter werden durch **Backpropagation und Gradientenabstieg** optimiert.

### **Backpropagation und Gewichtsanpassung**
1. **Fehlermessung:** Der Fehler wird durch eine Verlustfunktion \( L \) (z. B. Mean Squared Error oder Cross-Entropy) berechnet:

   \[
   L = \frac{1}{N} \sum_{i=1}^{N} \text{Loss}(\hat{y}_i, y_i)
   \]

2. **Gradientenberechnung:**  
   Mit der **Kettenregel** wird der Gradient des Fehlers nach den Gewichten bestimmt:

   \[
   \frac{\partial L}{\partial W^{(l)}} = \frac{\partial L}{\partial z^{(l)}} \cdot \frac{\partial z^{(l)}}{\partial W^{(l)}}
   \]

3. **Gradientenabstieg:**  
   Die Gewichte werden mit der Lernrate \( \eta \) aktualisiert:

   \[
   W^{(l)} := W^{(l)} - \eta \frac{\partial L}{\partial W^{(l)}}
   \]

Durch diesen Prozess passen sich die Gewichte schrittweise an, sodass das Netzwerk Muster in den Daten erkennt.

---

## **3. Beispiel für Wissen in Gewichten**  
Angenommen, ein trainiertes MLP erkennt Katzen und Hunde anhand von Pixelwerten eines Bildes.  
- Ein Neuron in der ersten Schicht könnte lernen, **Ohrenformen** zu erkennen.  
- Ein anderes Neuron könnte lernen, **Augenabstände** zu unterscheiden.  
- Die letzte Schicht könnte eine hohe Aktivierung für „Katze“ oder „Hund“ ausgeben.  

Die trainierten **Gewichtswerte speichern dieses Wissen**, indem sie die entscheidenden Merkmale betonen.

---

### **Fazit**  
Das Wissen eines MLP ist in den **Gewichten und Biases** gespeichert, die durch Training optimiert werden. Diese Parameter steuern, wie Eingaben verarbeitet werden, um die gewünschte Ausgabe zu erzeugen. **Mathematisch ausgedrückt, sind die Gewichte die Koeffizienten einer komplexen, nicht-linearen Funktion, die Muster aus Daten abstrahiert.**  

Möchtest du noch tiefer in das Thema eintauchen, z. B. mit konkretem Code zur Visualisierung der Gewichte? 😊