In [None]:
import numpy as np

# --- 1. Eingaben und Initialisierung der Parameter ---
# Eingabedaten
X = np.array([
    [1, 2, -1],
    [0, -1, 3],
    [2, 0, 1]
])

# Gewichte und Biases der ersten Schicht (Initialzustand)
W1 = np.array([
    [0.2, -0.5],
    [1.0, 0.3],
    [-1.5, 2.0]
])
b1 = np.array([
    [0.5, -1.0]
])

# Gewichte und Biases der zweiten Schicht (Initialzustand)
W2 = np.array([
    [1.0],
    [-1.2]
])
b2 = np.array([
    [0.3]
])

# Wahre Labels (für die Verlustberechnung)
Y = np.array([
    [1],
    [0],
    [1]
])

# Lernrate
eta = 0.1

print("--- Initialzustand der Parameter und Eingaben ---")
print("X:\n", X)
print("W1:\n", W1)
print("b1:\n", b1)
print("W2:\n", W2)
print("b2:\n", b2)
print("Y:\n", Y)
print("Lernrate (eta):", eta)
print("-" * 40)


# --- 2. Vorwärtspass-Berechnungen ---
print("\n--- Vorwärtspass-Berechnungen ---")

# Berechnung von Z1 = X * W1 + b1
Z1 = np.dot(X, W1) + b1
print("Z1 (Pre-Aktivierung 1):\n", Z1)

# Aktivierung A1 = ReLU(Z1)
A1 = np.maximum(0, Z1)
print("A1 (Aktivierung 1):\n", A1)

# Berechnung von Z2 = A1 * W2 + b2
Z2 = np.dot(A1, W2) + b2
print("Z2 (Pre-Aktivierung 2):\n", Z2)

# Ausgabe A2 = sigmoid(Z2) (Sigmoid-Aktivierung der Output-Schicht)
A2 = 1 / (1 + np.exp(-Z2))
print("A2 (Output-Aktivierung):\n", A2)
print("-" * 40)


# --- 3. Backpropagation-Berechnungen (Gradienten) ---
print("\n--- Backpropagation-Berechnungen (Gradienten) ---")

##### Schritt 1: Fehler am Ausgangsneuron berechnen ($\delta_2$)
# Für Sigmoid-Output und (angenommenem) Kreuzentropie-Verlust
delta2 = A2 - Y
print("\ndelta2 (Fehler der Output-Schicht):\n", delta2)

##### Schritt 2: Gradienten für W2 und b2
# Gradient der Gewichte W2
grad_W2 = np.dot(A1.T, delta2)
print("\ngrad_W2:\n", grad_W2)

# Gradient des Bias b2 (Mittelwert über die Batch-Dimension)
grad_b2 = np.mean(delta2, axis=0)
print("\ngrad_b2:\n", grad_b2)


##### Schritt 3: Gradienten für W1 und b1
# Berechnung von delta1 (Fehler der Hidden-Schicht)
# delta1 = (delta2 .dot W2.T) o f'(Z1)
relu_prime_Z1 = (Z1 > 0).astype(float) # Ableitung der ReLU-Funktion (1 für x>0, 0 sonst)

delta1_intermediate = np.dot(delta2, W2.T)
delta1 = delta1_intermediate * relu_prime_Z1 # Elementweises Produkt (Hadamard)
print("\ndelta1 (Fehler der Hidden-Schicht):\n", delta1)

# Gradient der Gewichte W1
grad_W1 = np.dot(X.T, delta1)
print("\ngrad_W1:\n", grad_W1)

# Gradient des Bias b1 (Mittelwert über die Batch-Dimension)
grad_b1 = np.mean(delta1, axis=0)
print("\ngrad_b1:\n", grad_b1)
print("-" * 40)


# --- 4. Abschluss der Backpropagation: Parameter-Updates ---
print("\n--- Parameter-Updates ---")

# Update W2
W2_updated = W2 - eta * grad_W2
print("\nW2_aktualisiert:\n", W2_updated)

# Update b2
b2_updated = b2 - eta * grad_b2
print("\nb2_aktualisiert:\n", b2_updated)

# Update W1
W1_updated = W1 - eta * grad_W1
print("\nW1_aktualisiert:\n", W1_updated)

# Update b1
b1_updated = b1 - eta * grad_b1
print("\nb1_aktualisiert:\n", b1_updated)
print("-" * 40)