# Les 6: Labo - Oefeningen

**Mathematical Foundations - IT & Artificial Intelligence**

---

In dit labo implementeer je gradient descent en pas je het toe op verschillende optimalisatieproblemen.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

np.set_printoptions(precision=4, suppress=True)
np.random.seed(42)
print("Libraries geladen!")

---

## Oefening 1: Loss Functies Implementeren

*Geschatte tijd: 15 minuten*

### Opdracht 1a

Implementeer de Mean Squared Error (MSE) loss functie:

MSE = (1/n) Σᵢ (yᵢ_pred - yᵢ_true)²

In [None]:
def mse_loss(y_pred, y_true):
    """Bereken Mean Squared Error."""
    # Jouw code hier
    pass

# Test
y_true = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
y_pred = np.array([1.1, 2.2, 2.9, 4.0, 5.2])

# Verwacht: ((0.1)² + (0.2)² + (0.1)² + 0 + (0.2)²) / 5 = 0.02
print(f"MSE: {mse_loss(y_pred, y_true)}")

### Opdracht 1b

Implementeer de gradiënt van de MSE loss ten opzichte van de voorspellingen:

∂MSE/∂y_pred = (2/n) · (y_pred - y_true)

In [None]:
def mse_gradient(y_pred, y_true):
    """Bereken de gradiënt van MSE naar y_pred."""
    # Jouw code hier
    pass

# Test
grad = mse_gradient(y_pred, y_true)
print(f"Gradiënt: {grad}")

### Opdracht 1c

Implementeer Binary Cross-Entropy loss:

BCE = -(1/n) Σᵢ [yᵢ·log(pᵢ) + (1-yᵢ)·log(1-pᵢ)]

Gebruik `np.clip()` om te voorkomen dat je log(0) berekent.

In [None]:
def binary_cross_entropy(y_pred, y_true, epsilon=1e-15):
    """Bereken Binary Cross-Entropy Loss."""
    # Jouw code hier
    pass

# Test
y_true_class = np.array([1, 0, 1, 1, 0])
y_pred_probs = np.array([0.9, 0.1, 0.8, 0.7, 0.3])

print(f"BCE: {binary_cross_entropy(y_pred_probs, y_true_class)}")

---

## Oefening 2: 1D Gradient Descent

*Geschatte tijd: 20 minuten*

### Opdracht 2a

Implementeer gradient descent voor een 1D functie. Het algoritme is:

```
x = x_init
for i in range(n_iterations):
    gradient = df_dx(x)
    x = x - learning_rate * gradient
```

Test op f(x) = x² - 4x + 5 (minimum bij x = 2).

In [None]:
def gradient_descent_1d(f, df_dx, x_init, learning_rate, n_iterations):
    """Voer gradient descent uit voor een 1D functie.
    
    Returns:
        x_final: de gevonden x waarde
        history: lijst van alle x waarden tijdens optimalisatie
    """
    # Jouw code hier
    pass

# Functie en afgeleide
def f(x):
    return x**2 - 4*x + 5

def df_dx(x):
    return 2*x - 4

# Test
x_final, history = gradient_descent_1d(f, df_dx, x_init=6.0, learning_rate=0.1, n_iterations=50)
print(f"Gevonden minimum: x = {x_final:.4f}")
print(f"Verwacht minimum: x = 2")

### Opdracht 2b

Visualiseer het optimalisatiepad: plot de functie en teken het pad dat gradient descent volgt.

In [None]:
# Jouw code voor opdracht 2b:



### Opdracht 2c

Experimenteer met verschillende learning rates: 0.01, 0.1, 0.5, 1.0, 1.5. Plot de convergentiecurves (loss vs iteratie) voor elke learning rate. Wat observeer je?

In [None]:
# Jouw code voor opdracht 2c:



---

## Oefening 3: 2D Gradient Descent

*Geschatte tijd: 20 minuten*

### Opdracht 3a

Breid gradient descent uit naar 2D. Minimaliseer f(x, y) = (x - 2)² + (y - 3)² (minimum bij (2, 3)).

In [None]:
def gradient_descent_2d(f, grad_f, xy_init, learning_rate, n_iterations):
    """Voer gradient descent uit voor een 2D functie.
    
    Args:
        f: functie f(x, y)
        grad_f: gradiënt functie die [∂f/∂x, ∂f/∂y] teruggeeft
        xy_init: startpunt [x, y]
        learning_rate: stapgrootte
        n_iterations: aantal iteraties
    
    Returns:
        xy_final: gevonden minimum [x, y]
        history: lijst van alle [x, y] waarden
    """
    # Jouw code hier
    pass

# Functie en gradiënt
def f_2d(x, y):
    return (x - 2)**2 + (y - 3)**2

def grad_f_2d(x, y):
    return np.array([2*(x - 2), 2*(y - 3)])

# Test
xy_final, history = gradient_descent_2d(f_2d, grad_f_2d, xy_init=[-1, 6], 
                                         learning_rate=0.1, n_iterations=50)
print(f"Gevonden minimum: ({xy_final[0]:.4f}, {xy_final[1]:.4f})")
print(f"Verwacht minimum: (2, 3)")

### Opdracht 3b

Visualiseer het pad op een contourplot van de functie.

In [None]:
# Jouw code voor opdracht 3b:



---

## Oefening 4: Gradient Descent voor Lineaire Regressie

*Geschatte tijd: 25 minuten*

### Opdracht 4a

Genereer synthetische data voor lineaire regressie: y = 2.5x + 3 + ruis.

In [None]:
np.random.seed(42)
n_samples = 50

# Genereer data
X = np.random.uniform(0, 10, n_samples)
y = 2.5 * X + 3 + np.random.randn(n_samples) * 1.5

# Plot
plt.figure(figsize=(8, 5))
plt.scatter(X, y, alpha=0.7)
plt.xlabel('X')
plt.ylabel('y')
plt.title('Synthetische data: y = 2.5x + 3 + ruis')
plt.grid(True, alpha=0.3)
plt.show()

### Opdracht 4b

Implementeer lineaire regressie met gradient descent. Het model is y = wx + b.

De gradiënten zijn:
- ∂MSE/∂w = (2/n) Σᵢ (yᵢ_pred - yᵢ_true) · xᵢ
- ∂MSE/∂b = (2/n) Σᵢ (yᵢ_pred - yᵢ_true)

In [None]:
class LinearRegressionGD:
    def __init__(self, learning_rate=0.01):
        self.lr = learning_rate
        self.w = 0.0
        self.b = 0.0
        self.loss_history = []
    
    def predict(self, X):
        """Voorspel y = w*X + b."""
        # Jouw code hier
        pass
    
    def compute_loss(self, X, y):
        """Bereken MSE loss."""
        # Jouw code hier
        pass
    
    def compute_gradients(self, X, y):
        """Bereken gradiënten ∂L/∂w en ∂L/∂b."""
        # Jouw code hier
        pass
    
    def fit(self, X, y, n_epochs=100):
        """Train het model met gradient descent."""
        # Jouw code hier
        pass

# Train
model = LinearRegressionGD(learning_rate=0.01)
model.fit(X, y, n_epochs=200)

print(f"Geleerd: w = {model.w:.4f}, b = {model.b:.4f}")
print(f"Werkelijk: w = 2.5, b = 3")

### Opdracht 4c

Visualiseer:
1. De data met de geleerde lijn
2. De loss curve tijdens training
3. De evolutie van w en b

In [None]:
# Jouw code voor opdracht 4c:



---

## Oefening 5: Batch vs Mini-batch vs Stochastic GD

*Geschatte tijd: 25 minuten*

### Opdracht 5a

Implementeer drie varianten van gradient descent:
1. **Batch GD**: gebruik alle data voor elke update
2. **Mini-batch GD**: gebruik een batch van b samples
3. **Stochastic GD**: gebruik 1 sample per update

In [None]:
def batch_gradient_descent(X, y, learning_rate, n_epochs):
    """Batch gradient descent."""
    # Jouw code hier
    pass

def minibatch_gradient_descent(X, y, learning_rate, n_epochs, batch_size=16):
    """Mini-batch gradient descent."""
    # Jouw code hier
    pass

def stochastic_gradient_descent(X, y, learning_rate, n_epochs):
    """Stochastic gradient descent (batch_size=1)."""
    # Jouw code hier
    pass

### Opdracht 5b

Vergelijk de drie methodes op de lineaire regressie data. Plot de loss curves.

In [None]:
# Jouw code voor opdracht 5b:



### Opdracht 5c

Wat observeer je? Beschrijf de verschillen in:
- Stabiliteit van de convergentie
- Snelheid van convergentie
- Eindresultaat

*Jouw antwoord:*



---

## Oefening 6: Learning Rate Scheduling

*Geschatte tijd: 15 minuten*

### Opdracht 6a

Implementeer een afnemende learning rate: lr(t) = lr₀ / (1 + decay·t)

In [None]:
def gradient_descent_with_decay(X, y, lr_init, decay, n_epochs):
    """Gradient descent met afnemende learning rate."""
    # Jouw code hier
    pass

# Test


### Opdracht 6b

Vergelijk constante learning rate met afnemende learning rate. Wat is het verschil?

In [None]:
# Jouw code voor opdracht 6b:



---

## Oefening 7: Logistische Regressie

*Geschatte tijd: 25 minuten*

### Opdracht 7a

Genereer data voor binaire classificatie.

In [None]:
np.random.seed(42)
n_samples = 100

# Klasse 0: gecentreerd rond (-1, -1)
X0 = np.random.randn(n_samples // 2, 2) * 0.8 + np.array([-1, -1])
y0 = np.zeros(n_samples // 2)

# Klasse 1: gecentreerd rond (1, 1)
X1 = np.random.randn(n_samples // 2, 2) * 0.8 + np.array([1, 1])
y1 = np.ones(n_samples // 2)

X_class = np.vstack([X0, X1])
y_class = np.hstack([y0, y1])

# Plot
plt.figure(figsize=(8, 6))
plt.scatter(X_class[y_class == 0, 0], X_class[y_class == 0, 1], c='blue', label='Klasse 0')
plt.scatter(X_class[y_class == 1, 0], X_class[y_class == 1, 1], c='red', label='Klasse 1')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.title('Binaire classificatie data')
plt.grid(True, alpha=0.3)
plt.show()

### Opdracht 7b

Implementeer logistische regressie met gradient descent.

Model: p = σ(w₁x₁ + w₂x₂ + b)

Loss: Binary Cross-Entropy

In [None]:
def sigmoid(z):
    return 1 / (1 + np.exp(-np.clip(z, -500, 500)))

class LogisticRegressionGD:
    def __init__(self, learning_rate=0.1):
        self.lr = learning_rate
        self.w = None
        self.b = 0.0
        self.loss_history = []
    
    def predict_proba(self, X):
        """Voorspel kansen."""
        # Jouw code hier
        pass
    
    def predict(self, X):
        """Voorspel klassen (0 of 1)."""
        # Jouw code hier
        pass
    
    def fit(self, X, y, n_epochs=100):
        """Train met gradient descent."""
        # Jouw code hier
        pass

# Train
log_model = LogisticRegressionGD(learning_rate=0.5)
log_model.fit(X_class, y_class, n_epochs=200)

# Evalueer
predictions = log_model.predict(X_class)
accuracy = np.mean(predictions == y_class)
print(f"Nauwkeurigheid: {accuracy * 100:.1f}%")

### Opdracht 7c

Visualiseer de decision boundary.

In [None]:
# Jouw code voor opdracht 7c:



---

## Oefening 8: Momentum

*Geschatte tijd: 20 minuten*

### Opdracht 8a

Implementeer gradient descent met momentum. De update regel wordt:

```
v = momentum * v - learning_rate * gradient
w = w + v
```

Momentum (vaak 0.9) helpt om sneller te convergeren en uit lokale minima te ontsnappen.

In [None]:
def gradient_descent_momentum(f, grad_f, x_init, learning_rate, momentum, n_iterations):
    """Gradient descent met momentum."""
    # Jouw code hier
    pass

### Opdracht 8b

Vergelijk standaard GD met GD + momentum op de functie f(x, y) = 0.1x² + 2y² (een "langgerekte" vallei). Start vanaf (10, 1).

In [None]:
# Jouw code voor opdracht 8b:



---

## Bonusoefening: Rosenbrock Functie

*Geschatte tijd: 20 minuten*

### Bonus

De Rosenbrock functie is een klassieke testfunctie voor optimalisatie:

f(x, y) = (a - x)² + b(y - x²)²

Met a = 1, b = 100 is het minimum bij (1, 1).

Probeer deze functie te minimaliseren met gradient descent. Dit is uitdagend! Experimenteer met verschillende learning rates en momentum.

In [None]:
# Jouw code voor de bonusoefening:



---

## Klaar!

Je hebt de labo-oefeningen van les 6 afgerond. Je kunt nu gradient descent implementeren en toepassen op verschillende problemen.

In de volgende les leren we backpropagation: hoe we de gradiënten door een heel neuraal netwerk berekenen.

---

**Mathematical Foundations** | Les 6 Labo | IT & Artificial Intelligence

---