# Les 1: Labo - Oplossingen

**Mathematical Foundations - IT & Artificial Intelligence**

---

Dit document bevat de uitgewerkte oplossingen voor alle labo-oefeningen van les 1. Probeer de oefeningen eerst zelf te maken voordat je deze oplossingen raadpleegt.

In [None]:
# Imports en data laden

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from sklearn.datasets import fetch_openml

print("MNIST laden...")
mnist = fetch_openml('mnist_784', version=1, as_frame=False)
X, y = mnist.data, mnist.target.astype(int)
print(f"Geladen: {len(X)} afbeeldingen")

---

## Oefening 1: NumPy Basics - Oplossingen

In [None]:
# Opdracht 1a: Vector met getallen 1 tot 10

vector = np.arange(1, 11)
print(f"Vector: {vector}")
print(f"Aantal elementen: {len(vector)}")

In [None]:
# Opdracht 1b: 3x3 matrix met nullen

matrix_nullen = np.zeros((3, 3))
print("3x3 matrix met nullen:")
print(matrix_nullen)
print(f"Shape: {matrix_nullen.shape}")

In [None]:
# Opdracht 1c: 4x4 identiteitsmatrix

identiteit = np.eye(4)
print("4x4 identiteitsmatrix:")
print(identiteit)

In [None]:
# Opdracht 1d: 2x5 matrix met willekeurige gehele getallen

random_matrix = np.random.randint(0, 101, size=(2, 5))
print("2x5 matrix met willekeurige getallen:")
print(random_matrix)
print(f"Shape: {random_matrix.shape}")
print(f"Gemiddelde: {random_matrix.mean():.2f}")

---

## Oefening 2: MNIST Verkennen - Oplossingen

In [None]:
# Opdracht 2a: Aantal voorbeelden per cijfer

unieke_labels, aantallen = np.unique(y, return_counts=True)

print("Aantal voorbeelden per cijfer:")
print()
for label, aantal in zip(unieke_labels, aantallen):
    print(f"  Cijfer {label}: {aantal:,} voorbeelden")

print(f"\nTotaal: {aantallen.sum():,} voorbeelden")

In [None]:
# Opdracht 2b: Gemiddelde pixelwaarde

gem_pixel = X.mean()
print(f"Gemiddelde pixelwaarde over alle afbeeldingen: {gem_pixel:.2f}")
print()
print("Dit getal is veel dichter bij 0 dan bij 255.")
print("Dit betekent dat de meeste pixels zwart zijn (achtergrond).")
print("De cijfers zelf vormen slechts een klein deel van elke afbeelding.")

In [None]:
# Opdracht 2c: Minimum en maximum pixelwaarden

print(f"Minimum pixelwaarde: {X.min()}")
print(f"Maximum pixelwaarde: {X.max()}")
print()
print("Dit komt overeen met wat we verwachten voor grijswaarden.")
print("0 = volledig zwart, 255 = volledig wit.")

In [None]:
# Opdracht 2d: Uitleg shape

print(f"Shape van X: {X.shape}")
print()
print("Het eerste getal (70000) is het aantal afbeeldingen in de dataset.")
print("Het tweede getal (784) is het aantal pixels per afbeelding.")
print("784 = 28 × 28, de afmetingen van elke afbeelding.")

---

## Oefening 3: Een Cijfer Visualiseren - Oplossingen

In [None]:
# Opdracht 3a: Reshape van vector naar matrix

afbeelding_vector = X[100]
afbeelding_matrix = afbeelding_vector.reshape(28, 28)

print(f"Shape van vector: {afbeelding_vector.shape}")
print(f"Shape van matrix: {afbeelding_matrix.shape}")

In [None]:
# Opdracht 3b: Visualisatie met label

label = y[100]

plt.figure(figsize=(5, 5))
plt.imshow(afbeelding_matrix, cmap='gray')
plt.title(f'Afbeelding op index 100, label: {label}', fontsize=14)
plt.axis('off')
plt.show()

In [None]:
# Opdracht 3c: Controle met andere indices

fig, axes = plt.subplots(1, 4, figsize=(12, 3))

indices = [100, 500, 1000, 5000]

for ax, idx in zip(axes, indices):
    afb = X[idx].reshape(28, 28)
    ax.imshow(afb, cmap='gray')
    ax.set_title(f'Index {idx}, label: {y[idx]}')
    ax.axis('off')

plt.tight_layout()
plt.show()

print("De labels komen overeen met de getoonde cijfers.")

---

## Oefening 4: Meerdere Cijfers Plotten - Oplossing

In [None]:
# Opdracht 4: Grid met één voorbeeld per cijfer

fig, axes = plt.subplots(2, 5, figsize=(12, 5))
fig.suptitle('Één voorbeeld van elk cijfer (0-9)', fontsize=16)

for cijfer, ax in enumerate(axes.flat):
    # Vind de index van het eerste voorbeeld met dit label
    index = np.where(y == cijfer)[0][0]
    
    # Haal de afbeelding op en reshape
    afbeelding = X[index].reshape(28, 28)
    
    # Toon de afbeelding
    ax.imshow(afbeelding, cmap='gray')
    ax.set_title(f'Cijfer: {cijfer}', fontsize=12)
    ax.axis('off')

plt.tight_layout()
plt.show()

---

## Oefening 5: Data als Getallen - Oplossingen

In [None]:
# Opdracht 5a: Print middelste deel van de pixelwaarden

afbeelding = X[100].reshape(28, 28)
midden = afbeelding[9:19, 9:19]

print("Middelste 10x10 pixels van de afbeelding op index 100:")
print()

for rij in midden:
    print(' '.join(f'{int(pixel):3d}' for pixel in rij))

**Opdracht 5b - Observaties:**

De hoge waarden (dicht bij 255) komen voor waar het cijfer getekend is. Dit zijn de witte of lichtgrijze pixels. De lage waarden (dicht bij 0) zijn de achtergrond, de zwarte gebieden. In de geprinte matrix zie je duidelijk het patroon van het cijfer terugkomen in de hoge waarden.

In [None]:
# Opdracht 5c: Aantal niet-zwarte pixels

afbeelding = X[100]

niet_zwart = np.sum(afbeelding > 0)
totaal = len(afbeelding)
percentage = (niet_zwart / totaal) * 100

print(f"Aantal niet-zwarte pixels: {niet_zwart}")
print(f"Totaal aantal pixels: {totaal}")
print(f"Percentage niet-zwart: {percentage:.1f}%")
print()
print("Het cijfer beslaat dus slechts een klein deel van de totale afbeelding.")

**Opdracht 5d - Bonusvraag: Waarom normaliseren?**

Er zijn meerdere redenen om pixelwaarden te normaliseren naar het bereik [0, 1]:

Ten eerste zijn de gewichten in neurale netwerken typisch geïnitialiseerd met kleine waarden rond 0. Als de inputwaarden zeer groot zijn (tot 255), dan worden de producten van inputs en gewichten ook groot. Dit kan leiden tot numerieke instabiliteit.

Ten tweede werken activatiefuncties zoals sigmoid en tanh beter met inputs in een beperkt bereik. Zeer grote inputs kunnen de functie in saturatie brengen, waardoor de gradiënt bijna nul wordt.

Ten derde maakt normalisatie het makkelijker om dezelfde hyperparameters (zoals learning rate) te gebruiken voor verschillende datasets.

---

## Oefening 6: Gemiddeld Cijfer - Oplossingen

In [None]:
# Opdracht 6a: Selecteer alle drieën

drieen = X[y == 3]
print(f"Aantal afbeeldingen van het cijfer 3: {len(drieen)}")

In [None]:
# Opdracht 6b: Gemiddelde drie berekenen en visualiseren

gemiddelde_drie = np.mean(drieen, axis=0).reshape(28, 28)

plt.figure(figsize=(5, 5))
plt.imshow(gemiddelde_drie, cmap='gray')
plt.title('Gemiddelde afbeelding van het cijfer 3', fontsize=14)
plt.colorbar(label='Gemiddelde pixelwaarde')
plt.axis('off')
plt.show()

In [None]:
# Opdracht 6c: Gemiddelde acht berekenen en vergelijken

achten = X[y == 8]
gemiddelde_acht = np.mean(achten, axis=0).reshape(28, 28)

fig, axes = plt.subplots(1, 2, figsize=(10, 5))

im1 = axes[0].imshow(gemiddelde_drie, cmap='gray')
axes[0].set_title('Gemiddelde 3', fontsize=14)
axes[0].axis('off')
plt.colorbar(im1, ax=axes[0])

im2 = axes[1].imshow(gemiddelde_acht, cmap='gray')
axes[1].set_title('Gemiddelde 8', fontsize=14)
axes[1].axis('off')
plt.colorbar(im2, ax=axes[1])

plt.tight_layout()
plt.show()

In [None]:
# Opdracht 6d: Verschil visualiseren

verschil = gemiddelde_acht - gemiddelde_drie

fig, axes = plt.subplots(1, 3, figsize=(15, 5))

axes[0].imshow(gemiddelde_drie, cmap='gray')
axes[0].set_title('Gemiddelde 3', fontsize=14)
axes[0].axis('off')

axes[1].imshow(gemiddelde_acht, cmap='gray')
axes[1].set_title('Gemiddelde 8', fontsize=14)
axes[1].axis('off')

# Gebruik vmin en vmax om de schaal symmetrisch te maken
max_abs = np.abs(verschil).max()
im = axes[2].imshow(verschil, cmap='RdBu', vmin=-max_abs, vmax=max_abs)
axes[2].set_title('Verschil (8 - 3)', fontsize=14)
axes[2].axis('off')
plt.colorbar(im, ax=axes[2], label='Verschil')

plt.tight_layout()
plt.show()

print("In het verschilplaatje:")
print("  Rood = pixel is helderder in de 8 dan in de 3")
print("  Blauw = pixel is helderder in de 3 dan in de 8")
print("  Wit = geen verschil")

---

## Oefening 7: Reflectie - Oplossingen

**Vraag 7a - Aantal gewichten:**

Er zijn 784 input neuronen (één per pixel) en 128 neuronen in de verborgen laag. Elke input is verbonden met elke neuron in de verborgen laag, dus het totaal aantal gewichten is 784 × 128 = 100.352.

Daarnaast heeft elk neuron in de verborgen laag ook een bias term, wat nog eens 128 parameters toevoegt. Het totaal is dus 100.352 + 128 = 100.480 leerbare parameters in alleen de eerste laag.

In [None]:
# Berekening

input_neurons = 784
hidden_neurons = 128

gewichten = input_neurons * hidden_neurons
biases = hidden_neurons
totaal = gewichten + biases

print(f"Aantal gewichten: {input_neurons} × {hidden_neurons} = {gewichten:,}")
print(f"Aantal biases: {biases}")
print(f"Totaal parameters in eerste laag: {totaal:,}")

**Vraag 7b - Willekeurige gewichten:**

Nee, met willekeurige gewichten zou het netwerk niet goed presteren. Bij 10 mogelijke cijfers zou de verwachte nauwkeurigheid ongeveer 10% zijn, wat gelijk is aan willekeurig raden.

De gewichten bepalen hoe het netwerk de input transformeert. Willekeurige gewichten produceren willekeurige transformaties, die geen verband hebben met wat de input betekent. Het netwerk moet leren welke patronen in de pixels corresponderen met welke cijfers, en dit gebeurt door de gewichten systematisch aan te passen tijdens training.

**Vraag 7c - De gradiënt:**

De gradiënt van een functie geeft aan in welke richting de functie het snelst stijgt, en hoe snel deze stijging is. Voor een functie van meerdere variabelen is de gradiënt een vector met de partiële afgeleiden naar elke variabele.

Om een minimum te vinden, bewegen we in de tegengestelde richting van de gradiënt. Als de gradiënt positief is voor een bepaald gewicht, betekent dit dat de loss toeneemt als we dat gewicht verhogen, dus verlagen we het. Door herhaaldelijk kleine stapjes te nemen tegen de gradiënt in, "dalen" we naar een minimum van de loss functie.

**Vraag 7d - Waarom kansen?**

Een kansverdeling als output is nuttiger dan alleen het voorspelde cijfer om meerdere redenen.

Ten eerste geeft het informatie over de zekerheid van de voorspelling. Als het netwerk 95% zeker is, kunnen we de voorspelling vertrouwen. Als het slechts 30% zeker is, weten we dat we voorzichtig moeten zijn.

Ten tweede is het essentieel voor training. De loss functie vergelijkt de voorspelde kansen met de werkelijke labels. Als we alleen het voorspelde cijfer hadden, zouden we niet kunnen meten hoe "ver" de voorspelling ernaast zat.

Ten derde kunnen we de kansen gebruiken voor geavanceerdere beslissingen. Bijvoorbeeld, als de top 2 voorspellingen dicht bij elkaar liggen, kunnen we een menselijke expert vragen om te controleren.

---

## Bonusoefening: Pandas - Oplossing

In [None]:
# Bonusopdracht: Pandas DataFrame met MNIST statistieken

# Bereken statistieken voor elke afbeelding
gem_pixels = X.mean(axis=1)
max_pixels = X.max(axis=1)
niet_zwart = np.sum(X > 0, axis=1)

# Maak DataFrame
df = pd.DataFrame({
    'label': y,
    'gem_pixel': gem_pixels,
    'max_pixel': max_pixels,
    'niet_zwart': niet_zwart
})

print("Eerste 10 rijen van de DataFrame:")
print(df.head(10))

In [None]:
# Groepeer per cijfer en bereken gemiddelden

per_cijfer = df.groupby('label').mean()
print("Gemiddelde statistieken per cijfer:")
print(per_cijfer.round(2))

In [None]:
# Beantwoord de vragen

meeste_niet_zwart = per_cijfer['niet_zwart'].idxmax()
laagste_gem = per_cijfer['gem_pixel'].idxmin()

print(f"Cijfer met gemiddeld de meeste niet-zwarte pixels: {meeste_niet_zwart}")
print(f"Cijfer met de laagste gemiddelde pixelwaarde: {laagste_gem}")
print()
print("Dit is logisch: het cijfer 0 heeft veel pixels nodig om de lus te tekenen,")
print("terwijl het cijfer 1 relatief weinig pixels nodig heeft.")

In [None]:
# Visualiseer de resultaten

fig, axes = plt.subplots(1, 2, figsize=(12, 4))

per_cijfer['niet_zwart'].plot(kind='bar', ax=axes[0], color='steelblue')
axes[0].set_title('Gemiddeld aantal niet-zwarte pixels per cijfer')
axes[0].set_xlabel('Cijfer')
axes[0].set_ylabel('Aantal pixels')
axes[0].tick_params(axis='x', rotation=0)

per_cijfer['gem_pixel'].plot(kind='bar', ax=axes[1], color='coral')
axes[1].set_title('Gemiddelde pixelwaarde per cijfer')
axes[1].set_xlabel('Cijfer')
axes[1].set_ylabel('Pixelwaarde')
axes[1].tick_params(axis='x', rotation=0)

plt.tight_layout()
plt.show()

---

**Mathematical Foundations** | Les 1 Oplossingen | IT & Artificial Intelligence