<a href="https://colab.research.google.com/github/Broersen23/knn5vwo/blob/main/KNN5vwo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

De k-NN-classifier werkt als volgt; in plaats van alleen de dichtstbijzijnde buur te gebruiken, kijkt deze naar de **k** dichtstbijzijnde buren en kiest dan de meest voorkomende klasse binnen die groep. Met **k = 1** doet k-NN precies hetzelfde als de gewone NN-classifier: het baseert zich op de  dichtstbijzijnde buur. Als we waarde 3 kiezen gaan we de drie dichtbijzijnste buren bekijken.

### Voorbeeld:

Stel dat we het volgende voorbeeld bekijken waarin een testpunt (groene stip) geclassificeerd moet worden als behorend bij ofwel blauwe vierkantjes ofwel rode driehoekjes:

![titel of alt-tekst](https://raw.githubusercontent.com/Broersen23/knn5vwo/2b56c372de8c57b61752acc16db4903e3164f98b/nearest%20sample.png
)

- Bij **k = 1** wordt het testpunt geclassificeerd als een rode driehoek, omdat de dichtstbijzijnde buur een rode driehoek is.
- Bij **k = 3** (de volle cirkel) zijn er 2 rode driehoeken en 1 blauw vierkant → resultaat: rode driehoek.
- Bij **k = 5** (de gestippelde cirkel) zijn er 3 blauwe vierkanten en 2 rode driehoeken → resultaat: blauw vierkant.

Net als Nearest Neighbour is k-NN een **classificatie-algoritme**: het voorspelt de klasse van een nieuw voorbeeld op basis van data waarvan je de juiste classificatie al weet (de trainingsdata). Beide methodes gebruiken dezelfde soort data, maar k-NN kijkt naar meer buren bij het maken van een voorspelling.

Bijvoorbeeld: je wil voorspellen of een nieuwe banktransactie **frauduleus** is. Je vergelijkt de nieuwe transactie met eerdere transacties op basis van kenmerken zoals het bedrag, het land van herkomst, tijdstip, enzovoort. Als je weet welke van die eerdere transacties fraude waren, kun je die kennis gebruiken om de nieuwe transactie te beoordelen.

---

## Nearest Neighbour (NN)

We beginnen simpel, met het vinden van de **dichtstbijzijnde buur**. We gebruiken hiervoor de **Euclidische afstand** (rechte lijn-afstand) om te bepalen wat de dichtstbijzijnde buur is.

### Euclidische Afstand
<img src="https://raw.githubusercontent.com/Broersen23/knn5vwo/dce75d5fb6920b9d8ce0df1c637af94a5693bf7b/pythagoras.png" width="300"/>

De afstand `d` tussen punt `p` met coördinaten `(px, py)` en punt `q` met coördinaten `(qx, qy)` is:

$$
\text{dist}(p, q) = \sqrt{ (x_1 - x_2)^2  +(y_1 - y_2)^2}
$$

Een ander voordeel van het op deze manier opschrijven, is dat we dan ook de **hoofdletter sigma-notatie** kunnen gebruiken om de formule voor de Euclidische afstand in een **algemene vorm** te schrijven. Daarmee werkt de formule voor **elk aantal dimensies**:

$$
\text{dist}(p, q) = \sqrt{ \sum_{i=1}^{d} (p_i - q_i)^2 }
$$

Hierbij is \( d \) het aantal dimensies (of assen) waarover je de afstand wilt berekenen.  
Als we \( d = 2 \) gebruiken, dan krijgen we precies de eerdere formule terug.  
Maar we zouden ook \( d = 7 \) of \( d = 24 \) kunnen gebruiken — of elk ander positief geheel getal.

Let op: bij meer dan 2 dimensies wordt het moeilijk om de afstand **grafisch te tonen**, dus houden we het voorlopig op 2.

---

### Opdracht 1: Bereken de afstand

Maak de functie `dist(p, q)` hieronder af. Deze functie moet de **Euclidische afstand** berekenen tussen twee coördinatenlijsten `p` en `q`, en het resultaat teruggeven.
We schrijven een functie die de afstand berekent tussen twee punten in een vlak.
Elk punt is een lijst met twee getallen: de x- en de y-coördinaat.

Bijvoorbeeld:

Punt A: [1, 2] → dat betekent: x = 1, y = 2

Punt B: [3, 4] → dat betekent: x = 3, y = 4

We willen nu de rechte lijn afstand tussen die twee punten berekenen, oftewel de Euclidische afstand.
Je mag ervan uitgaan dat `p` en `q` altijd 2D zijn (dus \( d = 2 \)) — ze hebben dus **altijd precies 2 getallen**:  

- index `0` is de x-waarde  
- index `1` is de y-waarde

ofwel a[0] = 1   Zie jij dit ook?

Gebruik `math.sqrt(...)` uit de `math`-bibliotheek om de vierkantswortel te berekenen.

> 💡 Tip: De functie hoeft alleen te werken voor \( d = 2 \), maar het is een leuke uitdaging om hem ook te laten werken voor elk willekeurig \( d \)!


In [None]:
import math

# Vraag1: Wat is de waarde van b[1]?
antwoord = ...

def dist(p, q):
    #vul hier iets in

a = [1, 2]
b = [3, 4]

distance = dist(a, b)
print(f'The distance between the points {a} and {b} is {distance:.4f}')

In [None]:
# Testing cell
# Automatische check

assert antwoord == -6 + 12 - 3 - 3 + 2 + 2, "Oeps! b[1] is het tweede getal in de lijst."
print("vraag1:✅ Goed gedaan! Je snapt hoe indexeren werkt.")

assert abs(dist(a, b) - math.sqrt(8)) < 10**-10, 'Something is wrong in your calculation.';
print('def goed ingevuld?:✅ Goed gedaan! Je snapt hoe je de functie moest invullen.')

## Trainingsdata

Nu we de afstand tussen twee punten kunnen berekenen, kunnen we ook het dichtstbijzijnde punt bepalen uit een verzameling coördinaten. Dit kun je doen door **elke punt één voor één te bekijken**, en steeds bij te houden:
- welk punt op dat moment het dichtstbij is,
- en wat de bijbehorende afstand is.

Hieronder zie je de dataset die we in de rest van deze opdracht gaan gebruiken. Elk punt wordt weergegeven als een lijst van coördinaten, waarbij de eerste waarde overeenkomt met de **x-as** en de tweede waarde met de **y-as**.

De volledige verzameling punten wordt opgeslagen in een lijst met de naam `training_points`. Voor elk van deze punten is er ook een **klasse** (label), die aangeeft bij welke groep het punt hoort. Er zijn twee mogelijke klassen: `-1` en `1`.

Als we het voorbeeld van fraude-detectie gebruiken:
- `-1` betekent bijvoorbeeld dat **geen fraude** is vastgesteld,
- `1` betekent dat **wel fraude** is gevonden.

De klassen van de punten worden apart opgeslagen in de lijst `training_classes`. Elk punt in `training_points` heeft **precies één bijbehorende klasse**, en die staat op dezelfde index in `training_classes`.

📌 Voorbeeld:
- Het punt op index `3` in `training_points` is `[35, 20]`
- Als we willen weten bij welke klasse dat hoort, kijken we naar index `3` in `training_classes`
- Daar vinden we: `1` → dus dat punt wordt als **fraude** beschouwd

---

De functie `plot_points()` is hieronder al voor je geschreven. Lees de code goed door en zorg dat je begrijpt wat er gebeurt.  
Voer daarna de code uit om de **grafiek** van de trainingsdata te bekijken en te zien hoe de punten verdeeld zijn.


In [None]:
%matplotlib inline

import matplotlib.pyplot as plt


# Training data
training_points = [[20, 14], [9, 23], [2, 4], [35, 20], [39, 9], [34, 5],
                   [18, 18], [22, 4], [3, 30], [26, 35], [16, 38]]

training_classes = [1, -1, -1, 1, 1, 1, -1, 1, -1, 1, -1]


def plot_points(points, classes):
    # Loop over all the indices i from 0 to the length of the points list
    for i in range(len(points)):

        # Get the i-th point and the i-th class from the lists
        point = points[i]
        point_class = classes[i]

        # Color points with class 1 blue
        point_color = 'blue'

        # Color points with class -1 red
        if point_class == -1:
            point_color = 'red'

        # Plot each point using the x-value at position 0 and the y-value
        # at position 1. Plot the point with the correct color for its class.
        plt.scatter(x=point[0], y=point[1], color=point_color)

    plt.show()

plot_points(training_points, training_classes)

## Opdracht 2: Het dichtstbijzijnde punt vinden

Stel dat we een **nieuw punt** hebben dat we willen classificeren, genaamd `test_point`.  
Om dit punt te kunnen classificeren, moeten we eerst bepalen welk punt uit de trainingsdata het **dichtstbij** ligt.

Voor nu hoef je je **nog niet bezig te houden met de klasse (label)** van dat punt — het enige wat je hoeft te doen is bepalen **welk punt het dichtstbij ligt bij `test_point`**.

---

### 🔧 Wat moet je doen?

Vul de code hieronder aan zodat je het punt vindt dat het dichtstbij `test_point` ligt, vanuit de lijst `training_points`.

Gebruik hiervoor de functie `dist()` die je eerder hebt gemaakt. Daarmee kun je de afstand berekenen tussen twee punten.

Sla het resultaat op in de volgende variabelen:
- `nearest_point`: het dichtstbijzijnde punt zelf
- `nearest_distance`: de afstand tot dat punt

---

> 🔁 **Let op:** In een echte programmeeromgeving zou je voor dit soort herhalende code meestal een aparte functie schrijven.
>
> Maar voor deze opdracht is het prima om de code gewoon te **kopiëren en plakken** wanneer je het later opnieuw nodig hebt.
> Je kunt de code dan aanpassen waar nodig. In andere modules gaan we nog verder in op het schrijven van nette en herbruikbare code.


In [None]:
# Our test point, to which we want to find the closest training point
test_point = [21, 25]

# Set current closest distance to something very far away
nearest_distance = math.inf
nearest_point = None

# Loop over the indices in the training_points list
for i in range(len(training_points)):
    point = training_points[i]
    #afstand is roep functie dist aan met point en test point

    #als de afstand kleiner is nearest_distance hebben een nieuwe dichtbijzijndse punt
    #maak dan deze kleinste afstand de nieuwe afstand en sla ook het punt op in nearest punt



## Controleren van je resultaten

Hieronder zie je een visualisatie van het testpunt en een codecel die controleert of jouw oplossing klopt.  
Zorg ervoor dat alles correct werkt en dat je begrijpt wat het resultaat betekent, **voordat je doorgaat naar de volgende opdracht**.


In [None]:
# Plot the test point in green
plt.scatter(x=test_point[0], y=test_point[1], color='green')

# Add the training points to the plot
plot_points(training_points, training_classes)

# Print the results
print(f'The closest training point to the test point is at {nearest_point}')

In [None]:
# Testing cell
assert abs(nearest_distance - math.sqrt(58)) < 10**-10, 'This is not the correct distance.'
assert nearest_point == [18, 18], 'This is not the closest point.'; print('Solution seems correct!')

## Opdracht 3: Nearest Neighbour-classifier

Om het testpunt te kunnen classificeren, moeten we **naast het dichtstbijzijnde trainingspunt vinden**, ook weten **welke klasse** dat punt heeft.  
Als we dat kunnen bepalen, hebben we eigenlijk al een complete **Nearest Neighbour-classifier** gebouwd!

---

### 🔧 Wat ga je maken?

Hieronder staat de functie `nearest_neighbour`, die je moet afmaken.  
Deze functie voert het classificatie-algoritme uit.

De functie krijgt drie argumenten:

1. `p`: het onbekende punt dat je wilt classificeren
2. `points`: een lijst met bekende punten (coördinaten)
3. `classes`: een lijst met de bijbehorende klassen (labels)

Je mag ervan uitgaan dat:
- de **indexen** in `points` en `classes` bij elkaar horen
- dus: het punt op index `i` heeft zijn klasse op index `i` in de `classes`-lijst

---

### ✅ Wat moet de functie doen?

- Vind het dichtstbijzijnde punt in de `points`-lijst, vergeleken met `p`
- Kijk welke klasse dat punt heeft in de `classes`-lijst
- Geef die klasse terug als resultaat (bijv. `-1` of `1`)

Deze waarde noemen we: `nearest_point_class`

---

### 💡 Tip:

Je mag (en moet!) delen van je code uit de vorige opdracht hergebruiken.  
Let wel op een belangrijk verschil:  
In deze functie werk je met **argumenten** (`points`, `classes`),  
en **niet** meer met de globale variabelen `training_points` en `training_classes`.

Door de gegevens via parameters mee te geven, kun je dezelfde functie gebruiken voor verschillende datasets — veel flexibeler dus!  
In het algemeen geldt: gebruik liever **functie-argumenten** dan globale variabelen.


In [None]:

def nearest_neighbour(p, points, classes):
    # Set current closest distance to something very far away
    nearest_distance = math.inf
    nearest_point = None
    nearest_point_class = None

    # Loop over the indices in the points list
    for i in range(len(points)):

        # YOUR CODE HERE

    return nearest_point_class


# Classify the test point based on the nearest neighbour
test_class = nearest_neighbour(test_point, training_points, training_classes)

print(f'The class of the closest training point to the test point is {test_class}')

In [None]:
# Testing cell
assert nearest_neighbour([11, 17], training_points, training_classes) == -1, 'Classification is incorrect!'
assert nearest_neighbour([35, 30], training_points, training_classes) == 1, 'Classification is incorrect!'
assert nearest_neighbour([10, 35], training_points, training_classes) == -1, 'Classification is incorrect!'

assert nearest_neighbour([30, 31], [[33, 45], [55, 60]], [5, 7]) == 5, 'Incorrect use of global variables!'
assert nearest_neighbour([57, 62], [[33, 45], [55, 60]], [5, 7]) == 7, 'Incorrect use of global variables!'
assert test_class == -1, 'Incorrect class for the test point.'; print('Solution seems correct!')

## Visualisatie van classificatieresultaten

Laten we nu proberen om de **juiste klasse (label)** te visualiseren van het dichtstbijzijnde trainingspunt, voor elk mogelijk testpunt in dit vlak.  
Hiervoor kunnen we een zogeheten **Voronoi-diagram** maken. Dit is een verdeling van het vlak in verschillende gebieden, waarbij elk gebied bestaat uit alle punten die het dichtstbij een specifiek datapunt liggen.

Dit komt precies overeen met wat een **Nearest Neighbour-classifier** doet!

We kunnen dan elk gebied een kleur geven:
- Gebieden met klasse `1` kleuren we **blauw**
- Gebieden met klasse `-1` kleuren we **rood**

Als het diagram klaar is, kun je **alleen op basis van de kleur** zien wat de klasse is van elk nieuw testpunt.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/54/Euclidean_Voronoi_diagram.svg/1024px-Euclidean_Voronoi_diagram.svg.png" width="300"/>



---

### 🔲 Decision Boundary

De zwarte lijn in deze afbeelding noemen we de **beslissingsgrens** (*Decision Boundary*).  
Dat is de grens in het vlak waar de voorspelde klasse omschakelt van de ene naar de andere.

Punten die precies op deze grens liggen, zijn **even ver verwijderd** van het dichtstbijzijnde blauwe punt als van het dichtstbijzijnde rode punt.  
Voor zulke punten is het lastig te zeggen wat de juiste klasse is — ze liggen precies op het kantelpunt.  
Vaak wordt er dan willekeurig een klasse gekozen om de "gelijkstand" te doorbreken.

---

## Opdracht 4: Benader de classificatieverdeling door te samplen

Een **exact Voronoi-diagram maken** is behoorlijk ingewikkeld,  
maar we kunnen een **goede benadering** maken door:
1. Een groot aantal punten in het vlak te samplen (uitproberen)
2. Voor elk van die punten te bepalen wat het dichtstbijzijnde trainingspunt is
3. De bijbehorende klasse te gebruiken voor de kleur van dat samplepunt

---

Hieronder vind je al wat code die de x- en y-coördinaten afloopt en samplepunten maakt.

Maak de code af zodat:
- De lijst `sample_points` gevuld wordt met coördinaten van testpunten
- De lijst `sample_classes` gevuld wordt met de juiste klasse van elk testpunt

Gebruik hiervoor jouw eerder gemaakte functie `nearest_neighbour()` om voor elk testpunt te bepalen welke klasse het krijgt.

Het resultaat moet een ruwe (maar duidelijke) benadering zijn van het echte Voronoi-diagram hierboven.  
Denk goed na over **waarom** jouw resultaat op het diagram lijkt, **voordat je doorgaat naar het volgende deel**.


In [None]:
# Aantal samplepunten in de x- en y-richting
N = 40

# Lijsten om samplepunten en hun voorspelde klassen in op te slaan
sample_points = []
sample_classes = []

# Loop over alle x- en y-coördinaten binnen het bereik
for x in range(N):
    for y in range(N):
        # Maak een nieuw testpunt (sample point) aan op locatie (x, y)
        point = [x, y]

        # Bepaal de voorspelde klasse met behulp van de classifier


        # Voeg het testpunt toe aan de sample_points-lijst


        # Voeg de voorspelde klas toe aan de sample_classes-lijst


# Visualiseer alle samplepunten met hun voorspelde klasse
plot_points(sample_points, sample_classes)


## k-Naaste Buren (k-Nearest Neighbours)

Nu we een complete methode hebben om de **dichtstbijzijnde buur** (Nearest Neighbour) te vinden, is de stap naar het vinden van de **k dichtstbijzijnde buren** (k-Nearest Neighbours) eigenlijk heel klein.

We kunnen gewoon onze methode om de dichtstbijzijnde buur te vinden **herhalen, k keer**, waarbij we elke keer punten overslaan die we al eerder als dichtstbijzijnde buur hebben gevonden.

---

## 🔑 Het `in` keyword

Er zijn verschillende manieren om punten over te slaan die je al hebt gevonden.  
De eenvoudigste methode is om het Python-keyword `in` te gebruiken, samen met een `if`-statement, om te controleren of een element al in een lijst voorkomt.

---




In [None]:
### ✏️ Voorbeeld: controleer of een punt in een lijst zit

```python
example_list = [[10, 12], [13, 4], [20, 5]]

for point in [[20, 5], [30, 3]]:
    point_present = point in example_list
    print(f'\nHet punt {point} zit in de lijst {example_list} : {point_present}')

    if point in example_list:
        print('✅ Het punt is gevonden!')

    if point not in example_list:
        print('❌ Het punt is niet gevonden.')

 Opdracht 5: Vind de k dichtstbijzijnde buren

Maak de onderstaande code af om alle k dichtstbijzijnde buren van test_point te vinden.

Gebruik hiervoor je code uit de functie nearest_neighbour() van eerder. Je moet die logica hier herhalen.

✅ Wat moet je doen?
Herhaal het zoeken van de dichtstbijzijnde buur k keer
Zorg dat je bij elke herhaling een ander punt vindt
Houd een lijst bij van de al gevonden buren (neighbours_points)
Vergelijk alleen nog punten die nog niet eerder als buur zijn gekozen
Voeg na elke herhaling de gevonden buur en de bijbehorende klasse toe aan:
neighbours_points
neighbours_classes
Gebruik het in keyword om te controleren of een punt al eerder gekozen is, zoals in het voorbeeld hierboven.

Let op: deze code staat niet in een functie, dus gebruik je hier weer de globale variabelen training_points, training_classes en test_point.

💡 Optioneel
De oplossing hieronder is niet efficiënt, want je herberekent steeds alle afstanden.
Wil je een extra uitdaging? Probeer dan een efficiëntere manier te bedenken om de k dichtstbijzijnde buren te vinden zonder telkens alles opnieuw uit te rekenen.

In [None]:
# Aantal buren om te vinden
k = 3

# Lijsten om de buren en hun klassen op te slaan
neighbours_points = []
neighbours_classes = []

# Herhaal het zoeken van de dichtstbijzijnde buur k keer
for k_count in range(k):
    # Begin met een heel grote afstand
    nearest_distance = math.inf
    nearest_point = None
    nearest_point_class = None

    # YOUR CODE HERE
    # → Loop over alle trainingspunten
    # → Sla over als het punt al in neighbours_points zit
    # → Bereken afstand tot test_point
    # → Als deze afstand kleiner is dan nearest_distance:
    #     → sla het punt en de klasse op

# Toon de resultaten
print(f'De {k} dichtstbijzijnde buren van het testpunt zijn: {neighbours_points}')
print(f'De klassen van deze {k} buren zijn: {neighbours_classes}')


In [None]:
# Test of het resultaat klopt
assert neighbours_points == [[18, 18], [20, 14], [26, 35]], 'Je hebt niet de juiste buren gevonden.'
print('✅ Oplossing lijkt te kloppen!')


## Opdracht 6: Bepaal de voorspelde klasse

Nu moeten we code toevoegen om de **voorspelde klasse** te bepalen van een onbekend datapunt.  
Bij k-NN doen we dit door te kijken naar de **meest voorkomende klasse** onder de k dichtstbijzijnde buren.

Omdat we eerder hebben gezegd dat er maar twee mogelijke klasses zijn (`-1` en `1`), kunnen we dit heel eenvoudig doen door:

1. De klasses van de buren bij elkaar op te tellen
2. Te kijken of de **som** positief, negatief of precies nul is

---

### 🧠 Wat betekent de som?

- Als de som **positief** is → er zijn **meer buren met klasse `1`**
- Als de som **negatief** is → er zijn **meer buren met klasse `-1`**
- Als de som precies **nul** is → er zijn **evenveel buren met klasse `-1` als met `1`**

In dat laatste geval (gelijkspel) mag je zelf kiezen:
- Altijd toewijzen aan `1`, **of**
- Altijd toewijzen aan `-1` — maak daarin een keuze en blijf daarbij.

---

### 🧩 Wat moet je doen?

- Loop over de lijst `neighbours_classes` (die je eerder hebt gemaakt)
- Tel alle klasses bij elkaar op (dus `-1` en `1`)
- Kijk naar het teken van de som:
  - Positief → `predicted_class = 1`
  - Negatief → `predicted_class = -1`
  - Gelijk aan 0 → kies er één (bijv. `1`)
- Sla het resultaat op in de variabele `predicted_class`


In [None]:
# Begin met optellen van alle klasses van de buren
som = sum(neighbours_classes)

# Bepaal de voorspelde klasse op basis van het teken van de som
if som > 0:
    predicted_class =   #wat moet hier?
elif som < 0:
    predicted_class =    #wat moet hier?
else:
    predicted_class =   # Kies zelf of je hier 1 of -1 gebruikt bij gelijkspel

# Toon het resultaat
print(f'The predicted class for the test point is {predicted_class}.')


## Opdracht 7: Bouw je eigen k-Nearest Neighbour-classifier

Tot slot hoeven we alleen nog de laatste twee stappen te combineren in één functie: `knn()`.

---

### 🔧 Wat doet de functie?

De functie `knn()` moet het volgende doen:
- Ontvangen:
  - een onbekend punt `p`
  - een lijst van bekende punten (`points`)
  - een lijst met bijbehorende klassen (`classes`)
  - een getal `k` dat aangeeft hoeveel buren je wilt gebruiken
- Teruggeven:
  - de voorspelde klasse `predicted_class` voor punt `p`,  
    op basis van de **k dichtstbijzijnde buren** uit de meegegeven gegevens

---

### 📌 Belangrijk:

Deze functie moet **alleen afhankelijk zijn van de argumenten** die aan de functie worden meegegeven.  
Je mag dus **geen globale variabelen gebruiken** zoals `training_points`, `training_classes` of `test_point`.

Zorg ervoor dat je alles wat je nodig hebt als **parameter** in de functie opneemt.

---

### 🧠 Wat moet de functie doen (samengevat)?

1. Vind de k dichtstbijzijnde buren van `p` (zoals je eerder hebt gedaan)
2. Bepaal de klasses van deze buren
3. Bereken de som van deze klasses
4. Bepaal de voorspelde klasse (`-1` of `1`) op basis van de som
5. Geef deze `predicted_class` terug als resultaat van de functie


In [None]:
def knn(p, points, classes, k):
    # Hierin slaan we de k dichtstbijzijnde punten op die we al gevonden hebben
    neighbours_points = []

    # Hierin slaan we de klassen (labels) van die punten op
    neighbours_classes = []

    # Herhaal het zoeken van de dichtstbijzijnde buur k keer
    for _ in range(k):
        # Start met een hele grote afstand, zodat elk echt punt dichterbij is
        nearest_distance = math.inf
        nearest_point = None
        nearest_point_class = None

        # Loop door alle trainingspunten heen
        for i in range(len(points)):
            point = points[i]

            # Sla dit punt over als we het al eerder als buur hebben gekozen
            if point in neighbours_points:
                continue

            # Bereken de afstand tussen p en het trainingspunt
            afstand = dist(p, point)

            # Als dit punt dichterbij is dan wat we tot nu toe hadden:
            if afstand < nearest_distance:
                nearest_distance = afstand            # sla de nieuwe kleinste afstand op
                nearest_point = point                # sla het punt zelf op
                nearest_point_class = classes[i]     # sla ook de bijbehorende klasse op

        # Voeg de gevonden buur toe aan de lijst met buren
        neighbours_points.append(nearest_point)

        # Voeg de klasse van deze buur toe aan de lijst met klassen
        neighbours_classes.append(nearest_point_class)

    # Tel alle klasses bij elkaar op (bv. -1, 1, 1 → som = 1)
    som = sum(neighbours_classes)

    # Bepaal de voorspelde klasse op basis van het teken van de som
    if som > 0:
        predicted_class = 1
    elif som < 0:
        predicted_class = -1
    else:
        predicted_class = 1  # Bij gelijkspel kiezen we bijvoorbeeld altijd 1

    # Geef de voorspelde klasse terug
    return predicted_class



In [None]:
# Testing cell
assert knn(test_point, training_points, training_classes, 3) == 1, "Incorrect classification"
assert knn(test_point, training_points, training_classes, 5) == -1, "Doesn't work correctly with larger k"
assert knn(test_point, training_points, training_classes, 9) == 1, "Doesn't work correctly with larger k"

assert knn([20, 10], training_points, training_classes, 3) == 1, "Doesn't work correctly with new points"
assert knn([10, 30], training_points, training_classes, 3) == -1, "Doesn't work correctly with new points"

assert knn([30, 31], [[33, 45], [55, 60]], [1, -1], 1) == 1, 'Incorrect use of global variables in knn'
assert knn([57, 62], [[33, 45], [55, 60]], [1, -1], 1) == -1, 'Incorrect use of global variables in knn'
assert test_class == 1, 'The test point was classified incorrectly.'; print('Solution seems correct!')

## Opdracht 8: Visualisatie van k-NN

Wanneer je een dataset onderzoekt of een algoritme evalueert, kan het maken van duidelijke visualisaties van de data **heel waardevol** zijn.  
Een **interactieve datavisualisatie** geeft je zelfs de mogelijkheid om bepaalde onderdelen van het algoritme te veranderen tijdens het kijken.  
Soms geeft dit meer inzicht dan een statisch plaatje.

---

### 🧪 Wat ga je doen?

Hieronder hebben we alvast wat code voor je klaargezet om een **interactieve versie** te maken van de eerdere k-NN-visualisatie, met behulp van `ipywidgets`.

Maak deze functie af zodat:

- De lijst `sample_points` gevuld wordt met testpunten (zoals eerder)
- De lijst `sample_classes` gevuld wordt met de bijbehorende voorspelde klassen

Gebruik uiteraard je eerder gemaakte functie `knn()` om voor elk testpunt de klasse te bepalen op basis van de **k dichtstbijzijnde buren**.

---

### ⏳ Let op:

De interactieve grafiek **kan even duren** om te laden.  
Dat komt doordat het k-NN-algoritme voor **elke punt in de grafiek opnieuw** wordt uitgevoerd.  
Wanneer je de schuifregelaar gebruikt om de waarde van `k` aan te passen, zul je dus **even geduld** moeten hebben voordat de nieuwe grafiek verschijnt.


In [None]:
from ipywidgets import interact, fixed
import ipywidgets as widgets

def plot_knn(k, points, classes):
    # Aantal samplepunten in x- en y-richting
    N = 40

    # Lijsten waarin we samplepunten en voorspelde klasses opslaan
    sample_points = []
    sample_classes = []

    # Loop over alle x- en y-coördinaten
    for x in range(N):
        for y in range(N):
            # Maak een nieuw samplepunt
            sample = [x, y]

            # YOUR CODE HERE:
            # - Voeg het punt toe aan sample_points
            # - Bepaal de voorspelde klas met je knn() functie
            # - Voeg de voorspelde klas toe aan sample_classes

    # Teken de visualisatie
    plot_points(sample_points, sample_classes)

# Maak een interactieve slider voor k
interact(
    plot_knn,
    k=widgets.IntSlider(value=1, min=1, max=11, step=2, continuous_update=False),
    points=fixed(training_points),
    classes=fixed(training_classes)
);


**Vraag 1**  
Tot nu toe hebben we in dit notebook alleen oneven waarden voor `k` gebruikt.  
Welk mogelijk probleem kan optreden als je een **even** waarde gebruikt voor `k`?  
Bijvoorbeeld: `k = 2`, `k = 4`, `k = 6`, enzovoort.

_Jouw antwoord komt hier...

**Vraag 2**  
Wat lijkt er te gebeuren met de classificaties als `k = 11` is?  
Waarom gebeurt dit?


_Jouw antwoord komt hier...

**Vraag 3**  
Wat is de **afweging (trade-off)** die je maakt wanneer je de waarde van `k` verhoogt?


_Jouw antwoord komt hier...

**Vraag 4**  
Wanneer zou je liever een **kleine waarde** voor `k` gebruiken, en wanneer een **grotere waarde**?


_Jouw antwoord komt hier...