# Introduktion til KNN-algoritmen af Henrik Sterner (hst@nextkbh.dk)
KNN er en af de mest simple algoritmer indenfor maskinelæring. Den er så simpel at den kan implementeres i få linjer kode. Den er dog også en af de mest anvendte algoritmer, og den er en god introduktion til maskinelæring.

Grunden til at KNN er så simpel er at den ikke laver nogen form for generalisering. Den gemmer blot alle træningsdata og sammenligner med disse når den skal forudsige en ny værdi.

KNN er en såkaldt supervised learning algoritme, hvilket betyder at den skal bruge træningsdata, hvor den kender både input og output. I dette tilfælde er inputtet en vektor af tal, og outputtet er en kategori. Kategorien kunne være om en person er mand eller kvinde, om en blomst er en rose eller en tulipan, eller om en person er syg eller rask.

Selvom den er simpel, så er den også en af de mest anvendte algoritmer. Det skyldes at den er hurtig og ofte giver gode resultater. Den er også nem at forstå og nem at implementere.


## Pseudokode for 1-NN fra bunden i planen
I det følgende vil vi gennemgå koden for 1-NN-algoritmen i planen.

Betragt nogle punkter i 2D-planen. De er på formen (x,y) og hvert punkt har en farve. Enten rød eller blå.

For 1-NN-algoritmen har vi nogle punkter som vi kender farven på. Vi kalder dem træningspunkterne.

Målet for 1-NN er at finde farven på et nyt punkt, som vi ikke kender farven på. Vi kalder det for testpunktet.

Herunder en forklaring af 1-NN-algoritmen i pseudokode.

```python
# 1-NN-algoritmen
# Input:
#   træningspunkter: en liste af punkter med kendt farve
#   testpunkt: et punkt som vi ikke kender farven på
# Output:
#   farven på testpunktet

```
Herunder i detaljer hvorledes algoritmen fungerer:

```python
# 1. Beregn afstanden mellem testpunktet og hvert træningspunkt
# 2. Find det træningspunkt som er tættest på testpunktet
# 3. Returner farven på det træningspunkt
```

I det følgende vil vi gennemgå koden for 1-NN-algoritmen i planen, hvor vi ikke 
indbyggede biblioteker herunder numpy, scikit, matplotlib etc. 

Først genererer vi nogle punkter i 2D-planen. De er på formen (x,y) og hvert punkt har en farve. Enten rød eller blå.





## Pseudokode for KNN fra bunden i planen
I det følgende vil vi gennemgå koden for KNN-algoritmen i planen.

Betragt nogle punkter i 2D-planen. De er på formen (x,y) og hvert punkt har en farve. Enten rød eller blå. 
I princippet kan rød eller blå erstatte med 0 eller 1, eller med sand eller falsk, eller alle mulige andre værdier. Eksempler på disse værdier kaldes klasser. De kunne eksempelvis være: 
- 0 eller 1
- sand eller falsk
- rød eller blå
- mand eller kvinde
- kat eller hund
- kræft eller ikke kræft
- Trump eller Biden
- osv.

Vi har nogle punkter som vi kender farven på. Vi kalder dem træningspunkterne. 

Målet for KNN er at finde farven på et nyt punkt, som vi ikke kender farven på. Vi kalder det for testpunktet.

Herunder en forklaring af KNN-algoritmen i pseudokode. 

```python
# KNN-algoritmen
# Input:
#   træningspunkter: en liste af punkter med kendt farve
#   testpunkt: et punkt som vi ikke kender farven på
#   k: antal punkter vi vil sammenligne med
# Output:
#   farven på testpunktet

```
Herunder i detaljer hvorledes algoritmen fungerer:

```python
# 1. Beregn afstanden mellem testpunktet og hvert træningspunkt
# 2. Sorter træningspunkterne efter afstand til testpunktet
# 3. Vælg de k nærmeste træningspunkter
# 4. Tæl antallet af røde og blå punkter blandt de k nærmeste
# 5. Hvis der er flere røde end blå punkter, returner rød
# 6. Ellers returner blå
```

## Implementation af KNN i Python fra bunden
I det følgende vi implementere KNN-algoritmen i Python i 2d fra bunden. .

Vi starter med at importere de nødvendige biblioteker:
```python
import math
import random
import numpy as np
import matplotlib.pyplot as plt
```
Vi definerer en funktion til at generere tilfældige punkter i 2d:

```python
def generate_points(n):
    points = []
    for i in range(n):
        x = random.uniform(-1,1)
        y = random.uniform(-1,1)
        points.append((x,y))
    return points

Vi bemærker, at random.uniform returnerer et tal mellem -1 og 1. Vi kan derfor bruge den til at generere en liste af tal mellem -1 og 1. 

Lad os afprøve funktionen:
```python
points = generate_points(10)
print(points)
```
Vi kan nu visualisere punkterne i et koordinatsystem:
```python
def plot_points(points):
    x = [p[0] for p in points]
    y = [p[1] for p in points]
    plt.scatter(x,y)
    plt.show()
```
Vi kan nu afprøve funktionen:
```python
plot_points(points)
```

Vi kan nu generere to lister af punkter, som vi kan bruge til at træne vores KNN-algoritme på. Vi genererer 1000 punkter i hver liste:
```python
points1 = generate_points(1000)
points2 = generate_points(1000)
```

Vi kan nu visualisere de to lister af punkter:
```python
plot_points(points1)
plot_points(points2)
```

Vi kan nu definere en funktion til at beregne afstanden mellem to punkter:
```python
def distance(p1,p2):
    return math.sqrt((p1[0]-p2[0])**2+(p1[1]-p2[1])**2)
```

Vi kan nu afprøve funktionen:
```python
print(distance((0,0),(1,1)))
```

Vi kan nu definere en funktion til at finde de k nærmeste naboer til et punkt:
```python
def find_k_nearest_neighbors(p,points,k):
    distances = []
    for point in points:
        distances.append((distance(p,point),point))
    distances.sort()
    return distances[:k]
```
Her sørger sort for at sortere listen af tupler efter den første værdi i tuplen, som er afstanden. Vi kan nu afprøve funktionen:
```python
print(find_k_nearest_neighbors((0,0),points1,5))
```

Vi kan nu definere en funktion til at finde den hyppigste klasse blandt de k nærmeste naboer:
```python
def find_most_frequent_class(neighbors):
    classes = {}
    for neighbor in neighbors:
        if neighbor[1] in classes:
            classes[neighbor[1]] += 1
        else:
            classes[neighbor[1]] = 1
    return max(classes, key=classes.get)
```
I denne kode bruger vi en dictionary til at tælle antallet af forekomster af hver klasse. Vi bruger max til at finde den klasse, som optræder flest gange.

Vi kan nu afprøve funktionen:
```python
print(find_most_frequent_class(find_k_nearest_neighbors((0,0),points1,5)))
```

Så er vi endelig klar til at definere vores KNN-algoritme:
```python
def knn(p,points,k):
    neighbors = find_k_nearest_neighbors(p,points,k)
    return find_most_frequent_class(neighbors)
```

Vi kan nu afprøve funktionen:
```python
print(knn((0,0),points1,5))
```
eller
```python
print(knn((0,0),points2,5))
```

Vi bemærker, at vi undervejs har løst problemet ved at opdele det i mindre delproblemer, som vi har løst enkeltvis. Dette er en generel strategi, som vi vil bruge igen og igen.
Det ses bl.a. ved at vi har defineret funktioner for at løse delproblemerne. Det er en god ide at opdele problemer i mindre delproblemer, da det ofte gør det nemmere at løse dem.

