# 2.4. Nächste-Nachbarn-Klassifikation

>## <ins>Table of contents</ins>
>* [**2.2.1. Klassifikation und Logistische Regression**](#klassifikation)
    * [**Die Logistische Regression (Sigmoid-Funktion)**](#lr)
    * [**Kostenfunktion L<sub>logit</sub>(D, f)**](#L_logit)
>* [**2.2.2. Evaluation**](#evaluation)
>* [**2.2.3. Mehrklassenklassifizierung**](#mehrklassenklassifizierung)
>* [**2.2.4. Nicht-lineare Modelle**](#nl_modelle)
>* [**2.2.5. Andere Beispiele**](#beispiele)
>* [**2.2.6. Zusammenfassung**](#zusammenfassung)
>*  * [**Für einen 2D-Modell**](#2d)
    * [**Für einen 3D-Modell**](#3d)
>   * [**Mehklassenklassifikation**](#mkk)

## Imports

In [1]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.metrics import f1_score
from sklearn.metrics import precision_score
from sklearn.metrics import accuracy_score
from sklearn.metrics import recall_score

import matplotlib.pyplot as plt


## 2.1. k-nearest neighbour (KNN) Grundlagen <a name="2_1"></a>
Die Grundidee des KNN-Algorithmus (k-nearest neighbour) besteht darin, dass zur Vorhersage der Klasse einfach die vorherrschende Klasse der $k \in \mathbb{N}$ nächsten Nachbarn (aus dem Trainingsdatensatz) im Merkmalsraum gewählt wird.

Hier sind die grundlegenden Schritte des KNN-Algorithmus:
1. **Distanzberechnung** `nearestk(D, x)`: Für einen gegebenen Testpunkt berechnet der Algorithmus die Distanz zu allen Punkten im Trainingsdatensatz. Die Distanz kann auf verschiedene Weisen berechnet werden, die gebräuchlichste ist jedoch die euklidische Distanz.
3. **Auswahl der k nächsten Nachbarn** `maj({y1,…, yk})`: Der Algorithmus wählt die k Punkte im Trainingsdatensatz, die dem Testpunkt am nächsten sind. k ist eine vom Benutzer festgelegte Konstante.
4. **Vorhersage** `clfD,k(x) = maj(nearestk(D, x))`: Für eine Klassifikationsaufgabe bestimmt der Algorithmus die am häufigsten vorkommende Klasse unter den k nächsten Nachbarn und weist diese Klasse dem Testpunkt zu.

Formal sieht das so aus:
> Sei $D$ ein Datensatz, $k \in \mathbb{N}$ und $x \in \mathbb{R}^n$. Definiere $$clf_{D,k}(x) = maj(nearest_k(D, x))$$ mit $$nearest_k(D, x) = \{y_1,..., y_k\} \subseteq \{y^{(1)},..., y^{(m)}\}$$ und $$maj(\{y_1,..., y_k\}) = y \in \{y_1,..., y_k\}$$.

Mit anderen Worten, `nearest_k(D, x)` bestimmt diejenigen k verschiedenen Klassen derjenigen Beispiele des Datensatzes D, die sich bezüglich der Euklidischen Distanz am nächsten zu x befinden. Die Funktion `maj` bestimmt dann diejenige Klasse, die unter diesen k nächsten Nachbarn am häufigsten auftritt. 

#### Beispiel 1:
Wir klassifizieren Filme in die beiden Klassen *Kinderfilm* `0` und *Actionfilm* `1` anhand der beiden Merkmale *Länge* und *Kosten*.

In [3]:
D_movies = pd.read_csv("./uebung_2_4/dataset_movies.csv")
D_movies

Unnamed: 0,length,costs,type
0,90,100,0
1,101,120,0
2,103,90,0
3,89,200,0
4,122,240,1
5,100,90,0
6,131,120,1
7,94,170,1
8,99,98,0
9,125,78,0


In [None]:
X = df.iloc[:, 0:-1].values
y = df.iloc[:, 2].values

plt.figure()
plt.scatter(df[y==0]["length"], df[y==0]["costs"])
plt.scatter(df[y==1]["length"], df[y==1]["costs"])
plt.show()

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.inspection import DecisionBoundaryDisplay

clf = KNeighborsClassifier(n_neighbors=3).fit(X,y)

plt.figure()
DecisionBoundaryDisplay.from_estimator(clf,X,response_method="predict",plot_method="pcolormesh")
plt.scatter(df[y==0]["length"], df[y==0]["costs"])
plt.scatter(df[y==1]["length"], df[y==1]["costs"])
plt.show()

In [4]:
df = pd.read_csv("../datasets/sl_logreg_ex_animals.csv")

X = df.iloc[:, 0:-1].values
y = df.iloc[:, 2].values

fig = plt.figure()
plt.scatter(df[y==0]["age"], df[y==0]["weight"])
plt.scatter(df[y==1]["age"], df[y==1]["weight"])
plt.scatter(df[y==2]["age"], df[y==2]["weight"])
plt.show()

FileNotFoundError: [Errno 2] No such file or directory: '../datasets/sl_logreg_ex_animals.csv'

In [None]:
clf = KNeighborsClassifier(n_neighbors=3).fit(X,y)

fig = plt.figure()
DecisionBoundaryDisplay.from_estimator(clf,X,response_method="predict",plot_method="pcolormesh")
plt.scatter(df[y==0]["age"], df[y==0]["weight"])
plt.scatter(df[y==1]["age"], df[y==1]["weight"])
plt.scatter(df[y==2]["age"], df[y==2]["weight"])
plt.show()

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X)
X_scaled = scaler.transform(X)

clf = KNeighborsClassifier(n_neighbors=3).fit(X_scaled,y)

fig = plt.figure()
DecisionBoundaryDisplay.from_estimator(clf,X_scaled,response_method="predict",plot_method="pcolormesh")
plt.scatter(X_scaled[y==0][:, 0], X_scaled[y==0][:, 1])
plt.scatter(X_scaled[y==1][:, 0], X_scaled[y==1][:, 1])
plt.scatter(X_scaled[y==2][:, 0], X_scaled[y==2][:, 1])
plt.show()