# Material für Nearest Neighbours in NumPy

Das Paket `numpy` (_Numeric Python_) wird üblicherweise unter der Abkürzung `np` importiert, das verbreitete `matplotlib` für Visualisierungen unter `plt`.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import sklearn
import sklearn.datasets

## Das klassische Beispiel: Schwertlilien

Der berühmte **Iris**-Datensatz ist u.a. in Scikit-Learn enthalten:

In [None]:
iris = sklearn.datasets.load_iris()

Nicht vergessen: immer die zugehörige Dokumentation lesen!

In [None]:
print(iris.DESCR)

Im maschinellen Lernen ist es üblich, die **Merkmalsmatrix** mit $\mathbf{X}$ zu bezeichnen und den (Spalten-)Vektor der vorherzusagenden Kategorien oder numerischen **Werte** mit $\mathbf{y}$.

In [None]:
X = iris.data
y = iris.target

In [None]:
print(X.shape)
print(y.shape)

Zum Ausprobieren erstellen wir eine Stichprobe von 10 Blütenexemplaren, der Einfachheit gleichmäßig über den Datensatz verteilt. Die Werte $\mathbf{y}$ werden wir in der heutigen Sitzung nicht weiter verfolgen.

In [None]:
X1 = X[5:150:15, :].copy()
X1

NumPy-Arrays haben keine Zeilen- oder Spaltenlabel und können nur über numerisch indexiert werden. Auch die Bedeutung der Spalten erschließt sich nur durch die separat bereitgestellten Bezeichnungen:

In [None]:
print(", ".join(iris.feature_names))

Merkmalsvektor einer einzelnen Blüte: $\mathbf{x}_{42} \in \mathbb{R}^4$

In [None]:
X[41, :]

Vor allem bei solchen niedrigdimensionalen Datensätzen bietet sich als Einstieg eine Visualisierung in zwei oder drei Dimensionen an. Das Standardpaket dafür ist `matplotlib`. In den nächsten Sitzungen werden wir auch noch modernere Pakete kennenlernen. Optional können Sie aber schon die etwas hübscheren Defaulteinstellungen von `seaborn` nutzen.

In [None]:
import seaborn as sns
sns.set()

Standardvisualisierung für Merkmalsvektoren ist ein sogenannter **Scatterplot**. Dazu müssen wir jeweils zwei Dimensionen auswählen, z.B. Länge und Breite der Blütenblätter (in der dritten und vierten Spalte von $\mathbf{X}$).  Wir verwenden hier bereits einige Optionen, um die Darstellung zu verschönern.

In [None]:
scatter = plt.scatter(X[:,2], X[:,3], c=y, cmap='viridis')
plt.xlabel(iris.feature_names[2])
plt.ylabel(iris.feature_names[3])
plt.legend(scatter.legend_elements()[0], iris.target_names)

## Nearest Neighbours

Schließlich können wir die **nächsten Nachbarn** zu einem gegebenen Vektor suchen, z.B. zu der fiktiven Blüte $\mathbf{a}$, die wir gleich als Zeilenvektor anlegen.

In [None]:
a = np.array([[6.5, 3.0, 4.2, 2.1]])
a

Nun müssen wir für jeden Vektor $\mathbf{x}_i$ im Datensatz den **euklidischen Abstand** berechnen, also
$$ d(\mathbf{x_i}, \mathbf{a}) = \sqrt{ \sum_{j=1}^d (x_{ij} - a_j)^2 } $$
Wir machen das zunächst als Beispiel für den Vektor $\mathbf{x}_{42}$:

In [None]:
x42 = X[41:42, :]
x42

In [None]:
np.sqrt( ((x42 - a) ** 2).sum(axis=1) )

Wir haben hier explizit über die Zeilenvektoren summiert, damit die Berechnung auch dann noch funktioniert, wenn wir per Broadcasting Abstände zu _allen_ Zeilenvektoren von $\mathbf{X}$ berechnen (hier wieder für `X1`).

In [None]:
d = np.sqrt( ((X1 - a) ** 2).sum(axis=1) )
d

In [None]:
X1[np.argmin(d), :]