# Clustering und Klassifikation

## Machine Learning

Trainingsdaten trainieren ein System, neue Datenpunkte korrekt zu bewerten

### Supervised vs. Unsupervised

Machine Learning Algorithmen lassen sich in zwei Klassen einteilen:
- Überwachtes Lernen
- Unüberwachtes Lernen

![Machine Learning](ML.jpg)

**Überwachtes Lernen** (supervised) liegt dann vor, wenn die Trainingsdaten mit Klassen annotiert sind: Jeder Datenpunkt gehört einer Klasse an. Es gibt eine genau definierte Anzahl an möglichen Klassen.

![Sunburn Data Set](sunburn.jpg)

Dies ist ein Beispiel für **Klassifikation**: Gegeben der Daten für jede Person, gehört sie zur Klasse **"Hat Sonnenbrand"**?

Von **Regression** spricht man, wenn das Ergebnis ein Wert auf einer **kontinuierlichen Skala** ist.

*Beispiel: Vorhersage von Mietpreisen nach Lage und Eigenschaften der Wohnung*

**Unüberwachtes Lernen** (unsupervised) liegt dann vor, wenn die Trainingsdaten nicht annotiert sind. Das Ziel ist es, Datenpunkte nach ihren Eigenschaften zu Gruppen zusammenzufügen. Dabei kann es eine vordefinierte Menge von Gruppen/**Cluster** geben, muss es aber nicht.

Unüberwachtes Lernen versucht also **Strukturen** in Daten zu finden. Ähnliche Datenpunkte werden zu **Clustern** zusammengefasst.

![Clustering Data Example](clustering_data.png)

Beispiel für ein Datenset mit 3 Clustern:

![Cluster Example](cluster_example.png)

## K-Means

Unüberwachter Algorithmus, Clustering

**Grundidee**: Finde die Mitte der Cluster, indem iterativ immer bessere Mittelpunkte gefunden werden

In [None]:
# Erschaffen uns beispielhaft Daten mit fünf Clustern
import matplotlib.pyplot as plt
import numpy as np
from sklearn.datasets.samples_generator import make_blobs
X,y_true = make_blobs(n_samples = 500, n_features = 2, centers = 5, cluster_std = 1.5, random_state = 7)
plt.scatter(X[:,0],X[:,1], s=10)
plt.draw()

In [None]:
from sklearn.cluster import KMeans
kmeans = KMeans(n_clusters = 5)
kmeans.fit(X)         # 'fit' trainiert das Modell mit den Trainingsdaten
y = kmeans.predict(X) # y sind die vorhergesagten 'Klassen' - hier also Cluster
centers = kmeans.cluster_centers_

plt.clf()
plt.scatter(X[:,0], X[:,1], c=y, s=10, cmap="viridis")
plt.scatter(centers[:,0], centers[:,1], c="black", s=100, alpha=0.6)
plt.draw()

Der K-Means Algorithmus:
```
Given: Dataset of objects in a vector space
Given: Number k of desired Clusters
Given: Maximum number of iterations i_max
---
centroids = {new set of k random points}
for i to i_max:
    assign all data points to closest centroid
    move centroids to the center of their assigned points
```

![KMeans Example](kmeans_example.png)

### Distanz

Um die Datenpunkte dem **nächsten** Mittelpunkt zuzuordnen, müssen wir die Distanz ausrechnen können.
Im $R^2$ nutzen wir hierfür die **Euklidische Distanz** zwischen zwei Punkten $p$ und $q$:

\begin{equation}
d(p,q) = \sqrt{(q_x - p_x)^2 + (q_y - p_y)^2}
\end{equation}

### Mittelpunkt
Den Mittelpunkt einer Menge $P$ von Punkten erhalten wir, indem wir für jede Achse den **Mittelwert** ausrechnen. Im $R^2$:

\begin{equation}
m(P) = (\frac{P_{1_x} + P_{2_x} + ... + P_{n_x}}{|P|},\frac{P_{1_y} + P_{2_y} + ... + P_{n_y}}{|P|})
\end{equation}


### Implementation

> Aufgabe: Vervollständige die folgende Implementation von KMeans


In [None]:
import math

class MyKMeans():
    
    def __init__(self,data):
        """self.data is a collection of 2D points"""
        self.data = [(x,y) for x,y in data]
    
    def distance(self,p,q):
        """Computes the euclidean distance between two 2D points"""
        return math.sqrt(((q[0]-p[0])**2) + ((q[1]-p[1])**2))
    
    def mean(self,P):
        """Computes the mean of a set of points P"""
        return (sum((x for x,y in P)) / len(P) , sum((y for x,y in P)) / len(P))
    
    def run(self, k=2, num_iterations=1):
        """Returns a list of 2D cetroids and a mapping of data points -> predicted cluster ID"""
        centroids = [(x,y) for x,y in make_blobs(n_samples = k, n_features = 2, centers = k, cluster_std = 0.0, random_state = k)[0]]
        predictions = {p:None for p in self.data}
        
        for i in range(num_iterations):
            # 1. Assign all points to their respective nearest centroids
            for p in predictions.keys():
                closest_centroid_no = -1
                closest_distance = 1000000
                for n,c in enumerate(centroids):
                    d = self.distance(p,c)
                    if d < closest_distance:
                        closest_distance = d
                        closest_centroid_no = n
                predictions[p] = closest_centroid_no
            # 2. Move centroids to the center of their point clouds
            for i in range(k):
                new_centroid = self.mean(list(filter(lambda x : predictions[x] == i, predictions.keys())))
                centroids[i] = new_centroid
        
        return np.array(centroids), list(predictions.values())
    

In [None]:
def draw_it(centroids, y):
    plt.clf()
    plt.scatter(X[:,0], X[:,1], c=y, s=10, cmap="viridis")
    plt.scatter(centroids[:,0], centroids[:,1], c="black", s=100, alpha=0.6)
    plt.draw()

mk = MyKMeans(X)
centroids, y = mk.run(k=5,num_iterations=1)

draw_it(centroids, y)

In [None]:
centroids, y = mk.run(k=5,num_iterations=2)
draw_it(centroids, y)

In [None]:
centroids, y = mk.run(k=5,num_iterations=4)
draw_it(centroids, y)

In [None]:
centroids, y = mk.run(k=5,num_iterations=8)
draw_it(centroids, y)

In [None]:
centroids, y = mk.run(k=5,num_iterations=12)
draw_it(centroids, y)

In [None]:
centroids, y = mk.run(k=5,num_iterations=15)
draw_it(centroids, y)

In [None]:
centroids, y = mk.run(k=5,num_iterations=50)
draw_it(centroids, y)

In [None]:
centroids, y = mk.run(k=2,num_iterations=50)
draw_it(centroids, y)

In [None]:
centroids, y = mk.run(k=3,num_iterations=50)
draw_it(centroids, y)

In [None]:
centroids, y = mk.run(k=10,num_iterations=50)
draw_it(centroids, y)

## K-Nearest-Neighbor

Überwachter Algorithmus, Klassifikation

**Grundidee**: Finde naheliegende, bekannte Datenpunkte, um neue Datenpunkte zu klassifizieren

### Grundannahme:

Objekte der gleichen Klasse sind sich ähnlicher, als Objekte aus verschiedenen Klassen.

-> Wir brauchen **Features** der Objekte, anhande derer wir sie vergleichen können

-> Sind die Features Zahlenwerte, können wir die Objekte als **Vektoren** im Raum darstellen \
-> Ähnliche Objekte liegen dann räumlich nahe beisammen

![KNN Example](knn_data.png)

Der K-Nearest-Neighbours Algorithmus:
```
Given: Set D of already classified objects in a vector space
Given: Number k of neighbours to consider
Input: New data point x to classify
---
N = get k nearest neighbouring data points of x in D
evaluate N to get predicted class of x
```

### Hyperparameter

- Wie groß muss k sein?
- Wie wird die Klassifikationsentscheidung getroffen?
 - Mehrheitsentscheidung?
 - k kleiner machen, bis Eindeutigkeit?
 - ...?


![KNN Hyperparameters](knn_hyperparams.png)

### Implementation

> Aufgabe: Vervollständige die folgende Implementation von KNN

In [None]:
class KNN_Classifier():
    def __init__(self, train_data):
        """train_data is a dictionary of classified of 2D points: (x,y) -> class ID """
        self.data = train_data
        
    def distance(self,p,q):
        """Computes the euclidean distance between two 2D points"""
        return math.sqrt(((q[0]-p[0])**2) + ((q[1]-p[1])**2))
    
    def classify(self, k=1, input_point=None):
        """Returns the class ID of the predicted class
           Also returns the distance to the *furthest* neighbor (this will be used to draw the image!)
            - Will use majority vote to determine the class
            - Will fall back to k' = k-1 on a draw
        """
        # Get neighbors sorted by distance (ascending) [((x,y),c),...]
        neighbors = sorted(self.data.items(), key=lambda x: self.distance(input_point,(x[0][0],x[0][1])))[:k]
        furthest_neighbor_distance = self.distance(input_point, (neighbors[-1][0][0],neighbors[-1][0][1]))
        # Count classes of neighbors
        class_counts = dict()
        for point,c in neighbors:
            class_counts[c] = class_counts.get(c,0) + 1 # c:n
        class_counts = sorted(class_counts.items(),key=lambda x: x[1], reverse=True) # (c,n)
        print("Class counts (c,n): ",class_counts)
        # Fallback on draw
        if len(class_counts) > 1 and class_counts[0][1] == class_counts[1][1]:
            print("Fallback to k =", k-1)
            return self.classify(k=k-1, input_point=input_point)
        return class_counts[0][1], furthest_neighbor_distance

In [None]:
def draw_knn(input_point, y_true, furthest_neighbor_dist):
    plt.clf()
    plt.scatter(X[:,0], X[:,1], c=y_true, s=4, cmap="viridis")
    plt.scatter([point[0]], [point[1]], c="black", s=4, alpha=1)
    circle = plt.Circle(input_point,furthest_neighbor_dist,fill=False)
    plt.gcf().gca().add_artist(circle)
    plt.draw()

In [None]:
data = {(d[0],d[1]):c for d,c in zip(X,y)} # (x,y) -> ID
classifier = KNN_Classifier(data)
point = (-6,2)

In [None]:
cls, dist = classifier.classify(k=1,input_point=point)
draw_knn(point,y_true,dist)

In [None]:
cls, dist = classifier.classify(k=2,input_point=point)
draw_knn(point,y_true,dist)

In [None]:
cls, dist = classifier.classify(k=3,input_point=point)
draw_knn(point,y_true,dist)

In [None]:
cls, dist = classifier.classify(k=10,input_point=point)
draw_knn(point,y_true,dist)

In [None]:
cls, dist = classifier.classify(k=150,input_point=point)
draw_knn(point,y_true,dist)