# Agglomerative Clustering

Agglomeratives Clustering ist ein Verfahren des hierarchischen Clusterings.

Hierarchisches Clustering ist eine allgemeine Familie von Clustering-Algorithmen, die verschachtelte Cluster durch sukzessives Zusammenfügen oder Aufteilen bilden. Diese Hierarchie von Clustern wird als Baum (oder Dendrogramm) dargestellt. Die Wurzel des Baums ist der ausgezeichnete Cluster, der alle Proben sammelt, wobei die Blätter die Cluster mit nur einer Probe sind. Weitere Einzelheiten finden Sie auf der Wikipedia-Seite.

AgglomerativeClustering führt eine hierarchische Clusterung nach einem Bottom-up-Ansatz durch: Jede Beobachtung beginnt in einem eigenen Cluster, und die Cluster werden nacheinander zusammengeführt. Es gibt verschiedene Ansätze, die als Verknüpfungskriterium fungieren:

-  "Ward" minimiert die Summe der quadrierten Differenzen in allen Clustern. Es handelt sich um einen Varianz-minimierenden Ansatz und ähnelt in diesem Sinne der k-Means-Zielfunktion, wird aber mit einem agglomerierenden (zusammenführenden) hierarchischen Ansatz angegangen.
-  "Maximum" oder "complete linkage" minimiert den maximalen Abstand zwischen den Paaren von Clustern.
-  "Average linkage" minimiert den Durchschnitt der Abstände zwischen allen Paaren von Clustern.
-  "Single linkage" minimiert den Abstand zwischen den engsten Paaren von Clustern.

Dabei kann der Abstand über die euklidische oder Manhattan-Distanz definiert werden.

![Linkage](linkage.png)

In [None]:
from sklearn import datasets, cluster
from sklearn.metrics import silhouette_samples, silhouette_score

import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np

Wir generieren uns Beispieldaten:

In [None]:
n_samples = 1500
X, y = datasets.make_circles(n_samples=n_samples, factor=.5, noise=.05)

... und schauen uns diese an:

In [None]:
print('Shape des Datensatzes - X: {} und y: {}'.format(X.shape, y.shape))

In [None]:
fig, ax = plt.subplots(1, figsize=(10,10))
ax.scatter(X[:,0], X[:,1], c=y)
ax.set_title("Noisy Circles");

## Aufgabe:

Fitte die Daten mittels AgglomerativeClustering.
Untersuche dabei die verschiedenen Varianten:

- Metrik (`affinity`): 'euclidean' oder 'manhattan'
- Verknüpfung (`linkage`): 'complete', 'average', oder 'single'
- alle anderen Parameter bleiben auf Defaultwert.

Welche Parameter trennen die Cluster sauber?

Dokumentation zu [Agglomerative Clustering](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html#sklearn.cluster.AgglomerativeClustering)

Mit dieser Methode kann das Ergebnis des Fittens geplottet werden:

In [None]:
def plot(model, X):
    y_pred = model.fit_predict(X)
    fig, ax = plt.subplots(1, figsize=(10,10))
    ax.scatter(X[:,0], X[:,1], c=y_pred)
    ax.set_title(f"Noisy Circles - {model}");
    fig;

## Umsetzung:

In [None]:
from sklearn.cluster import AgglomerativeClustering

for affinity in [ 'euclidean', 'manhattan']:
    for linkage in [ 'complete', 'average', 'single']:
        model = AgglomerativeClustering(affinity=affinity, linkage=linkage)
        plot(model, X)