# Hierarchical Clustering

Hierarchisches Clustering ist eine un√ºberwachte Lernmethode, die Datenpunkte anhand ihrer √Ñhnlichkeit (in der Regel gemessen anhand des Abstands) gruppiert.
Im Gegensatz zu k-Means m√ºssen Sie dabei nicht vorab die Anzahl der Cluster festlegen. Stattdessen wird Schritt f√ºr Schritt eine Hierarchie von Clustern aufgebaut.

Beim agglomerativen hierarchischen Clustering (Bottom-up-Ansatz):

- Jeder Datenpunkt beginnt als eigener Cluster.
- Die beiden n√§chstgelegenen Cluster werden zusammengef√ºhrt.
- Dieser Vorgang wiederholt sich, bis nur noch ein Cluster √ºbrig bleibt.

Das Ergebnis kann mithilfe eines Dendrogramms visualisiert werden, das zeigt, wie Cluster zusammengef√ºhrt wurden und in welchen Abst√§nden.

Das werden wir heute programmieren, also schnallen Sie sich an und viel Spa√ü dabei! üòä

![Stacked Bar Plot Meme](meme.jpg)

##### Meme Hilfe:

Wenn du dieses Meme nicht verstehst, hier ist die einfache Erkl√§rung:

Ein gestapeltes Balkendiagramm ist normalerweise etwas ganz Einfaches. Man benutzt es, um Daten √ºbersichtlich darzustellen.
Hierarchisches Clustering mit einem Dendrogramm ist dagegen eine eher komplizierte Methode aus der Datenanalyse.
Das Meme ist lustig, weil es so tut, als w√§re die Kombination von beiden etwas extrem Besonderes und Beeindruckendes. In Wirklichkeit wird etwas Einfaches nur unn√∂tig kompliziert gemacht.

Der Witz dahinter ist typisch f√ºr die Datenwissenschaft: 

Manchmal werden Dinge sehr technisch erkl√§rt oder dargestellt, damit sie wichtiger oder schlauer wirken, als sie eigentlich sind.

In [None]:
# Wird verwendet, um numerische Arrays wie X zu erstellen und zu bearbeiten und mathematische Operationen effizient durchzuf√ºhren.
import numpy as np

# Wird zur Visualisierung von Daten verwendet, beispielsweise zum Zeichnen von Streudiagrammen oder Clustering-Ergebnissen.
import matplotlib.pyplot as plt

# Wird verwendet, um das Dendrogramm zu generieren und anzuzeigen, das die hierarchische Clustering-Struktur visualisiert.
from scipy.cluster.hierarchy import dendrogram

In [None]:
# Ein NumPy-Array, das 2D-Datenpunkte enth√§lt.
X = np.array([
    [1, 1],
    [1.5, 1.5],
    [5, 5],
    [6, 5],
    [8, 8],
    [9, 8]
])

In [3]:
# TODO: Die Form des Arrays ausdrucken
shape = ...
print(shape)

Ellipsis


### Hilfe:

In einem Streudiagramm liefert X[:, 0] die x-Koordinaten (erstes Merkmal aller Stichproben) und X[:, 1] die y-Koordinaten (zweites Merkmal aller Stichproben).

In [9]:
# TODO: Zeichnen Sie die Datenpunkte mit matplotlib
...

## Berechnen Sie den euklidischen Abstand.

Der euklidische Abstand misst die Entfernung in gerader Linie zwischen zwei Punkten.


$$
d(A, B) = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2}
$$

Wo:
- $A = (x_1, y_1)$
- $B = (x_2, y_2)$
- Subtrahiere die Koordinaten, quadriere sie, addiere sie und ziehe dann die Quadratwurzel.

In [None]:
def euclidean_distance(a, b):
    #TODO: Berechnen Sie den euklidischen Abstand.
    return ...

## Implementieren Sie Single-Linkage-Clusterdistanz f√ºr hierarchisches Clustering.

Sie erhalten:
- `cluster1` ‚Üí eine Liste von Punkten
- `cluster2` ‚Üí eine weitere Liste von Punkten
- `euclidean_distance(p1, p2)` bereits umgesetzt

<br>

Ihre Aufgabe in diesem Code ist es:
- Vergleiche jeden Punkt in Cluster1 mit jedem Punkt in Cluster2.
- Berechne die euklidische Distanz f√ºr jedes Paar.
- Gib die kleinste gefundene Distanz zur√ºck.

<br>

Im Wesentlichen also:

Sie berechnen, wie nah zwei Cluster beieinander liegen, indem Sie den Abstand zwischen ihrem n√§chstgelegenen Punktpaar ermitteln.

In [1]:
def cluster_distance(cluster1, cluster2):
    # TODO: Angenommen, die Cluster sind unendlich weit voneinander entfernt, 
    # vergleiche jeden Punkt aus dem ersten Cluster mit jedem Punkt aus dem zweiten,
    # messe ihre Abst√§nde, behalte das n√§chstgelegene Paar, das du findest, und gib diesen kleinsten Abstand zur√ºck.
    return ...

## Initialisieren Sie Cluster und Tracking-Variablen f√ºr hierarchisches Clustering.

In dieser √úbung initialisieren Sie das hierarchische Clustering, indem Sie jeden Punkt aus `X` in einen eigenen Cluster einordnen.
Sie erstellen IDs, um die Cluster zu verfolgen, legen einen Z√§hler f√ºr zuk√ºnftig zusammengef√ºhrte Cluster fest und bereiten eine leere Liste `Z` vor, um den Verlauf der Zusammenf√ºhrungen zu speichern.


In [2]:
#TODO: Setze jeden Punkt X in seinen eigenen Cluster.
clusters = ...

# TODO: Erstelle eine Liste von IDs f√ºr alle initialen Cluster.
ids = ...

# TODO: Initialisiere next_id mit der n√§chsten freien Cluster-ID.
next_id = ...

# TODO: Erstelle eine leere Liste zur Speicherung der Merge-Historie.
Z = ...

## Finden Sie das n√§chstgelegene Clusterpaar (Agglomerationsschritt)

In this exercise, your goal is to identify the two clusters that are closest to each other.
You must compare every possible pair of clusters, compute their distance using the cluster distance function, and keep track of the smallest distance found.
At the end, you return the indices of the closest cluster pair together with their distance, so they can be merged in the next step of the algorithm.


In [None]:
def find_closest_clusters(clusters):
    #TODO: Erstellen Sie eine Variable, die Unendlichkeit speichert.
    min_dist = ...

    #TODO: Erstellen Sie ein Platzhalter-Tupel f√ºr das aktuell n√§chstgelegene Clusterpaar.
    pair = ...

    for i in range(len(clusters)):
        for j in range(i + 1, len(clusters)):

            # TODO: Berechnen Sie die Distanz zwischen clusters[i] und clusters[j].
            dist = ...

            if dist < min_dist:

                # TODO: Aktualisieren Sie min_dist mit der neuen kleineren Distanz.
                min_dist = ...

                # TODO: Speichern Sie die Indizes (i, j) als aktuelles n√§chstes Clusterpaar.
                pair = ...
    
    # TODO: Geben Sie das n√§chstgelegene Clusterpaar sowie die minimale Distanz zur√ºck.
    return ..., ...

## F√ºhren Sie den Schritt ‚ÄûAgglomerative Merging‚Äú im hierarchischen Clustering durch.

In dieser √úbung besteht Ihre Aufgabe darin, die Hauptschleife des agglomerativen hierarchischen Clusterings zu implementieren.
Solange mehr als ein Cluster existiert, suchen Sie wiederholt die beiden n√§chstgelegenen Cluster und f√ºhren diese zusammen.
Bei jeder Zusammenf√ºhrung zeichnen Sie die Zusammenf√ºhrungsinformationen in Z auf, aktualisieren die Clusterliste und deren IDs, weisen dem zusammengef√ºhrten Cluster eine neue ID zu und fahren fort, bis nur noch ein Cluster √ºbrig ist.
Schlie√ülich konvertieren Sie Z in ein NumPy-Array, damit es die Verkn√ºpfungsmatrix darstellen kann.

In [None]:
# Der Zusammenf√ºhrungsprozess wird so lange wiederholt, bis nur noch ein Cluster √ºbrig ist.
while len(clusters) > 1:
    
    # TODO: Finden Sie die zwei n√§chsten Cluster und deren Distanz.
    (i, j), dist = ...

    #TODO: Speichern Sie die Merge-Information (Cluster-IDs, Distanz, Anzahl Punkte) in der Liste Z.
    Z.append([...])

    # TODO: Erstellen Sie einen neuen Cluster, indem Sie clusters[i] und clusters[j] zusammenf√ºhren.
    new_cluster = ... + ...

    # TODO: Entfernen Sie die alten Cluster i und j sowie deren IDs.
    clusters.pop(...)
    clusters.pop(...)
    ids.pop(...)
    ids.pop(...)

    # TODO: F√ºgen Sie den neuen Cluster zur Liste hinzu.
    clusters.append(...)

    # TODO: Weisen Sie dem neuen Cluster eine neue ID zu.
    ids.append(...)

    # TODO: Erh√∂hen Sie next_id f√ºr den n√§chsten Merge.
    next_id += ...

# TODO: Konvertieren Sie Z in ein NumPy-Array vom Typ float.
Z = ...

In [None]:
#TODO: Die Verkn√ºpfungsmatrix ausdrucken
print(...)

In [4]:
#TODO: Zeichnen Sie das Dendrogramm mit "scipy.cluster.hierarchy import dendrogram"
...

## Weitere Lernmaterialien f√ºr interessierte Studierende:

https://www.geeksforgeeks.org/machine-learning/hierarchical-clustering/

https://www.w3schools.com/python/python_ml_hierarchial_clustering.asp

https://scikit-learn.org/stable/auto_examples/cluster/plot_agglomerative_dendrogram.html

https://youtu.be/8QCBl-xdeZI?si=EQIqUH46mvU9pobm

##### Herzlichen Gl√ºckwunsch, du bist jetzt ein Pro im hierarchisches Clustering!!! üéâüéâüéâ


(nur wenn du dich auch die Videos und die Lernunterlagen angesehen hast üòä)

(Du solltest das Meme jetzt auch ohne Hilfe selbst verstehen k√∂nnen üôÑ)