# Rechenaufgaben zu 3.2 (Hierarchisches Clustering)

Sei ein Datensatz gegeben durch

$$
E=\{x_1=(2.8,12.5),x_2=(3.9,6.7),x_3=(14,17.3),x_4=(14.7,17.2)\}
$$

Sei $X$ die Menge der Cluster und sei initial $X:=\{\{x_1\},\{x_2\},\{x_3\},\{x_4\}\}$.

1. Berechnen Sie $D_\text{single}(X_1,X_2)$ für alle $X_1,X_2\in X$ (wobei $X_1\neq X_2$).
2. Bestimmen Sie, welche initialen Cluster nun zusammengelegt werden und geben Sie das Ergebnis-Clustering an.
3. Berechnen Sie nun $D_\text{single}(X_1,X_2)$ für alle $X_1,X_2$ im aktualisierten Cluster $X$.
4. Bestimmen Sie, welche Cluster nun zusammengelegt werden und geben Sie das Ergebnis-Clustering an.
5. Wo liegt der Schwellwert für das im zweiten Schritt gebildete Clustering?

## Aufgabe 1

Berechnen Sie $D_\text{single}(X_1,X_2)$ für alle $X_1,X_2\in X$ (wobei $X_1\neq X_2$).

**Antwort:** Die Abstandsfunktion $D_\text{single}$ ist definiert durch

$$
D_\text{single}(E_1, E_2) = \min_{x_1\in E_1, x_2\in E_2} \Vert x_1-x_2\Vert_2
$$

Also:

In [41]:
import itertools
import numpy as np


def euclid_dist(x_1: list[float], x_2: list[float]) -> float:
    return np.round(
        np.sqrt(sum((x - x_prime) ** 2 for (x, x_prime) in zip(x_1, x_2))), decimals=3
    )


def d_single(E_1: list[list[float]], E_2: list[list[float]]) -> float:
    return min(euclid_dist(x_1, x_2) for x_1 in E_1 for x_2 in E_2)


cluster = {
    "{x_1}": [(2.8, 12.5)],
    "{x_2}": [(3.9, 6.7)],
    "{x_3}": [(14, 17.3)],
    "{x_4}": [(14.7, 17.2)],
}

for E_1, E_2 in itertools.combinations(cluster, 2):
    print(
        f"D_single({E_1}, {E_2}): {d_single(cluster[E_1], cluster[E_2])}".replace(
            ".", ","
        )
    )

D_single({x_1}, {x_2}): 5,903
D_single({x_1}, {x_3}): 12,185
D_single({x_1}, {x_4}): 12,795
D_single({x_2}, {x_3}): 14,641
D_single({x_2}, {x_4}): 15,063
D_single({x_3}, {x_4}): 0,707


## Aufgabe 2

Bestimmen Sie, welche initialen Cluster nun zusammengelegt werden und geben Sie das Ergebnis-Clustering an.

**Antwort:** Die Cluster mit dem geringsten Abstand sind $\{x_3\}$ und $\{x_4\}$. Wir erhalten also 

$$
X=\{\{x_1\},\{x_2\},\{x_3, x_4\}\}
$$

## Aufgabe 3

Berechnen Sie nun $D_\text{single}(X_1,X_2)$ für alle $X_1,X_2$ im aktualisierten Cluster $X$.

**Antwort:** Wie in Aufgabe 1:

In [43]:
cluster = {
    "{x_1}": [(2.8, 12.5)],
    "{x_2}": [(3.9, 6.7)],
    "{x_3, x_4}": [(14, 17.3), (14.7, 17.2)],
}

for E_1, E_2 in itertools.combinations(cluster, 2):
    print(
        f"D_single({E_1}, {E_2}): {d_single(cluster[E_1], cluster[E_2])}".replace(
            ".", ","
        )
    )

D_single({x_1}, {x_2}): 5,903
D_single({x_1}, {x_3, x_4}): 12,185
D_single({x_2}, {x_3, x_4}): 14,641


## Aufgabe 4

Bestimmen Sie, welche Cluster nun zusammengelegt werden und geben Sie das Ergebnis-Clustering an.

**Antwort:** Die Cluster mit dem geringsten Abstand sind $\{x_1\}$ und $\{x_2\}$. Wir erhalten also:

$$
X=\{\{x_1,x_2\},\{x_3, x_4\}\}
$$

## Aufgabe 5

Wo liegt der Schwellwert für das im zweiten Schritt gebildete Clustering?

**Antwort:** Der Schwellwert liegt bei 5,903