# Business Analytics und Künstliche Intelligenz

Prof. Dr. Jürgen Bock & Maximilian-Peter Radtke

---

In [None]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Wir werden für die Demonstration der Clustering Verfahren den Iris-datensatz nutzen. Hier wissen wir zwar, dass es drei verschiedene Klassen gibt, aber diese wollen wir nun versuchen ohne die Klassenlabels zu identifizieren.

In [None]:
from sklearn.datasets import load_iris

In [None]:
data = load_iris(as_frame=True)
df = data['data']

In [None]:
df.head()

In [None]:
plt.figure(figsize=(10, 10))
plt.scatter(df.loc[data['target']==0, 'petal length (cm)'], df.loc[data['target']==0, 'petal width (cm)'], color='blue')
plt.scatter(df.loc[data['target']==1, 'petal length (cm)'], df.loc[data['target']==1, 'petal width (cm)'], color='red')
plt.scatter(df.loc[data['target']==2, 'petal length (cm)'], df.loc[data['target']==2, 'petal width (cm)'], color='green')
plt.legend(['Setosa', 'Versicolor', 'Virginca'], fontsize=18)
plt.xlabel('Blütenblatt Länge (cm)', fontsize=18)
plt.ylabel('Blütenblatt Weite (cm)', fontsize=18)
plt.show()

Auf Basis der Blütenblatt Länge und Weite lassen sich die verschiedenen Schwertlilienarten also recht gut identifizieren. Diese 3 Cluster wollen wir nun automatisch generieren.

Entsprechend kreieren wir eine Variable für unsere Trainingsdaten.

In [None]:
X = df[['petal length (cm)', 'petal width (cm)']]

## K-Means Clustering

Für das Clustern mittels K-Means nutzen wir von Sklearn die [`KMeans`](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html 'K-Means Dokumentation') Funktion.

In [None]:
from sklearn.cluster import KMeans

In [None]:
# K-Means mit einer zufälligen Anfangsinitialisierung
kmeans1 = KMeans(n_clusters=3, algorithm='full', random_state=23)
kmeans1.fit(X)

In [None]:
# Ausgabe der erzeugten Cluster
kmeans1.labels_

In [None]:
# K-Means mit einer zweiten zufälligen Anfangsinitialisierung
kmeans2 = KMeans(n_clusters=3, algorithm='full', random_state=55)
kmeans2.fit(X)

In [None]:
# Vergleich der K-Means Cluster mit den tatsächlichen Klassen

# Initialisierung der Subplots
fig, (ax0, ax1, ax2) = plt.subplots(1, 3, figsize=(22.5,7.5))

# Erstellen Scatterplot für wahre Labels
ax0.scatter(df.loc[data['target']==0, 'petal length (cm)'], df.loc[data['target']==0, 'petal width (cm)'], color='blue')
ax0.scatter(df.loc[data['target']==1, 'petal length (cm)'], df.loc[data['target']==1, 'petal width (cm)'], color='red')
ax0.scatter(df.loc[data['target']==2, 'petal length (cm)'], df.loc[data['target']==2, 'petal width (cm)'], color='green')
ax0.legend(['Setosa', 'Versicolor', 'Virginca'], fontsize=18)
ax0.set_xlabel('Blütenblatt Länge (cm)', fontsize=18)
ax0.set_ylabel('Blütenblatt Weite (cm)', fontsize=18)
ax0.set_title('Wahre Klassenzuordnung', fontsize=18)

# Erstellen Scatterplot für ersten random state
ax1.scatter(df.loc[kmeans1.labels_==0, 'petal length (cm)'], df.loc[kmeans1.labels_==0, 'petal width (cm)'], color='blue')
ax1.scatter(df.loc[kmeans1.labels_==1, 'petal length (cm)'], df.loc[kmeans1.labels_==1, 'petal width (cm)'], color='red')
ax1.scatter(df.loc[kmeans1.labels_==2, 'petal length (cm)'], df.loc[kmeans1.labels_==2, 'petal width (cm)'], color='green')
ax1.legend(['1', '2', '3'], fontsize=18)
ax1.set_xlabel('Blütenblatt Länge (cm)', fontsize=18)
ax1.set_ylabel('Blütenblatt Weite (cm)', fontsize=18)
ax1.set_title('K-Means - Random State = 23', fontsize=18)

# Erstellen Scatterplot für zweiten random state
ax2.scatter(df.loc[kmeans2.labels_==0, 'petal length (cm)'], df.loc[kmeans2.labels_==0, 'petal width (cm)'], color='blue')
ax2.scatter(df.loc[kmeans2.labels_==1, 'petal length (cm)'], df.loc[kmeans2.labels_==1, 'petal width (cm)'], color='red')
ax2.scatter(df.loc[kmeans2.labels_==2, 'petal length (cm)'], df.loc[kmeans2.labels_==2, 'petal width (cm)'], color='green')
ax2.legend(['1', '2', '3'], fontsize=18)
ax2.set_xlabel('Blütenblatt Länge (cm)', fontsize=18)
ax2.set_ylabel('Blütenblatt Weite (cm)', fontsize=18)
ax2.set_title('K-Means - Random State = 54', fontsize=18)

plt.show()

## Hierarchisches Clustern

Für agglomeratives (bottom up) hierarchisches Clustern hat Sklearn auch eine Funktion. Diese heißt [`AgglomerativeClustering`](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html 'Dokumentation agglomeratives Clustern').

In [None]:
from sklearn.cluster import AgglomerativeClustering

Zunächst nutzen wir die Funktion um zu versuchen 3 Cluster zu identifizieren und übergeben daher den Parameter `n_clusters=3`. Außerdem versuchen wir das Problem einmal mit Single Linkage und einmal mit Complete Linkage zu lösen.

In [None]:
# Hierarchisches Clustern Single Linkage
AggCluSing = AgglomerativeClustering(n_clusters=3, linkage='single')
AggCluSing.fit(X)

In [None]:
# Ausgabe der Labels
AggCluSing.labels_

In [None]:
# Hierarchisches Clustern Complete Linkage
AggCluComp = AgglomerativeClustering(n_clusters=3, linkage='complete')
AggCluComp.fit(X)

In [None]:
# Vergleich der hierarchisches Clustern mit den tatsächlichen Klassen

# Initialisierung der Subplots
fig, (ax0, ax1, ax2) = plt.subplots(1, 3, figsize=(22.5,7.5))

# Erstellen Scatterplot für wahre Labels
ax0.scatter(df.loc[data['target']==0, 'petal length (cm)'], df.loc[data['target']==0, 'petal width (cm)'], color='blue')
ax0.scatter(df.loc[data['target']==1, 'petal length (cm)'], df.loc[data['target']==1, 'petal width (cm)'], color='red')
ax0.scatter(df.loc[data['target']==2, 'petal length (cm)'], df.loc[data['target']==2, 'petal width (cm)'], color='green')
ax0.legend(['Setosa', 'Versicolor', 'Virginca'], fontsize=18)
ax0.set_xlabel('Blütenblatt Länge (cm)', fontsize=18)
ax0.set_ylabel('Blütenblatt Weite (cm)', fontsize=18)
ax0.set_title('Wahre Klassenzuordnung', fontsize=18)

# Erstellen Scatterplot zu Single Linkage
ax1.scatter(df.loc[AggCluSing.labels_==0, 'petal length (cm)'], df.loc[AggCluSing.labels_==0, 'petal width (cm)'], color='blue')
ax1.scatter(df.loc[AggCluSing.labels_==1, 'petal length (cm)'], df.loc[AggCluSing.labels_==1, 'petal width (cm)'], color='red')
ax1.scatter(df.loc[AggCluSing.labels_==2, 'petal length (cm)'], df.loc[AggCluSing.labels_==2, 'petal width (cm)'], color='green')
ax1.legend(['1', '2', '3'], fontsize=18)
ax1.set_xlabel('Blütenblatt Länge (cm)', fontsize=18)
ax1.set_ylabel('Blütenblatt Weite (cm)', fontsize=18)
ax1.set_title('Single Linkage', fontsize=18)

# Erstellen Scatterplot zu Complete Linkage
ax2.scatter(df.loc[AggCluComp.labels_==0, 'petal length (cm)'], df.loc[AggCluComp.labels_==0, 'petal width (cm)'], color='blue')
ax2.scatter(df.loc[AggCluComp.labels_==1, 'petal length (cm)'], df.loc[AggCluComp.labels_==1, 'petal width (cm)'], color='red')
ax2.scatter(df.loc[AggCluComp.labels_==2, 'petal length (cm)'], df.loc[AggCluComp.labels_==2, 'petal width (cm)'], color='green')
ax2.legend(['1', '2', '3'], fontsize=18)
ax2.set_xlabel('Blütenblatt Länge (cm)', fontsize=18)
ax2.set_ylabel('Blütenblatt Weite (cm)', fontsize=18)
ax2.set_title('Complete Linkage', fontsize=18)

plt.show()

Ein Vorteil von hierarchischem Clustern, ist es das Dendrogramm ausgeben zu lassen. Hierfür nutzen wir die [`dendrogramm`](https://docs.scipy.org/doc/scipy/reference/reference/generated/scipy.cluster.hierarchy.dendrogram.html#scipy.cluster.hierarchy.dendrogram 'Dendrogramm Dokumentation') Funktion aus `scipy`.

In [None]:
from scipy.cluster.hierarchy import dendrogram

Um das Dendrogramm zu erzeugen müssen zusätzlich einige Schritte vorgenommen werden, welche in der selbstdefinierten Funktion `plot_dendrogram` zusammengefasst werden. Diese Funktion ist ein Beispiel von scikit-learn und kann [hier](https://scikit-learn.org/stable/auto_examples/cluster/plot_agglomerative_dendrogram.html#sphx-glr-auto-examples-cluster-plot-agglomerative-dendrogram-py) betrachtet werden.

**Die Funktion muss nicht nachvollzogen und verstanden werden.**

In [None]:
def plot_dendrogram(model, **kwargs):
    # Erstelle Linkage Matirx und plotte das Dendrogramm
    # Create linkage matrix and then plot the dendrogram
    
    # Berechne die Anzahl der Sammples unter jedem Knoten
    counts = np.zeros(model.children_.shape[0])
    n_samples = len(model.labels_)
    for i, merge in enumerate(model.children_):
        current_count = 0
        for child_idx in merge:
            if child_idx < n_samples:
                current_count += 1  # leaf node
            else:
                current_count += counts[child_idx - n_samples]
        counts[i] = current_count

    linkage_matrix = np.column_stack(
        [model.children_, model.distances_, counts]
    ).astype(float)

    # Plotte das entsprechende Dendrogramm
    dendrogram(linkage_matrix, **kwargs)

Als nächstes erstellen wir ein Modell. Dass wirklich alle Partitionen berechnet werden und das komplette hierarchische Modell erstellt wird übergeben wir die Parameter `distance_threshold` und `n_clusters`.

In [None]:
# Erstelle Modell mit kompletter Hierarchie
model = AgglomerativeClustering(distance_threshold=0, n_clusters=None)
model.fit(X)

Nun können wir das komplette Dendrogramm plotten.

In [None]:
plt.figure(figsize=(10,20))
plot_dendrogram(model)
plt.xlabel('Anzahl an Beobachtungen pro Knoten (bzw. Index des Punktes wenn es keine Klammern gibt)', fontsize=20)
plt.show()

Oder auch eine abgeschnittenen Form, welche etwas übersichtlicher ist.

In [None]:
plt.figure(figsize=(7.5,7.5))
plot_dendrogram(model, truncate_mode="level", p=3)
plt.xlabel('Anzahl an Beobachtungen pro Knoten', fontsize=20)
plt.show()

# Übungsaufgaben

Wir wollen uns die Verhaftungen pro Bundesstaat in den USA etwas genauer anschauen. Laden Sie hierfür die Datei `USarrests.csv` von Moodle herunter und laden Sie sie in Python.

Wir möchten hierarchisches Clustern auf den Staaten ausführen. Das heißt die verschiedenen Staaten in einzelne Cluster einordnen.

In [None]:
usarrests = pd.read_csv('USarrests.csv')

In [None]:
usarrests.head()

In [None]:
# Umbennen der Staatspalte
usarrests.rename(columns={'Unnamed: 0':'State'}, inplace=True)

## Aufgabe 1

Nutzen Sie Bottom Up hierarchisches Clustern mit complete linkage und euklidischem Abstand um die Staaten zu clustern und erstellen Sie drei verschiedene Cluster. Welcher Staat gehört zu welchem Cluster?

In [None]:
# Wähle alle Spalten außer die Staatsspalte
Xarrests = usarrests.drop('State', axis=1)

In [None]:
# Erzeuge 3 Cluster mittels hierarchischem Clustern und complete linkage
AggCluArrComp = AgglomerativeClustering(n_clusters=3, linkage='complete')
AggCluArrComp.fit(Xarrests)

In [None]:
# Gebe Staaten pro Cluster aus
usarrests['LabelCompleteLinkage'] = AggCluArrComp.labels_

In [None]:
for i in range(3):
    print('Cluster', str(i), ':', usarrests.loc[usarrests.LabelCompleteLinkage == i, 'State'].values)
    print('\n')

## Aufgabe 2

Nutzen Sie Bottom Up hierarchisches Clustern mit single linkage und euklidischem Abstand um die Staaten zu clustern und erstellen Sie drei verschiedene Cluster. Welcher Staat gehört zu welchem Cluster?

In [None]:
# Erzeuge 3 Cluster mittels hierarchischem Clustern und single linkage
AggCluArrSing = AgglomerativeClustering(n_clusters=3, linkage='single')
AggCluArrSing.fit(Xarrests)
# Gebe Staaten pro Cluster aus
usarrests['LabelSingleLinkage'] = AggCluArrSing.labels_

In [None]:
for i in range(3):
    print('Cluster', str(i), ':', usarrests.loc[usarrests.LabelSingleLinkage == i, 'State'].values)
    print('\n')

## Aufgabe 3

Wiederholen Sie Aufgaben 1 und 2, aber skalieren Sie Daten vorher. Wie unterscheiden sich die Ergebnisse? Ist es sinnvoll die Daten vorher zu skalieren?

**Tip:** Nutzen Sie den [`MinMaxScaler`](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html 'MinMaxScaler Dokumentation') von Sklearn um die Daten zu skalieren.

In [None]:
from sklearn.preprocessing import MinMaxScaler

In [None]:
# Initalisiere Skalierungsobjekt
scaler = MinMaxScaler()
# Fitte Skalierungsobjekt
scaler.fit(Xarrests)
# Skaliere Daten
XarrestsScaled = scaler.transform(Xarrests)

In [None]:
# Wiederhole hierarchisches Cluster mit complete und single linkage

# Erzeuge 3 Cluster mittels hierarchischem Clustern und complete linkage
AggCluArrCompScale = AgglomerativeClustering(n_clusters=3, linkage='complete')
AggCluArrCompScale.fit(XarrestsScaled)
# Gebe Staaten pro Cluster aus
usarrests['LabelCompleteLinkageScale'] = AggCluArrCompScale.labels_

# Gebe Cluster für complete linkage mit skalierten Daten aus
print('Complete Linkage mit skalierten Daten:')
print('\n')
for i in range(3):
    print('Cluster', str(i), ':', usarrests.loc[usarrests.LabelCompleteLinkageScale == i, 'State'].values)
    print('\n')

# Erzeuge 3 Cluster mittels hierarchischem Clustern und single linkage
AggCluArrSingScale = AgglomerativeClustering(n_clusters=3, linkage='single')
AggCluArrSingScale.fit(XarrestsScaled)
# Gebe Staaten pro Cluster aus
usarrests['LabelSingleLinkageScale'] = AggCluArrSingScale.labels_

# Gebe Cluster für single linkage mit skalierten Daten aus
print('Single Linkage mit skalierten Daten:')
print('\n')
for i in range(3):
    print('Cluster', str(i), ':', usarrests.loc[usarrests.LabelSingleLinkageScale == i, 'State'].values)
    print('\n')