# MLiP K-Means Clustering
Kurs Maschinelles Lernen in der Produktion

### In diesem Notebook wird das Clustering mit K-Means anhand eines Anwendungsbeispiels geübt

Über den vorliegenden Datensatz ist nicht allzu viel bekannt. Es ist ein drei dimensionaler Datensatz. Im Gegensatz zur Regression und Klassifikation besteht der Datensatz für eine Clusteranalyse __nur aus Input-Parametern__. Ziel ist es den Datensatz in Gruppen (Cluster) zu unterteilen. Die korrekte Anzahl der Cluster ist unbekannt und muss selbst gewählt werden. 

Mittels des k-Means Clusterings soll der gegebene Datensatz in möglichst homogene Gruppe (Cluster) unterteilt werden. Jeder Datenpunkt (Sample) wird hierbei einer Klasse (einem Cluster) zugeordnet.
 
### Data-Mining-Prozess:

![Bild konnte nicht geladen werden! 1. Daten erfassen - 2. Daten erkunden - 3. Daten vorbereiten - 4. Modelle bilden - 5. Modelle validieren - 6. Modell testen](Prozess_Modellentwicklung_v2.png "Title")

### 0. Bibliotheken importieren

In [None]:
# Importiere benötigte Bibliotheken
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#Einstellungen für die Grafikausgabe
style = 'seaborn-whitegrid'
plt.style.use(style)
plt.rcParams.update({'font.size': 14})  # Schriftgröße aller Textzeichen im Graphen

TODO:
* Wähle eine Zahl zwischen 1 und 100 für die Generierung deiner spezifischen Zufallszahlen my_seed=

(Wähle für alle Notebooks in allen Übungen immer die gleiche Zahl (z.B. den Tag deines Geburtstags), dann sind die Ergebnisse der verschiedenen Machine-Learning-Verfahren vergleichbar da dann alle Notebooks mit der "gleichen" Folge an Zufallszahlen arbeiten)

AUSGABE:
* Gewählte Zufallszahl

In [None]:
# Erstelle eigene Zufallszahlen
my_seed = TODO

# Ausgabe gewählte Zufallszahlen
print("\nGewählte Zahl für Zufallszahlen: \t" + str(my_seed))

### 1. Daten erfassen - Daten importieren

In [None]:
# Datensatz importieren
df = pd.read_csv("Daten_Clustering.csv")

### 2. Daten erkunden
In den bisherigen Notebooks wurden bereits mehrfach das Daten erkunden durchgeführt. Bei dieser Aufgabe ist es Ihre Aufgabe es selbstständig durchzuführen. 

TODO:
- Durchführung Daten erkunden

In [None]:
TODO

In [None]:
TODO

In [None]:
TODO

### 3. Daten vorbereiten

In [None]:
# Aufteilen des Datensatzes in X und y - Nicht nötig da 'Clustering'
X_train = df.copy(deep=True)

### 4.1 Modelle bilden - Mögliche Hyperparameter anzeigen

In [None]:
# Importieren des Modells
from sklearn.cluster import KMeans

Beschreibung der Hyperparameter:
https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html

### 4.2 Modelle bilden - Modell bilden

In diesem Schritt wird das Modell erstellt. Dabei müssen auch die Hyperparameter mit angegeben werden. Wie aus der Dokumentation entnehmbar ist gibt es einige Einstellmöglichkeiten, die gerne ausprobiert werden dürfen.\
Wichtigste Aufgabe ist jedoch die passende Anzahl der Cluster zu finden. Dies muss manuell durchgeführt werden.

TODO: 
- Festlegen der Anzahl der Cluster

In [None]:
# Erstellung des Modell 
model = KMeans(n_clusters=TODO, random_state=my_seed)

### 4.3 Modelle bilden - Modell trainieren
Nun wird das Modell trainiert.\
__Achtung:__\
Der .fit Befehl bekommt nur die Input Features X_train und keine Zielgrößen.

In [None]:
# Trainiere das Modell
model.fit(X_train)

In [None]:
# Ausgabe Clusterzentren
model.cluster_centers_

### 5.1 Modelle validieren - Bewertung mittels Abstand zum Clusterzentrum

Um die Qualität/Güte des Modells zu bestimmen, wird der Abstand eines jeden Samples zu seinem zugehörigen Clusterzentrum berechnet. Die Summe aller Abstände je Cluster und deren Summe lässt eine Schluss auf die Güte des Clusterings zu.

In [None]:
# Mittlerer quadratischer Abstand aller Punkte zum Clusterzentrum
print("\nCluster:\t\tMean squared distance:\t\tAnzahl Punkte in Cluster:")
mean_squared_distances = []
for i, cluster in enumerate(model.cluster_centers_):
    mask = model.labels_ == i
    mean_squared_distance = ((X_train["x1"][mask] - model.cluster_centers_[i][0]) ** 2
                             + (X_train["x2"][mask] - model.cluster_centers_[i][1]) ** 2
                             + (X_train["x3"][mask] - model.cluster_centers_[i][2]) ** 2).mean()
    mean_squared_distances.append(mean_squared_distance)
    print("Cluster " + str(i) + "\t\t"
          + str("%.2f" % mean_squared_distance)
          + "\t\t\t\t" + str(len(X_train["x1"][mask])))
print("mean (clusters)\t\t"
      + str("%.2f" % (sum(mean_squared_distances) / len(mean_squared_distances)))
      + "\t\t\t\t" + str(len(X_train)))

plt.figure(figsize=(16, 5))
plt.bar(range(len(model.cluster_centers_)), mean_squared_distances)
plt.xticks(np.arange(0,len(model.cluster_centers_)))
plt.xlabel("Cluster")
plt.ylabel("Mittlerer quadratische Abstand")
plt.show()

### 5.2 Modelle validieren - Bewertung mittels Silhouettenkoeffizient
Der Silhouettenkoeffizient für einzelne Datenpunkte variiert zwischen -1 und 1. Ein Wert von 1 bedeutet das der Punkt einen großen Abstand zu den umliegenden anderen Clustern hat. Ein Wert von 0 bedeutet das der Punkt auf der Grenze zwischen 2 Clustern liegt. Ein Wert von -1 bedeutet das der Punkt wahrscheinlich dem falschen Cluster zuegordnet wurde.

In [None]:
# Berechne Silhouetten-Wert

# import Berechnungsformeln für Silhouettenkoeffizient
from sklearn.metrics import silhouette_samples, silhouette_score

# Berechnung und Ausgabe des Silhouettenkoeffizient für den gesamten Datensatz
print("mean silhouette:\t" + str("%.2f" % silhouette_score(X_train, model.labels_)))

In [None]:
# Grafische ausgabe der Silhouettenkoeffizient je Datenpunkt

# Berechnung der Silhouettenkoeffizient je Datenpunkt
df["silhouette"] = silhouette_samples(X_train, model.labels_)
df["labels"] = model.labels_
df = df.sort_values(["labels", "silhouette"])

# Definition eigener Farben für die spätere Darstellung
mycolors = ['#1f77b4', '#ff7f0e', '#2ca02c', '#d62728', '#9467bd', '#8c564b']

# Erstellung des Plots der Silhouttenkoeffizienten
plt.figure(figsize=(16, 6))
plt.bar(range(len(df)), df["silhouette"], width=1., color = [mycolors[x] for x in df['labels']])
plt.plot([0, len(df)],
         [silhouette_score(X_train, model.labels_), silhouette_score(X_train, model.labels_)], 'k')
plt.xlabel("Datenpunkte (sortiert nach Cluster und Silhouettenkoeffizient)")
plt.ylabel("Silhouettenkoeffizient")
plt.show()

### 5.3 Modelle validieren - Visualisierung Clusterzentren

Um die Modellgüte visuell darzustellen, wird ein 3D-Plot erstellt.\
Achtung, dies ist nur deshalb möglich, weil hier ein drei-dimensionaler Datensatz vorliegt. Ansonsten gibt es auch noch die Möglichkeit die sns.pairplot Funktion, siehe unten. 

In [None]:
# 3D-Plot Ergebnis Clustering
from mpl_toolkits.mplot3d import Axes3D
from matplotlib.patches import Patch

if i > len(mycolors):
    print("Warning - Too much clusters! -> Colors don't match any more!")

# 3D Plot-Befehl
fig = plt.figure(figsize=(12, 12))
ax = fig.add_subplot(111, projection="3d")
legend = []

# Plot der Datenpunkte mit Einfärbung
ax.scatter(X_train["x1"],
           X_train["x2"],
           X_train["x3"],
           c=[mycolors[cluster] for cluster in model.labels_],
           marker="o",
           s=140)

# Plot der Centroids mit Einfärbung
ax.scatter(model.cluster_centers_[:, 0],
           model.cluster_centers_[:, 1],
           model.cluster_centers_[:, 2],
           c=mycolors[0:len(model.cluster_centers_)],
           marker="o",
           edgecolor="black",
           s=500)

ax.set_xlabel("x1")
ax.set_ylabel("x2")
ax.set_zlabel("x3")
plt.legend([Patch(color=mycolors[b]) for b in np.arange(0,len(model.cluster_centers_))],
           ['Cluster '+ str(b) for b in np.arange(1,len(model.cluster_centers_)+1)])
plt.show()

Einfach Visualisierung des Clustering mittels dem seaborn pairplot. 

In [None]:
# Erzeugung eines DataFrames für pairplot
plot_df = X_train

# Erweiterung des DataFrames um Spalte für Einfärbung
plot_df = plot_df.assign(cluster_label = model.labels_)

# Ausführung des Pairplots
import seaborn as sns
sns.pairplot(plot_df, hue="cluster_label", palette="tab10")
plt.show()

### 7. Bonus - Visualisierung k-Means: Anzahl Cluster und Mean-Squared-Distance
Führe diesen Schritt erst aus, wenn du dich für eine Clusteranzahl entschieden hast.


### 7.1 Visualisierung - Mittlerer quadratischer Abstand je Cluster

In [None]:
range_clusters = [2, 3, 4, 5]
plt.figure(figsize=(16, 16))
for clus in range_clusters:
    # Erstelle Modell
    kmeans = KMeans(n_clusters=clus, random_state=my_seed)
    # Training des Modells
    kmeans.fit(X_train)
    
    # Berechne Abstand
    mean_squared_distances = []
    cluster_names = []
    for i, cluster_centers in enumerate(kmeans.cluster_centers_):
        mask = kmeans.labels_ == i
        mean_squared_distance = ((X_train["x1"][mask] - kmeans.cluster_centers_[i][0]) ** 2
                                 + (X_train["x2"][mask] - kmeans.cluster_centers_[i][1]) ** 2
                                 + (X_train["x3"][mask] - kmeans.cluster_centers_[i][2]) ** 2).mean()
        mean_squared_distances.append(mean_squared_distance)
        cluster_names.append(str(i + 1))
    
    # Zeichne Bar-Plot
    plt.subplot(3, 3, clus - 1)
    plt.bar(cluster_names, mean_squared_distances)
    plt.ylim([0, 150])
    plt.xlabel("Cluster")
    plt.ylabel("Mittlerer quadratischer Abstand")
    plt.title(str(clus) + " Cluster - mean: "
              + str("%.2f" % (sum(mean_squared_distances) / len(mean_squared_distances))))
plt.show()

### 7.2. Visualisierung - Mittlerer quadratischer Abstand und Silhouettenkoeffizient über mehrere Cluster 
Im folgenden Schritt wird der Verlauf des mittleren quadratischen Abstands und des Silhouttenkoeffizienten geplottet.\
Anhand des Verlaufs des mittleren quadratischen Abstands kann man die elbow method (den Ellenbogentrick) durchführen.\
Beim Silhouttenkoeffizienten dagegen wählt man das Cluster mit dem höchsten Wert.

In [None]:
range_clusters = range(10)
range_clusters = range_clusters[1:]
mean_errors = []
clusters = []
silhouettes = []

for clus in range_clusters:
    # Erstelle Modell
    kmeans = KMeans(n_clusters=clus, random_state=my_seed)
    # Modell trainieren
    kmeans.fit(X_train)
    
    # Berechne Abstand
    if clus != 1:
        silhouettes.append(silhouette_score(X_train, kmeans.labels_))
    mean_errors.append(kmeans.inertia_)
    clusters.append(clus)
    
# Plots erstellen
plt.figure(figsize=(16, 12))
plt.subplot(2, 1, 1)
plt.plot(clusters, mean_errors, "o--")
plt.xlim(min(range_clusters)-0.5, max(range_clusters)+0.5)
plt.xlabel("Anzahl der Cluster")
plt.ylabel("mittlerer quadratischer Abstand")

plt.subplot(2, 1, 2)
plt.plot(clusters[1:], silhouettes, "o--")
plt.xlabel("Anzahl der Cluster")
plt.ylabel("Silhouettenkoeffizient")
plt.xlim(min(range_clusters)-0.5, max(range_clusters)+0.5)
plt.show()