# K-Means und K-Medoid

Wir haben sowohl K-Means als auch K-Medoid als grundlegende Clustering-Methoden kennengelernt. Lassen Sie uns mit ihnen experimentieren und die Unterschiede beobachten.


## Pakete vorbereiten

* K-Means ist im [`sklearn`](https://scikit-learn.org/stable/)-Paket enthalten und kann direkt importiert werden.
* K-Medoid ist im [`scikit-extra`](https://scikit-learn-extra.readthedocs.io/en/stable/)-Paket enthalten, es muss zuerst installiert und dann importiert werden.
* Wir benötigen [`numpy`](https://numpy.org/) und [`pandas`](https://pandas.pydata.org/), um einige Dummy-Datensätze zu erstellen.
* Wir benötigen [`seaborn`](https://seaborn.pydata.org/), um die Ergebnisse zu visualisieren.

Zuerst installieren wir [`scikit-extra`](https://scikit-learn-extra.readthedocs.io/en/stable/).

In [None]:
!pip install scikit-learn-extra

Nun importieren wir die notwendigen Bibliotheken:

In [None]:
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from sklearn_extra.cluster import KMedoids
import matplotlib.pyplot as plt
import seaborn as sns

# Versuch 1. Erstellen eines einfachen Datensatzes

Zur besseren Visualisierung erstellen wir Datenpunkte mit 2 Dimensionen.


### Erstellen von 3 Datenpunkt-Clustern

Wir erstellen im Folgenden einen Datensatz aus $3$ Clustern. Jeder Cluster enthält $100$ Datenpunkte, jeder Datenpunkt hat $2$ Dimensionen. Die Datenpunkte folgen einer ($2$-dimensionalen (oder auch [*bivariaten*](https://de.wikipedia.org/wiki/Mehrdimensionale_Normalverteilung))) [Normalverteilung](https://de.wikipedia.org/wiki/Normalverteilung) mit angegebenem Mittelwert und Standardabweichung und werden mit dem Befehl [`np.random.normal()`](https://numpy.org/doc/stable/reference/random/generated/numpy.random.normal.html) erzeugt.


### Aufgabe 1:

Erstellen Sie $3$ Datencluster `c1`, `c2` und `c3` mit je $100$ Datenpunkten, die $2$-dimensional normalverteilt sind mit Hilfe der Funktion `np.random.normal()`. Die Fügen Sie die Cluster mit der Funktion [`np.concatenate()`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html) zu einem Datensatz `d` zusammen. Überprüfen Sie, ob der Datensatz $300$ $2$-dimensionale Datenpunkte enthält (`d.shape` muss `(300, 2)` sein.)

In [None]:
# 1. Erstellen eines einfachen Datensatzes
c1 = np.random.normal(5, 3, (100, 2))
### BEGIN SOLUTION
c2 = np.random.normal(15, 5, (100, 2))
c3 = np.random.normal(-5, 2, (100, 2))
d = np.concatenate((c1, c2, c3), axis = 0)
### END SOLUTION
d.shape

### Visualisierung des Datensatzes mit Matplotlib und Seaborn

Wir können uns die Datenpunkte als Scatter-Plot mit Matplotlib's [`scatter()`](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.scatter.html) Funktion oder auch mit Seaborn's Funktion [`sns.scatterplot()`](https://seaborn.pydata.org/generated/seaborn.scatterplot.html) anzeigen lassen. Die Seaborn `scatterplot()` Funktion erwartet allerdings einen Pandas Dataframe als Input, daher muss der erzeugte Datensatz `d` zuvor in einen solchen umgewandelt werden.

### Aufgabe 2:

Visualisieren Sie erzeugten Daten
1. mit Matplotlib's `scatter()`-Funktion
1. mit Seaborn's `scatterplot()`-Funktion

In [None]:
# Visualisierung des Datensatzes mit Matplotlib 

### BEGIN SOLUTION
plt.scatter(c1[:,0], c1[:,1], color='red', alpha=0.5)
plt.scatter(c2[:,0], c2[:,1], color='green', alpha=0.5)
plt.scatter(c3[:,0], c3[:,1], color='blue', alpha=0.5)
plt.title('Datenpunkte in 3 Clustern')
plt.xlabel('X-Achse')
plt.ylabel('Y-Achse')
plt.grid(True)
### END SOLUTION

In [None]:
# Konvertiere das Numpy-Array in ein DataFrame
df = pd.DataFrame(d, columns=['x', 'y'])

#df.head()

In [None]:
# Visualisierung des Datensatzes mit Seaborn

### BEGIN SOLUTION
sns.scatterplot(data = df, x = 'x', y = 'y')
### END SOLUTION

### Trainieren eines Modells mit KMeans

Das Training des in `sklearn` verfügbaren [`KMeans` Algorithmus](https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html) geschieht einfach über den Aufruf der `fit()`-Funktion, der unser Datensatz übergeben wird.

#### Aufgabe 3:
 Trainieren Sie `sklearn`'s `KMeans`-Algorithmus.


In [None]:
# Training of a KMeans model
# Hint: Use sklearn's KMeans class as follows: 
# kmeans = KMeans(...).fit(df)
 
### BEGIN SOLUTION
kmeans = KMeans(n_clusters=3, random_state=0).fit(df)
### END SOLUTION

Seaborn's `scatterplot()`-Funktion bietet über den Parameter `hue` die Möglichkeit, die entschiedenen Datenpunkte einzufärben.

In [None]:
# Visualising the clustered data points with Seaborn
sns.scatterplot(data = df, x = 'x', y = 'y', hue = kmeans.predict(df))

### Trainieren eines Modells mit KMedoid

#### Aufgabe 4:
- Trainieren Sie nun den KMedoid-Algorithmus (Funktion `KMedoids()`)

In [None]:
### train a KMedoid model
### BEGIN SOLUTION
kmedoids = KMedoids(n_clusters=3, random_state=0).fit(df)
### END SOLUTION

### Visualisierung des Ergebnisses


In [None]:
sns.scatterplot(data = df, x = 'x', y = 'y', hue = kmedoids.predict(d))

## Fazit: 
KMeans und KMedoid sollten bei diesem Datensatz gleichermaßen gut abgeschneiden.


# Runde 2: Fügen wir dem Datensatz einen Ausreißer hinzu


### Erstellen derselben zufälligen Cluster


In [None]:
c1 = np.random.normal(5, 3, (100, 2))
c2 = np.random.normal(15, 5, (100, 2))
c3 = np.random.normal(-5, 2, (100, 2))

### Erstellen eines Ausreißers

Der Ausreißer liegt weit entfernt von allen anderen Datenpunkten.


In [None]:
outlier = np.array([[100, 100]])

In [None]:
d2 = np.concatenate((c1, c2, c3, outlier), axis = 0)

### Visualisierung des Datensatzes


In [None]:
# create dataframe from numpy array
df2= pd.DataFrame(d2, columns=['x', 'y'])
# visualize data points with seaborn
sns.scatterplot(data = df2, x= 'x', y = 'y')

### Trainieren eines Modells mit KMeans


In [None]:
kmeans = KMeans(n_clusters=3, random_state=0).fit(df2)

### Visualisierung des Ergebnisses


In [None]:
sns.scatterplot(data = df2, x= 'x', y = 'y', hue = kmeans.predict(df2))

### Trainieren eines Modells mit KMedoids


In [None]:
kmedoids = KMedoids(n_clusters=3, random_state=0).fit(df2)

### Visualisierung des Ergebnisses


In [None]:
sns.scatterplot(data = df2, x= 'x', y = 'y', hue = kmedoids.predict(df2))

### Fazit: KMedoid hat auch bei einem Ausreißer gut funktioniert. KMeans hingegen ist gescheitert.


# Runde 3: Erstellen eines realistischeren Datensatzes mit Pandas


## Erstellen eines Datensatzes


In [None]:
# create three data frames with normally distributes data
df1 = pd.DataFrame({'x': np.random.normal(5, 3, (100)), 'y': np.random.normal(-2, 2, (100))})
df2 = pd.DataFrame({'x': np.random.normal(15, 2, (100)), 'y': np.random.normal(22, 2, (100))})
df3 = pd.DataFrame({'x': np.random.normal(-5, 3, (100)), 'y': np.random.normal(8, 2, (100))})

# concatenate the three data frames
df = pd.concat([df1, df2, df3], ignore_index=True)

# check result
print(df)

### Visualisierung des Datensatzes


In [None]:
sns.relplot(data = df, x = 'x', y = 'y')

### Trainieren eines Modells mit KMeans


In [None]:
kmeans = KMeans(n_clusters=3, random_state=0).fit(df)

### Visualisierung des Ergebnisses


In [None]:
sns.scatterplot(data = df, x = 'x', y = 'y', hue = kmeans.predict(df))

### Trainieren eines Modells mit KMedoids


In [None]:
kmedoids = KMedoids(n_clusters=3, random_state=0).fit(df)

### Visualisierung des Ergebnisses


In [None]:
sns.scatterplot(data = df, x = 'x', y = 'y', hue = kmedoids.predict(df))

### Fazit: KMeans und KMedoid haben gleichermaßen gut abgeschnitten.


# Runde 4: Fügen wir einen Ausreißer hinzu


## Erstellen eines Datensatzes mit einem Ausreißer


In [None]:
df1 = pd.DataFrame({'x': np.random.normal(5, 3, (100)), 'y': np.random.normal(-2, 2, (100))})
df2 = pd.DataFrame({'x': np.random.normal(15, 2, (100)), 'y': np.random.normal(22, 2, (100))})
df3 = pd.DataFrame({'x': np.random.normal(-5, 3, (100)), 'y': np.random.normal(8, 2, (100))})
#outlier
df_outlier = pd.DataFrame({'x': [100], 'y': [100]})

# concatenate the three data frames and the outlier
df = pd.concat([df1, df2, df3, df_outlier], ignore_index=True)

# checlk result
print(df)

### Visualisierung des Datensatzes


In [None]:
sns.relplot(data = df, x = 'x', y = 'y')

### Trainieren eines Modells mit KMeans


In [None]:
kmeans = KMeans(n_clusters=3, random_state=0).fit(df)

### Visualisierung des Ergebnisses


In [None]:
sns.scatterplot(data = df, x = 'x', y = 'y', hue = kmeans.predict(df))

### Trainieren eines Modells mit KMedoids


In [None]:
kmedoids = KMedoids(n_clusters=3, random_state=0).fit(df)

### Visualisierung des Ergebnisses


In [None]:
sns.scatterplot(data = df, x = 'x', y = 'y', hue = kmedoids.predict(df))

### Fazit: KMedoid hat auch bei einem Ausreißer gut funktioniert. KMeans hingegen ist gescheitert.


# Runde 5: Fügen wir zwei Ausreißer hinzu


## Erstellen eines Datensatzes mit Ausreißern


In [None]:
# create three data frames with normally distributes data
df1 = pd.DataFrame({'x': np.random.normal(5, 3, (100)), 'y': np.random.normal(-2, 2, (100))})
df2 = pd.DataFrame({'x': np.random.normal(15, 2, (100)), 'y': np.random.normal(22, 2, (100))})
df3 = pd.DataFrame({'x': np.random.normal(-5, 3, (100)), 'y': np.random.normal(8, 2, (100))})

# outlier
df_outlier1 = pd.DataFrame({'x': [200], 'y': [200]})
df_outlier2 = pd.DataFrame({'x': [-200], 'y': [-200]})

# concatenate the three data frames and the outliers
df = pd.concat([df1, df2, df3, df_outlier1, df_outlier2], ignore_index=True)

### Visualisierung des Datensatzes


In [None]:
sns.relplot(data = df, x = 'x', y = 'y')

### Trainieren eines Modells mit KMeans


In [None]:
kmeans = KMeans(n_clusters=3).fit(df)

### Visualisierung des Ergebnisses


In [None]:
sns.scatterplot(data = df, x = 'x', y = 'y', hue = kmeans.predict(df))

### Trainieren eines Modells mit KMedoids


In [None]:
kmedoids = KMedoids(n_clusters=3, random_state=0).fit(df)

### Visualisierung des Ergebnisses


In [None]:
sns.scatterplot(data = df, x = 'x', y = 'y', hue = kmedoids.predict(df))

### Fazit: KMedoid hat auch bei mehreren Ausreißern gut funktioniert. KMeans hingegen ist gescheitert.


Credits: Dieses Notebook basiert auf [KMeans VS KMedoid von Di Wu](https://github.com/diwucub/Data-Mining-with-Python/blob/main/08%20Clustering/KMeans_VS_KMedoid.ipynb).
