# 3. Praktikum in Data Science - Clustering

---

### Aufgabe 1: K-Means Clustering und Visualisierung

**Ziel**: Verstehen und Anwenden von K-Means Clustering auf einen Datensatz und Visualisieren der Ergebnisse.

**Aufgabenübersicht**:

1. **Datenvorverarbeitung**:
   - Laden Sie den bereitgestellten Datensatz.
   - Auswahl der Features 
   - Standardisieren Sie die für das K-Means-Clustering geeigneten Merkmale.

2. **K-Means-Clustering**:
   - Wenden Sie den K-Means-Algorithmus auf den Datensatz an. Wählen Sie eine geeignete Anzahl von Clustern (k) und begründen Sie Ihre Wahl.
   - Weisen Sie jedem Datenpunkt Cluster-Labels zu.

3. **Pairplot-Analyse**:
   - Erstellen Sie ein 'pairplot' mit Seaborn, um die Verteilung der Merkmale des Datensatzes innerhalb der Cluster zu visualisieren.
   - Identifizieren Sie alle offensichtlichen Beziehungen oder Korrelationen zwischen den Merkmalen innerhalb und zwischen den Clustern.

4. **Analyse und Reflexion**:
   - Verfassen Sie eine kurze Analyse der Clustering-Ergebnisse. Diskutieren Sie alle in den Clustern beobachteten Muster oder Erkenntnisse.
   - Denken Sie über die Effektivität des K-Means-Algorithmus bei der Analyse dieses Datensatzes nach.

## 1.1 Datensatz laden
- Bibliotheken importieren
- Datensatz laden


In [None]:
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
import seaborn as sns
import pandas as pd

In [None]:
# Load the CSV file
csv_file_path = 'data.csv'
csv_data = pd.read_csv(csv_file_path)

print(csv_data.columns)

In [None]:
# Selecting a mix of potentially relevant features for clustering
selected_features = ['duration', 'views_growth', 'likes_cleaned', 'dislikes_cleaned', 'comments_cleaned']

# Extracting the selected features
clustering_data = csv_data[selected_features]


In [None]:
# Standardisierung der Daten
standardized_data=StandardScaler().fit(clustering_data).transform(clustering_data) 

## 2.1 Anwendung der Ellbogen-Methode
- Die "Inertia" stellt die Summe der Quadrate innerhalb der Cluster dar, die tendenziell abnimmt, wenn wir die Anzahl der Cluster erhöhen. Eine gängige Methode zur Bestimmung der optimalen Anzahl von Clustern ist die Ellbogen-Methode, bei der nach einem Punkt im Plot gesucht wird, an dem sich die Abnahmerate stark verändert und einem "Ellbogen" ähnelt.

- führen Sie die K-Means-Clustering-Methode auf den standardisierten Daten durch. 
- testen sie dafür verschiedene Werte für k und berechnen sie die `inertia`
- plotten sie die berechneten Werte

In [None]:
inertia_values = []

# Testen verschiedener Werte für k (Anzahl der Cluster)
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans.fit(standardized_data)
    inertia_values.append(kmeans.inertia_)


sns.set(style = "darkgrid")

# Plot der Inertia-Werte
plt.figure(figsize=(8, 6))
plt.plot(range(1, 11), inertia_values, marker='o')
plt.title('Ellbogen-Plot')
plt.xlabel('Anzahl der Cluster')
plt.ylabel('Inertia')
#plt.grid(True)
plt.show()

## Screenshot des erwarteten Ergebnisses:

![Elbowplot](elbowplot_output.png)

## 2.2 Anzahl der Cluster bestimmen
Wählen Sie eine geeignete Anzahl von Clustern (k) anhand des Elbow-Diagrams und begründen Sie Ihre Wahl.
Hinweis: es gibt hier keine 100% richtige Antwort.

- Fahren sie mit K-Means-Clustering unter Verwendung der gewählten Anzahl von Clustern fort

**Wir haben uns für eine Anzahl von 8 Clustern entschieden, da ab dem 8. Cluster die Inertia sich nicht mehr so drastisch ändert, wie zuvor.**
<br>(Betrachtet wurde bis zu einer Cluster-Anzahl von 20)

In [None]:
num_clusters = 8

# K-Means-Modell erstellen
kmeans = KMeans(n_clusters=num_clusters, random_state=42, n_init=10)
kmeans.fit(standardized_data)

# Den Cluster zuordnen für jeden Datenpunkt
csv_data['cluster'] = kmeans.labels_

# Ausgabe der Cluster-Zuordnung
print(csv_data[['duration', 'views_growth', 'likes_cleaned', 'dislikes_cleaned', 'comments_cleaned', 'cluster']])

## 3. **Pairplot-Analyse**:
   - Erstellen Sie ein 'pairplot' mit `Seaborn`, um die Verteilung der Merkmale des Datensatzes innerhalb der Cluster zu visualisieren.
   - Identifizieren Sie alle offensichtlichen Beziehungen oder Korrelationen zwischen den Merkmalen innerhalb und zwischen den Clustern und beschreiben sie diese kurz.

In [None]:
sns.set(style = "darkgrid")

#sns.pairplot(pd.concat([pd.DataFrame(standardized_data, columns=selected_features), csv_data['cluster']], axis=1), hue='cluster', palette='viridis')
#plt.show()


###  Zur Erzeugung des Beispiel-Screenshots:

num_clusters_b = 4

# K-Means-Modell erstellen
kmeans_b = KMeans(n_clusters=num_clusters_b, random_state=42, n_init=10)
kmeans_b.fit(standardized_data)

# Den Cluster zuordnen für jeden Datenpunkt
csv_data_b = pd.read_csv(csv_file_path)

csv_data_b['cluster'] = kmeans_b.labels_

sns.set(style = "darkgrid")

sns.pairplot(pd.concat([pd.DataFrame(standardized_data, columns=selected_features), csv_data_b['cluster']], axis=1), hue='cluster', palette='viridis')
plt.show()

## Screenshot des erwarteten Pairplots:

![Pairplot](pairplot_output.png)