# **`DSML_WS_13` - Clustering Task**

Please work on the following task **before** the thirteenth workshop session.

## 1. **Clustering breast cancer samples**

In the last workshop, we have illustrated k-means clustering using the iris flower dataset. Put what you have learned into practice by applying it to our known cancer dataset. Would you have chosen the true number of 2 clusters without knowing that there are only two cancer types? Do the following:
- load and prepare data (including feature scaling)
- run a principal component analysis and generate as many principal components so that at least 95% of the variance in the original data is preserved
- run k-means for different values for k using your the principal components as features
- select the most suitable k using the elbow method
- re-train your model using your selected number for k
- generate two scatterplots of the first and second principal components: one showing the true label and one showing your generated clusters

In [22]:
# your code here
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns

data = pd.read_csv('breast_cancer.csv')
if 'Unnamed: 32' in data.columns:
    data = data.drop(columns=['Unnamed: 32'], axis=1)
if 'id' in data.columns:
    data = data.drop(columns=['id'], axis=1)

X = data.drop(columns=['diagnosis'], axis=1)
Y = data['diagnosis']
Y = Y.map({'M': 1, 'B': 0})  # Convert 'M' to 1 and 'B' to 0

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print(f"Original number of features: {X.shape[1]}")
print(f"Scaled number of features: {X_scaled.shape}")

pca = PCA(n_components=0.95)
X_pca = pca.fit_transform(X_scaled)
print(f"Reduced number of features after PCA: {X_pca.shape[1]}")
print(f"Shape of PCA transformed data: {X_pca.shape}")


wcss = []
k_range = range(1, 11)

for k in k_range:
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_pca)
    wcss.append(kmeans.inertia_)

plt.figure(figsize=(10, 6))
plt.plot(k_range, wcss, marker='o', linestyle = '--')
plt.title('Elbow Method for Optimal k')
plt.xlabel('Number of clusters (k)')
plt.ylabel('WCSS (Within-Cluster Sum of Squares)')
plt.grid(True)
plt.savefig('elbow_method.png')
plt.close()

print("Das Elbow-Methoden-Plot wurde generiert und als 'elbow_method_plot.png' gespeichert.")
print("Betrachten Sie dieses Plot, um die optimale Anzahl von Clustern (k) zu identifizieren.")


optimal_k = 2
kmeans_optimal= KMeans(n_clusters=optimal_k, random_state=42)
clusters = kmeans_optimal.fit_predict(X_pca)
print(f"K-Means Modell wurde mit {optimal_k} Clustern neu trainiert.")
print(f"Die ersten 10 Cluster-Zuordnungen sind: {clusters[:10]}")
print(f"Anzahl der Datenpunkte pro Cluster: {pd.Series(clusters).value_counts().sort_index()}")


plt.figure(figsize=(10, 6))
plt.subplot(1, 2, 1)
sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1], hue=Y, palette='viridis', legend='full')
plt.title('True Labels of Cancer Types (PC1 vs PC2)')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')

plt.subplot(1, 2, 2)
sns.scatterplot(x=X_pca[:, 0], y=X_pca[:, 1], hue=clusters, palette='viridis', legend='full')
plt.title(f'K-Means Clusters (k=2) (PC1 vs PC2)')
plt.xlabel('Principal Component 1')
plt.ylabel('Principal Component 2')

plt.tight_layout() # Passt die Plots an, damit sie sich nicht überlappen
plt.savefig('pca_cluster_comparison.png') # Speichert die Plots als Datei
plt.close() # Schließt das Plot-Fenster nach dem Speichern

print("Zwei Streudiagramme wurden generiert und als 'pca_cluster_comparison.png' gespeichert.")
print("Vergleichen Sie die beiden Diagramme, um zu sehen, wie gut die K-Means-Cluster mit den wahren Labels übereinstimmen.")

Original number of features: 30
Scaled number of features: (569, 30)
Reduced number of features after PCA: 10
Shape of PCA transformed data: (569, 10)




Das Elbow-Methoden-Plot wurde generiert und als 'elbow_method_plot.png' gespeichert.
Betrachten Sie dieses Plot, um die optimale Anzahl von Clustern (k) zu identifizieren.
K-Means Modell wurde mit 2 Clustern neu trainiert.
Die ersten 10 Cluster-Zuordnungen sind: [0 0 0 0 0 0 0 0 0 0]
Anzahl der Datenpunkte pro Cluster: 0    188
1    381
Name: count, dtype: int64




Zwei Streudiagramme wurden generiert und als 'pca_cluster_comparison.png' gespeichert.
Vergleichen Sie die beiden Diagramme, um zu sehen, wie gut die K-Means-Cluster mit den wahren Labels übereinstimmen.
