# Clustering

## Installation der Bibliotheken

In [None]:

# Importiere Pandas für Datenmanipulation
import pandas as pd

# Importiere Matplotlib für Visualisierungen
import matplotlib.pyplot as plt

# Importiere KMeans für K-Means Clustering
from sklearn.cluster import KMeans

# Importiere MinMaxScaler für die Datenskalierung
from sklearn.preprocessing import MinMaxScaler

# Importiere hierarchy für hierarchisches Clustering
from scipy.cluster import hierarchy

# Importiere AgglomerativeClustering für agglomeratives Clustering
from sklearn.cluster import AgglomerativeClustering

# Importieren der Metriken zur Evaluation des Clusterings
from sklearn.metrics import silhouette_samples, silhouette_score


## Einlesen und Visualisierung der Daten

In [None]:
# Definieren der URL der Datenquelle und Laden der Daten in einen pandas DataFrame
data_url = "https://github.com/timwgnd/Lehrbuch-Kuenstliche-Intelligenz-in-der-Medizin/raw/refs/heads/main/Pneumonie_Clustering.xlsx"
data = pd.read_excel(io=data_url, sheet_name = "Tabelle1")

# Entfernen von Zeilen mit fehlenden Werten
data = data.dropna()

# Anzeigen der ersten Zeilen des DataFrames, um einen Überblick über die Daten zu erhalten
print(data.head().to_markdown(index=False, tablefmt='psql'))

In [None]:
# Wir enkodieren nun die textuelle Diagnose in eine numerische Variable
# Erstellen eines Dictionaries zur Umwandlung der textuellen Diagnosen in numerische Werte
Diagnose_neu = {"gesund": 0, "COVID-19": 1, "BaktPneumonie": 2}

# Ersetzen der textuellen Diagnosen im DataFrame durch die numerischen Äquivalente
data["Diagnose"] = data["Diagnose"].replace(Diagnose_neu)

# Anzeigen der ersten Zeilen des DataFrames im Markdown-Format zur Überprüfung
print(data.head().to_markdown(index=False, tablefmt='psql'))

In [None]:
# Wir visualisieren nun die Daten, um einen ersten Eindruck zu bekommen

# Erstellen eines Scatter-Plots der Datenpunkte
plt.scatter(data["CRP (mg/dl)"], data["Temperatur (°C)"])

# Beschriftung der x- und y-Achse
plt.xlabel("CRP (mg/dl)")
plt.ylabel("Temperatur (°C)")

In [None]:
# Wir können die Daten auch nach der Diagnose einfärben

# Aufteilen der Daten in Gruppen basierend auf der Diagnose
group1 = data[data["Diagnose"] == 0]
group2 = data[data["Diagnose"] == 1]
group3 = data[data["Diagnose"] == 2]

# Erstellen eines Scatter-Plots für jede Gruppe mit einer eigenen Farbe und einem Label
plt.scatter(group1["CRP (mg/dl)"], group1["Temperatur (°C)"], label = "gesund")
plt.scatter(group2["CRP (mg/dl)"], group2["Temperatur (°C)"], label = "COVID-19")
plt.scatter(group3["CRP (mg/dl)"], group3["Temperatur (°C)"], label = "BaktPneumonie")

# Beschriftung der x- und y-Achse
plt.xlabel("CRP (mg/dl)")
plt.ylabel("Temperatur (°C)")

# Anzeigen der Legende
plt.legend()

## k-Means-Clustering

In [None]:
# Definiere das K-Means-Modell mit 3 Clustern
kmeans = KMeans(n_clusters = 3)

# Trainiere das Modell und sage die Clusterzugehörigkeit voraus
model_kmeans = kmeans.fit_predict(data[["CRP (mg/dl)","Temperatur (°C)"]])

In [None]:
# Fügt die Clusterzuordnung zum Datensatz hinzu.
data["cluster"] = model_kmeans

# Gibt den Datensatz mit den Clusterzuordnungen aus.
print(data)

In [None]:
# Definiert die Cluster-Gruppen
group1 = data[data.cluster == 0]
group2 = data[data.cluster == 1]
group3 = data[data.cluster == 2]

# Streudiagramm für Gruppe 1 (gesund).
plt.scatter(group1["CRP (mg/dl)"], group1["Temperatur (°C)"], label = "gesund")
# Streudiagramm für Gruppe 2 (COVID-19).
plt.scatter(group2["CRP (mg/dl)"], group2["Temperatur (°C)"], label = "COVID-19")
# Streudiagramm für Gruppe 3 (BaktPneumonie).
plt.scatter(group3["CRP (mg/dl)"], group3["Temperatur (°C)"], label = "BaktPneumonie")

# Achsenbeschriftung für die x-Achse.
plt.xlabel("CRP (mg/dl)")
# Achsenbeschriftung für die y-Achse.
plt.ylabel("Temperatur (°C)")

# Zeigt die Legende an.
plt.legend()


In [None]:
# Initialisiert den MinMaxScaler.
scaler = MinMaxScaler()

# Skaliert die Temperatur-Daten.
scaler.fit(data[["Temperatur (°C)"]])
data["Temperatur (°C)_skaliert"] = scaler.transform(data[["Temperatur (°C)"]])

# Skaliert die CRP-Daten.
scaler.fit(data[["CRP (mg/dl)"]])
data["CRP (mg/dl)_skaliert"] = scaler.transform(data[["CRP (mg/dl)"]])

In [None]:
# Definiert die Gruppen basierend auf der Diagnose.
group1 = data[data["Diagnose"] == 0]
group2 = data[data["Diagnose"] == 1]
group3 = data[data["Diagnose"] == 2]

# Erstellt Streudiagramme für jede Diagnosegruppe.
plt.scatter(group1["CRP (mg/dl)_skaliert"], group1["Temperatur (°C)_skaliert"], label = "gesund")
plt.scatter(group2["CRP (mg/dl)_skaliert"], group2["Temperatur (°C)_skaliert"], label = "COVID-19")
plt.scatter(group3["CRP (mg/dl)_skaliert"], group3["Temperatur (°C)_skaliert"], label = "BaktPneumonie")

# Beschriftet die Achsen.
plt.xlabel("CRP (mg/dl)_skaliert")
plt.ylabel("Temperatur (°C)_skaliert")

# Zeigt die Legende.
plt.legend()

In [None]:
kmeans = KMeans(n_clusters = 3)

model_kmeans_skaliert = kmeans.fit_predict(data[["CRP (mg/dl)_skaliert",
                                                 "Temperatur (°C)_skaliert"]])

In [None]:
data["cluster"] = model_kmeans_skaliert

print(data)

In [None]:
group1 = data[data.cluster == 0]
group2 = data[data.cluster == 1]
group3 = data[data.cluster == 2]

plt.scatter(group1["CRP (mg/dl)_skaliert"], group1["Temperatur (°C)_skaliert"], label = "gesund")
plt.scatter(group2["CRP (mg/dl)_skaliert"], group2["Temperatur (°C)_skaliert"], label = "COVID-19")
plt.scatter(group3["CRP (mg/dl)_skaliert"], group3["Temperatur (°C)_skaliert"], label = "BaktPneumonie")

plt.xlabel("CRP (mg/dl)_skaliert")
plt.ylabel("Temperatur (°C)_skaliert")

plt.legend()

## Hierarchical Clustering

In [None]:
hierarchical = hierarchy.linkage(data[["CRP (mg/dl)_skaliert",
                                       "Temperatur (°C)_skaliert"]], 
                                       method = "ward")

hierarchy.dendrogram(hierarchical)

plt.show()

In [None]:
hierarchical = AgglomerativeClustering(n_clusters = 3, linkage = "ward")

model_hierarchical = hierarchical.fit(data[["CRP (mg/dl)_skaliert", "Temperatur (°C)_skaliert"]])

labels = model_hierarchical.labels_

In [None]:
data["cluster"] = labels

print(data)

In [None]:
group1 = data[data.cluster == 0]
group2 = data[data.cluster == 1]
group3 = data[data.cluster == 2]

plt.scatter(group1["CRP (mg/dl)_skaliert"], group1["Temperatur (°C)_skaliert"], label = "gesund")
plt.scatter(group2["CRP (mg/dl)_skaliert"], group2["Temperatur (°C)_skaliert"], label = "COVID-19")
plt.scatter(group3["CRP (mg/dl)_skaliert"], group3["Temperatur (°C)_skaliert"], label = "BaktPneumonie")

plt.xlabel("CRP (mg/dl)")
plt.ylabel("Temperatur (°C)")

plt.legend()

## Ellbogen- und Silhouetten-Methode

In [None]:
Sum_of_squared_distances = []
k = range(1, 10) 

for num_clusters in k:
    kmeans = KMeans(n_clusters = num_clusters)
    kmeans.fit(data[["CRP (mg/dl)_skaliert", "Temperatur (°C)_skaliert"]])
    Sum_of_squared_distances.append(kmeans.inertia_)

plt.plot(k, Sum_of_squared_distances, "o-")
plt.xlabel("k") 
plt.ylabel("Inertia") 

In [None]:
silhouette_avg = []
range_n_clusters = range(2, 10)

for num_clusters in range_n_clusters:
    kmeans = KMeans(n_clusters = num_clusters)
    kmeans.fit(data[["CRP (mg/dl)_skaliert","Temperatur (°C)_skaliert"]])
    cluster_labels = kmeans.labels_

    silhouette_avg.append(silhouette_score(data[["CRP (mg/dl)_skaliert",
                                                 "Temperatur (°C)_skaliert"]],
                                                 cluster_labels))

plt.plot(range_n_clusters, silhouette_avg, "o-")
plt.xlabel("k")
plt.ylabel("Silhouettenkoeffizient")