In [None]:
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import MinMaxScaler
import time

# Datei laden
print("Lade die CSV-Datei...")
csv_file_path = "C:\\Users\\jakob\\Documents\\Praktikum\\ML_Praktikum\\ml_praktikum_jagoetz_wkathari\\dataset\\clf_num\\jannis.csv"
data = pd.read_csv(csv_file_path)

# Entferne die letzte Spalte (Class), falls vorhanden
if 'Class' in data.columns:
    print("Entferne die letzte Spalte (Class)...")
    data = data.drop(columns=['Class'])

# Daten in NumPy-Array umwandeln
data_array = data.to_numpy()

# Normalisierung der Daten (MinMax-Scaler wie WEKA verwendet)
scaler = MinMaxScaler()
data_array = scaler.fit_transform(data_array)
print("Daten wurden normalisiert!")

# Variablen zur Speicherung der Summen für Durchschnittsberechnung
total_sse = 0.0
total_silhouette = 0.0
total_runtime = 0.0

num_runs = 10  # Anzahl der Durchläufe

for i in range(num_runs):
    print(f"Starte Iteration {i + 1} von {num_runs}...")

    # Startzeit messen
    start_time = time.time()

    # K-Means Clustering konfigurieren und ausführen
    kmeans = KMeans(
        n_clusters=3,       # Clusteranzahl wie in WEKA
        random_state=i,     # Gleiche Seed-Logik wie in WEKA
        init="k-means++",   # K-Means++ Initialisierung wie in WEKA
        n_init=1,           # Nur eine Initialisierung wie in WEKA (standardmäßig führt Scikit-learn 10 aus)
        max_iter=300        # Maximale Iterationen wie in WEKA
    )
    cluster_labels = kmeans.fit_predict(data_array)

    # Endzeit messen
    end_time = time.time()
    elapsed_time = (end_time - start_time) * 1000  # in Millisekunden

    # SSE berechnen
    sse = kmeans.inertia_

    # Silhouette-Koeffizient berechnen (falls mehr als 1 Cluster)
    silhouette = silhouette_score(data_array, cluster_labels) if len(np.unique(cluster_labels)) > 1 else 0

    # Werte akkumulieren
    total_sse += sse
    total_silhouette += silhouette
    total_runtime += elapsed_time

    print(f"Iteration {i + 1} abgeschlossen.")
    print(f"SSE: {sse}, Silhouette-Koeffizient: {silhouette}, Laufzeit: {elapsed_time:.2f} ms")

# Durchschnittswerte berechnen
avg_sse = total_sse / num_runs
avg_silhouette = total_silhouette / num_runs
avg_runtime = total_runtime / num_runs

# Ergebnisse ausgeben
print(f"Durchschnittswerte nach {num_runs} Durchläufen:")
print(f"Durchschnittliche SSE: {avg_sse}")
print(f"Durchschnittlicher Silhouette-Koeffizient: {avg_silhouette}")
print(f"Durchschnittliche Laufzeit: {avg_runtime:.2f} ms")


Lade die CSV-Datei...
Entferne die letzte Spalte (Class)...
Daten wurden normalisiert!
Starte Iteration 1 von 10...
Iteration 1 abgeschlossen.
SSE: 681.9070696243618, Silhouette-Koeffizient: 0.26703627913943084, Laufzeit: 35.80 ms
Starte Iteration 2 von 10...
Iteration 2 abgeschlossen.
SSE: 681.9078889860612, Silhouette-Koeffizient: 0.2669387779985303, Laufzeit: 29.53 ms
Starte Iteration 3 von 10...
Iteration 3 abgeschlossen.
SSE: 717.6762149501459, Silhouette-Koeffizient: 0.3272390824217707, Laufzeit: 28.60 ms
Starte Iteration 4 von 10...
Iteration 4 abgeschlossen.
SSE: 681.9074240948626, Silhouette-Koeffizient: 0.2669589558135631, Laufzeit: 46.18 ms
Starte Iteration 5 von 10...
Iteration 5 abgeschlossen.
SSE: 717.7062739491865, Silhouette-Koeffizient: 0.32760676763387214, Laufzeit: 31.27 ms
Starte Iteration 6 von 10...
Iteration 6 abgeschlossen.
SSE: 681.9081490487971, Silhouette-Koeffizient: 0.26693486280378886, Laufzeit: 37.86 ms
Starte Iteration 7 von 10...
Iteration 7 abgeschloss

C:\\Users\\jakob\\Documents\\Praktikum\\ML_Praktikum\\ml_praktikum_jagoetz_wkathari\\dataset\\clf_num\\bank-marketing.csv