In [5]:
# -*- coding: utf-8 -*-
"""
KMeans-Modellerstellung und Evaluation mit Davies-Bouldin-Index
"""

# -------------------------------------------
#  Import von Bibliotheken
# -------------------------------------------

import pandas as pd                            # Für Datenmanipulation und das Einlesen der CSV-Datei
import numpy as np                             # Für numerische Berechnungen (z. B. Ableitungen)
import matplotlib.pyplot as plt                # Für Diagramme (Elbow, Silhouette)
from sklearn.cluster import KMeans             # KMeans-Clustering-Algorithmus
from sklearn.metrics import silhouette_score   # Bewertungsmetrik für Clustering-Güte
import joblib                                  # Zum Speichern und Laden von Modellen
from sklearn.metrics import davies_bouldin_score  # Weitere Bewertungsmetrik für Clusterqualität

# -------------------------------------------
# 1. Daten laden
# -------------------------------------------
df_encoded = pd.read_csv("k_means_ohneBEZ_LOR_encoded_data.csv")

# -------------------------------------------
# 2. (Optional) Elbow- und Silhouette-Methoden zur Bestimmung des optimalen k
# -------------------------------------------
# Die folgenden Funktionen sind auskommentiert, da in der finalen Version k=9 gewählt wurde.
# Sie dienen zur Bestimmung des optimalen k mit Elbow- und Silhouette-Methoden.
'''
def elbow_method(data, min_k=2, max_k=10):
    wcss = []
    for k in range(min_k, max_k + 1):
        kmeans = KMeans(n_clusters=k, random_state=42, init='k-means++', n_init=10).fit(data)
        wcss.append(kmeans.inertia_)

    plt.figure()
    plt.plot(range(min_k, max_k + 1), wcss, marker='o', linestyle='--')
    plt.title('Elbow-Methode')
    plt.xlabel('Anzahl Cluster')
    plt.ylabel('WCSS')
    plt.grid(True)
    plt.savefig('output/plots/K_means_elbow_method_plot.png', dpi=100)
    plt.show()

    delta_wcss = np.diff(wcss)
    delta_wcss_diff = np.diff(delta_wcss)
    optimal_k = np.argmin(delta_wcss_diff) + 2
    return optimal_k

optimal_k_elbow_original = elbow_method(df_encoded)

def find_best_k(data, min_k=2, max_k=10):
    best_k, best_score = min_k, -1
    scores = []
    for k in range(min_k, max_k + 1):
        kmeans = KMeans(n_clusters=k, random_state=42, init='k-means++', n_init=10)
        labels = kmeans.fit_predict(data)
        score = silhouette_score(data, labels)
        scores.append(score)
        if score > best_score:
            best_k, best_score = k, score

    plt.figure()
    plt.plot(range(min_k, max_k + 1), scores, marker='o', linestyle='--')
    plt.title('Silhouette-Score')
    plt.xlabel('Anzahl Cluster')
    plt.ylabel('Score')
    plt.grid(True)
    plt.savefig('output/plots/K_means_silhouette_method_plot.png', dpi=100)
    plt.show()

    return best_k

optimal_k_silhouette_original = find_best_k(df_encoded)
best_k_original = max(optimal_k_elbow_original, optimal_k_silhouette_original)
print(f"\nOptimales k: {best_k_original}")
'''

# -------------------------------------------
# 3. KMeans-Modell mit festgelegtem k erstellen
# -------------------------------------------

# Clustering mit k=9 Clustern, random_state für Reproduzierbarkeit
kmeans = KMeans(n_clusters=9, random_state=42, init='k-means++', n_init=10).fit(df_encoded)

# Modell speichern zur späteren Wiederverwendung
joblib.dump(kmeans, 'kmeans_model.pkl')

# -------------------------------------------
# 4. Cluster-Evaluierung
# -------------------------------------------

# Davies-Bouldin-Index berechnen (je kleiner, desto besser)
db_score = davies_bouldin_score(df_encoded, kmeans.labels_)
print(f'Davies-Bouldin-Index: {db_score}')

# Silhouette-Score berechnen (je näher an 1, desto besser)
sil_score = silhouette_score(df_encoded, kmeans.labels_)
print(f'Silhouette-Score: {sil_score}')

Davies-Bouldin-Index: 2.38295625217356
Silhouette-Score: 0.07031144248959069
