In [1]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("johnsmith88/heart-disease-dataset")

print("Path to dataset files:", path)

Downloading from https://www.kaggle.com/api/v1/datasets/download/johnsmith88/heart-disease-dataset?dataset_version_number=2...


100%|██████████| 6.18k/6.18k [00:00<00:00, 3.14MB/s]

Extracting files...
Path to dataset files: C:\Users\piotr\.cache\kagglehub\datasets\johnsmith88\heart-disease-dataset\versions\2





In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans, DBSCAN, MeanShift, AgglomerativeClustering
from sklearn.mixture import GaussianMixture
from sklearn.metrics import silhouette_score, calinski_harabasz_score, davies_bouldin_score

In [2]:
import pandas as pd

In [3]:
# Wczytanie danych
df = pd.read_csv("C:\\Users\\piotr\\.cache\\kagglehub\\datasets\\johnsmith88\\heart-disease-dataset\\versions\\2\\heart.csv")
df = df.dropna()
X = StandardScaler().fit_transform(df)

In [29]:
print(X[:5])

[[-0.26843658  0.66150409 -0.91575542 -0.37763552 -0.65933209 -0.41887792
   0.89125488  0.82132052 -0.71228712 -0.06088839  0.99543334  1.20922066
   1.08985168 -1.02669772]
 [-0.15815703  0.66150409 -0.91575542  0.4791073  -0.83386117  2.38733039
  -1.00404855  0.2559679   1.40392824  1.72713707 -2.24367514 -0.73197147
   1.08985168 -1.02669772]
 [ 1.71659547  0.66150409 -0.91575542  0.76468824 -1.39623266 -0.41887792
   0.89125488 -1.04869198  1.40392824  1.30141672 -2.24367514 -0.73197147
   1.08985168 -1.02669772]
 [ 0.72407944  0.66150409 -0.91575542  0.93603681 -0.83386117 -0.41887792
   0.89125488  0.51689988 -0.71228712 -0.91232909  0.99543334  0.23862459
   1.08985168 -1.02669772]
 [ 0.834359   -1.51170646 -0.91575542  0.36487493  0.93082177  2.38733039
   0.89125488 -1.87497657 -0.71228712  0.70540823 -0.6241209   2.17981673
  -0.52212231 -1.02669772]]


In [31]:
# Funkcja do oceny jakości
def evaluate_clustering(X, labels, method_name):
    if len(np.unique(labels)) > 1:
        sil = silhouette_score(X, labels)
        ch = calinski_harabasz_score(X, labels)
        db = davies_bouldin_score(X, labels)
        print(f"{method_name}:\n  Silhouette: {sil:.4f}, Calinski-Harabasz: {ch:.4f}, Davies-Bouldin: {db:.4f}\n")
    else:
        print(f"{method_name}:\n  Nie wykryto więcej niż jednego klastra.\n")

In [None]:
# K-means Clustering Dzieli dane na k klastrów tak, aby zminimalizować sumę kwadratów odległości punktów od ich centroidów, Klastery są kuliste, o podobnym rozmiarze i gęstości.

In [27]:
# K-means
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
evaluate_clustering(X, kmeans.labels_, "K-means")
kmeans = KMeans(n_clusters=4, random_state=0).fit(X)
evaluate_clustering(X, kmeans.labels_, "K-means")

K-means:
  Silhouette: 0.1788, Calinski-Harabasz: 222.0721, Davies-Bouldin: 2.0692

K-means:
  Silhouette: 0.1315, Calinski-Harabasz: 134.2434, Davies-Bouldin: 2.1421



In [None]:
# Mean Shift nie wymaga podania liczby klastrów.
# Wykorzystuje oszacowanie jądrowe gęstości (Kernel Density Estimation) do przesuwania punktów w kierunku lokalnych maksimów gęstości i w ten sposób podporządkowaniu grupy.

In [9]:
# Mean Shift
meanshift = MeanShift().fit(X)
evaluate_clustering(X, meanshift.labels_, "Mean Shift")

Mean Shift:
  Silhouette: 0.2650, Calinski-Harabasz: 10.5343, Davies-Bouldin: 0.6042



In [None]:
# GMM Modeluje dane jako mieszankę rozkładów normalnych (Gaussowskich), z różnymi środkami i wariancjami. 
# Zakłada rozklady normalne w klastrach

In [10]:
# GMM
gmm = GaussianMixture(n_components=3, random_state=0).fit(X)
gmm_labels = gmm.predict(X)
evaluate_clustering(X, gmm_labels, "GMM")

GMM:
  Silhouette: 0.1147, Calinski-Harabasz: 143.7090, Davies-Bouldin: 2.3768



In [None]:
# DBSCAN Wybierz nieodwiedzony punkt.Sprawdź jego sąsiedztwo.Jeśli jest rdzeniowy, rozciągnij z niego klaster.Powtarzaj aż wszystkie punkty zostaną odwiedzone

In [37]:
# DBSCAN
dbscan = DBSCAN(eps=3, min_samples=5).fit(X)
evaluate_clustering(X, dbscan.labels_, "DBSCAN")
# trzeba duży w miarę epsilon, żeby był niezłe wyniki znaczy pewnie, że klastry są rzadkie

DBSCAN:
  Silhouette: 0.0429, Calinski-Harabasz: 36.7969, Davies-Bouldin: 2.8966



In [None]:
# Buduje drzewo hierarchiczne, łącząc punkty/klastry według wybranej miary.
# Każdy punkt to osobny klaster. Iteracyjnie łącz najbliższe klastry.Zatrzymaj się po osiągnięciu żądanej liczby klastrów lub kryterium.
# Wrażliwy na wybór miary łączenia

In [43]:
# Agglomerative Clustering
agg = AgglomerativeClustering(n_clusters=3).fit(X)
evaluate_clustering(X, agg.labels_, "Agglomerative Clustering")
agg = AgglomerativeClustering(n_clusters=2).fit(X)
evaluate_clustering(X, agg.labels_, "Agglomerative Clustering")

Agglomerative Clustering:
  Silhouette: 0.1588, Calinski-Harabasz: 139.8322, Davies-Bouldin: 2.0726

Agglomerative Clustering:
  Silhouette: 0.1742, Calinski-Harabasz: 191.3214, Davies-Bouldin: 2.1025



Są dwa klastry?? dwa algorytmy mają najlepsze wynki dla dwoch klastrów 

### Wyniki i co z nich wynika

In [44]:
agg = AgglomerativeClustering(n_clusters=2).fit(X)
evaluate_clustering(X, agg.labels_, "Agglomerative Clustering")
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)
evaluate_clustering(X, kmeans.labels_, "K-means")

Agglomerative Clustering:
  Silhouette: 0.1742, Calinski-Harabasz: 191.3214, Davies-Bouldin: 2.1025

K-means:
  Silhouette: 0.1788, Calinski-Harabasz: 222.0721, Davies-Bouldin: 2.0692



### Natomiast tak czy siak dla pierwszej i ostatniej metryki najlepsze wyniki to meanshift

In [45]:
meanshift = MeanShift().fit(X)
evaluate_clustering(X, meanshift.labels_, "Mean Shift")

Mean Shift:
  Silhouette: 0.2650, Calinski-Harabasz: 10.5343, Davies-Bouldin: 0.6042



Dodatkowo jasno widać z metody DBSCan, że klastry są rzadkie i jest to jasne, trudno to porównać do czegoś, ale raczej nie są mega gęste, mimo strojenia i liczby próbek i wartości epsilon, wyniki są najgorsze z wszytskich metod

In [46]:
dbscan = DBSCAN(eps=3, min_samples=5).fit(X)
evaluate_clustering(X, dbscan.labels_, "DBSCAN")
# trzeba duży w miarę epsilon, żeby był niezłe wyniki znaczy pewnie, że klastry są rzadkie

DBSCAN:
  Silhouette: 0.0429, Calinski-Harabasz: 36.7969, Davies-Bouldin: 2.8966



In [47]:
gmm = GaussianMixture(n_components=3, random_state=0).fit(X)
gmm_labels = gmm.predict(X)
evaluate_clustering(X, gmm_labels, "GMM")

GMM:
  Silhouette: 0.1147, Calinski-Harabasz: 143.7090, Davies-Bouldin: 2.3768



Nie mają też raczej rozkładu normalnego, ponieważ wyniki z mieszaniny gaussa są średnie.

Silhouette – czy punkty są bliżej swojego klastra niż innych

Calinski-Harabasz – czy klastry są zwarte i daleko od siebie

Davies-Bouldin – jak bardzo klastry na siebie nachodzą (im mniej, tym lepiej)

#### Czyli mean_shift wygrywa jeśli chodzi o sensowny podział danych, a agglomerative clustering i k-means jesli chodzi o fajny podział statystycznie, co jest ciekawe bo to oznacza, że ładne grupy są dwie, ale da się podzielić bardziej nieregularnie dane lub np.poprostu bardziej specyficznym jądrem gęstości, które dadzą najlepsze wyniki.