# Metody hierarchiczne

Zbiór danych: https://www.kaggle.com/datasets/abdullah0a/human-age-prediction-synthetic-dataset

Cel biznesowy: stowrzyć grupy pacjentów, w celu optymalizacji obsługi

Dokumentacja: https://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html

In [1]:
from sklearn.cluster import AgglomerativeClustering
import pandas as pd
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
from scipy.cluster.hierarchy import dendrogram, linkage

In [2]:
# puść ten kod, 
# jeżeli wywołujesz plik  w folderze rozwiąznaia, 
# a ramka danych znajduje się w folderze data
import os 
os.chdir('../')

In [3]:
# Przykładowe dane
X = np.array([[1, 2], [2, 3], [3, 4], [5, 6], [8, 9], [10, 12], [12,15]])

In [None]:
# Wizualizacja - dendrogram
z = linkage(X, method= 'ward')
plt.figure(figsize=(10,5))
dendrogram(z)
plt.title('Dendrogram')
plt.xlabel('Data points index')
plt.ylabel('Euclidean distance')
plt.show()

In [None]:
# Wczytanie danych
df = pd.read_csv("data/Train.csv")
df_numerical = df.select_dtypes(exclude = 'object')
df_scaled  = StandardScaler().fit_transform(df_numerical)
df_scaled = pd.DataFrame(df_scaled, columns = df_numerical.columns)
df_scaled

In [7]:
# Zmienne do modelu
x_cols = ['Cholesterol Level (mg/dL)','Blood Glucose Level (mg/dL)','Bone Density (g/cm²)','Cognitive Function','Hearing Ability (dB)','Vision Sharpness']

In [8]:
# Model
model = AgglomerativeClustering(n_clusters=4,compute_distances=True, compute_full_tree=True).fit(df_scaled[x_cols])

In [None]:
# Połączenia elementów
model.children_

In [None]:
df_scaled.loc[695,x_cols]

In [None]:
df_scaled.loc[2264,x_cols]

In [14]:
# Przypisanie klastra
df_scaled['cluster'] = model.labels_

In [None]:
# Liczba liści
model.n_leaves_

In [None]:
# Centroidy
sns.pairplot(data= df_scaled[x_cols+['cluster']], hue= 'cluster',)
plt.show()