In [1]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

# 1. Încărcarea datasetului
file_path = 'anonim-clean.csv'  # Înlocuiește cu calea locală a fișierului
data = pd.read_csv(file_path)

# 2. Selectarea coloanelor relevante pentru analiză
columns_of_interest = ['vârstă', 'gen', 'prezentare', 'caracteristici imagistice', 
                       'crp (0 - 1 mg/dl)', 'vsh (5 - 10 mm/h)', 'wbc * 10*3/ul (3.6 - 11.8)', 
                       'evoluție', 'tratament']
data_filtered = data[columns_of_interest].copy()

# 3. Curățarea datelor: eliminăm valorile lipsă din parametrii biologici
data_filtered.dropna(subset=['crp (0 - 1 mg/dl)', 'vsh (5 - 10 mm/h)', 'wbc * 10*3/ul (3.6 - 11.8)'], inplace=True)

# 4. Codificarea variabilelor categorice (gen, prezentare, caracteristici imagistice, evoluție, tratament)
data_filtered = pd.get_dummies(data_filtered, columns=['gen', 'prezentare', 'caracteristici imagistice', 'evoluție', 'tratament'], drop_first=True)

# 5. Standardizarea datelor pentru algoritmi de clustering
scaler = StandardScaler()
data_scaled = scaler.fit_transform(data_filtered)

# 6. Determinarea numărului optim de clustere folosind metoda Elbow
inertia = []
k_values = range(2, 7)

for k in k_values:
    kmeans = KMeans(n_clusters=k, random_state=0)
    kmeans.fit(data_scaled)
    inertia.append(kmeans.inertia_)

# Vizualizarea metodei Elbow
plt.plot(k_values, inertia, marker='o')
plt.xlabel('Numărul de clustere')
plt.ylabel('Inertia')
plt.title('Elbow Method pentru determinarea numărului optim de clustere')
plt.show()

# 7. Aplicarea K-means cu 3 și 4 clustere
kmeans_3 = KMeans(n_clusters=3, random_state=0)
kmeans_4 = KMeans(n_clusters=4, random_state=0)

clusters_3 = kmeans_3.fit_predict(data_scaled)
clusters_4 = kmeans_4.fit_predict(data_scaled)

# 8. Adăugăm rezultatele clusterelor în dataset
data_filtered['Cluster_3'] = clusters_3
data_filtered['Cluster_4'] = clusters_4

# 9. Distribuția pacienților în funcție de clustere
print("Distribuția pacienților în 3 clustere:")
print(data_filtered['Cluster_3'].value_counts())

print("\nDistribuția pacienților în 4 clustere:")
print(data_filtered['Cluster_4'].value_counts())


: 