### <center>**Analyse des Clusters**</center>

#### **1. Calcule des Moyennes par Cluster :**

In [68]:
import pandas as pd

data = pd.read_csv("../data/trained/data.csv")

moyennes = data.groupby('Cluster').mean()

moyennes

Unnamed: 0_level_0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
Cluster,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,0.28898,0.571798,0.388545,0.512102,0.552375,0.49491,0.133976,0.457839
1,-0.314109,-0.621519,-0.422332,-0.556633,-0.600408,-0.537946,-0.145626,-0.497651


- **Cluster 0 - Potentiel risque élevé :**

    - ``Glucose`` : Moyenne élevée (1.04), au-dessus de la moyenne globale càd risque plus élevé de diabète.

    - ``Insulin`` : Moyenne légèrement élevée (5.31) ce qui reflète un métabolisme actif de l’insuline.

    - ``BMI`` : Légèrement au-dessus de la moyenne (3.56) càd un poids légèrement supérieur.

    - ``Pregnancies``, ``BloodPressure``, ``SkinThickness``, ``Age``, ``DiabetesPedigreeFunction`` : Légèrement supérieurs à la moyenne globale, contribuant modérément au profil de risque.

    - **Interprétation générale :** Ce cluster regroupe les individus présentant un profil métabolique plus élevé, donc un risque potentiel de diabète plus important.

- **Cluster 1 - Potentiel risque faible :**

    - ``Glucose`` : Moyenne inférieure (-0.62), au-dessous de la moyenne globale càd risque de diabète plus faible.

    - ``Insulin`` : Moyenne plus basse (4.56) càd activité ``insulin``ique moins élevée.

    - ``BMI`` : Légèrement plus faible (3.45) càd poids inférieur à la moyenne globale.

    - ``Pregnancies``, ``BloodPressure``, ``SkinThickness``, ``Age``, ``DiabetesPedigreeFunction`` : Légèrement inférieurs ou proches de la moyenne globale, contribuant faiblement au risque.

    - **Interprétation générale :** Ce cluster regroupe les individus présentant un profil métabolique moins prononcé, donc un risque potentiel de diabète plus faible.

<br>

#### **2. Identification du Cluster à Risque selon les Seuils :**

Il y a un point très important à comprendre : Une partie de nos données est standardisées et une autre est transformée en log, donc les seuils classiques (**``Glucose > 126``**, **``BMI > 30``**, **``DPF > 0.5``**) ne s’appliqueront pas directement. Il faut faire une transformation inverse pour comparer avec les seuils critiques réels.

In [None]:
import joblib
import numpy as np
from sklearn.preprocessing import StandardScaler

scaler = joblib.load("../utils/scaler.pkl")
kmeans = joblib.load("../models/kmeans_model.pkl")

original_centers = scaler.inverse_transform(kmeans.cluster_centers_)

cols = data.columns.to_list()
cols.remove("Cluster")

df_centers = pd.DataFrame(original_centers, columns=cols)



log_cols = data.columns.to_list()
log_cols.remove("Glucose")
log_cols.remove("Cluster")

for col in log_cols :
    df_centers[col] = np.expm1(df_centers[col])


for i , row in df_centers.iterrows() :
    if row['Glucose'] > 120 and row['BMI'] > 30 and row['DiabetesPedigreeFunction'] > 0.45 :
        print(f"Le Cluster {i} représente --Haut Risque du Diabète--")
    else :
        print(f"Le Cluster {i} représente --Bas Risque du Diabète--")

df_centers.head()

Le Cluster 0 représente --Haut Risque du Diabète--
Le Cluster 1 représente --Bas Risque du Diabète--


Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
0,3.631747,139.135,76.339724,32.665689,175.625347,35.256517,0.479783,36.522882
1,1.91235,102.816848,66.201792,22.491335,87.103061,28.356541,0.399938,26.819277


#### **3. Ajout de la Colonne risk_category :**

In [70]:
data['risk_category'] = np.where(data['Cluster'] == 0, 'Elevé', 'Faible')

new_order = ['Pregnancies', 'Glucose', 'BloodPressure', 'SkinThickness', 'Insulin', 'BMI', 'DiabetesPedigreeFunction', 'Age', 'risk_category', 'Cluster']

data = data[new_order]

data.to_csv("../data/cleaned/data.csv", index=False)

data.describe()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Cluster
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,6.938894000000001e-17,-4.070818e-16,3.064678e-15,-1.627171e-15,-7.054542e-16,-4.348374e-16,-1.063964e-16,-2.775558e-17,0.479167
std,1.000652,1.000652,1.000652,1.000652,1.000652,1.000652,1.000652,1.000652,0.499891
min,-1.703581,-2.554083,-6.128878,-3.755852,-3.53482,-2.615387,-1.462897,-1.247065,0.0
25%,-0.8026043,-0.7222878,-0.6145802,-0.6194105,-0.6318088,-0.6828231,-0.7419411,-0.838861,0.0
50%,0.09837292,-0.155499,0.05527723,0.1498531,0.04692623,0.07873308,-0.2454082,-0.2566623,0.0
75%,0.8257813,0.6330767,0.6554063,0.7112082,0.6689718,0.6729283,0.6097343,0.8177783,1.0
max,2.053426,2.538801,3.066174,3.745479,3.150681,3.579027,4.3569,2.954222,1.0
