# Classification supervis√©e bas√©e sur les clusters

**Objectif :** D√©velopper un mod√®le de classification supervis√©e pour pr√©dire les ph√©notypes m√©taboliques du diab√®te en utilisant les r√©sultats du clustering K-means.

---

## Vue d'ensemble du pipeline

Cette analyse comprend les √©tapes suivantes :
1. **Importation des biblioth√®ques** et configuration
2. **Chargement et pr√©paration des donn√©es**
3. **Preprocessing** (standardisation et √©quilibrage des classes)
4. **Initialisation des mod√®les** de machine learning
5. **Entra√Ænement et √©valuation initiale**
6. **Validation crois√©e** pour robustesse
7. **Optimisation des hyperparam√®tres** avec GridSearchCV
8. **√âvaluation finale** et s√©lection du meilleur mod√®le
9. **Sauvegarde** du mod√®le optimal

## 1. Importation des biblioth√®ques

Importation de toutes les biblioth√®ques n√©cessaires pour l'analyse de classification supervis√©e.

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split, cross_validate, GridSearchCV
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import RandomOverSampler
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report
import joblib

## 2. Chargement et pr√©paration des donn√©es

Chargement des datasets issus du clustering et d√©finition des variables explicatives et de la variable cible.

In [2]:
# --- Chargement et pr√©paration des donn√©es ---

df_cluster_final = pd.read_csv('../data/df_cluster_final.csv')
df_cluster = pd.read_csv('../data/df_cluster.csv')

# Cible
y = df_cluster_final['cluster']

# Variables s√©lectionn√©es
X = df_cluster[['Glucose', 'BMI', 'Age', 'DiabetesPedigreeFunction']]

## 3. Preprocessing des donn√©es

### 3.1 Division train/test et standardisation

In [3]:
# Split train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Standardisation
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

### 3.2 √âquilibrage des classes

In [4]:
# Sur-√©chantillonnage (pour √©quilibrer les classes)
ros = RandomOverSampler(random_state=42)
print("y_train count:", y_train.value_counts())
X_train_resampled, y_train_resampled = ros.fit_resample(X_train, y_train)
print("y_train count:", y_train_resampled.value_counts())

y_train count: cluster
0    323
1    244
Name: count, dtype: int64
y_train count: cluster
0    323
1    323
Name: count, dtype: int64


## 4. Initialisation des mod√®les

Configuration des algorithmes de machine learning √† comparer.

In [5]:
# --- Initialisation des mod√®les ---
models = {
    "Random Forest": RandomForestClassifier(random_state=42),
    "SVM": SVC(probability=True, random_state=42),
    "Gradient Boosting": GradientBoostingClassifier(random_state=42),
    "R√©gression Logistique": LogisticRegression(max_iter=1000, random_state=42)
}

## 5. Entra√Ænement et √©valuation initiale

Premi√®re √©valuation des mod√®les avec les param√®tres par d√©faut.

In [6]:
# --- Entra√Ænement et √©valuation initiale ---
print("=== Entra√Ænement initial des mod√®les ===")
for name, model in models.items():
    model.fit(X_train_resampled, y_train_resampled)
    y_pred = model.predict(X_test)

    print(f"\nMod√®le : {name}")
    print(f"Accuracy    : {accuracy_score(y_test, y_pred):.4f}")
    print(f"Precision   : {precision_score(y_test, y_pred, average='macro'):.4f}")
    print(f"Recall      : {recall_score(y_test, y_pred, average='macro'):.4f}")
    print(f"F1-score    : {f1_score(y_test, y_pred, average='macro'):.4f}")
    print("Matrice de confusion :")
    print(confusion_matrix(y_test, y_pred))
    print("\nRapport complet :")
    print(classification_report(y_test, y_pred))

=== Entra√Ænement initial des mod√®les ===

Mod√®le : Random Forest
Accuracy    : 0.9577
Precision   : 0.9588
Recall      : 0.9562
F1-score    : 0.9573
Matrice de confusion :
[[75  2]
 [ 4 61]]

Rapport complet :
              precision    recall  f1-score   support

           0       0.95      0.97      0.96        77
           1       0.97      0.94      0.95        65

    accuracy                           0.96       142
   macro avg       0.96      0.96      0.96       142
weighted avg       0.96      0.96      0.96       142


Mod√®le : SVM
Accuracy    : 0.9930
Precision   : 0.9924
Recall      : 0.9935
F1-score    : 0.9929
Matrice de confusion :
[[76  1]
 [ 0 65]]

Rapport complet :
              precision    recall  f1-score   support

           0       1.00      0.99      0.99        77
           1       0.98      1.00      0.99        65

    accuracy                           0.99       142
   macro avg       0.99      0.99      0.99       142
weighted avg       0.99     

## 6. Validation crois√©e

√âvaluation de la robustesse des mod√®les avec validation crois√©e 5-fold.

In [7]:
# --- Validation crois√©e 5-fold avec plusieurs m√©triques ---
print("\n=== Validation crois√©e 5-fold avec plusieurs m√©triques ===")
scoring = ['accuracy', 'precision_macro', 'recall_macro', 'f1_macro']
cv_results = {}

for name, model in models.items():
    scores = cross_validate(model, X_train_resampled, y_train_resampled, cv=5, scoring=scoring, n_jobs=-1, return_train_score=False)
    cv_results[name] = {metric: scores['test_'+metric].mean() for metric in scoring}
    print(f"\n{name} :")
    for metric in scoring:
        print(f"  {metric} moyen = {cv_results[name][metric]:.4f}")


=== Validation crois√©e 5-fold avec plusieurs m√©triques ===

Random Forest :
  accuracy moyen = 0.9629
  precision_macro moyen = 0.9637
  recall_macro moyen = 0.9628
  f1_macro moyen = 0.9628

Random Forest :
  accuracy moyen = 0.9629
  precision_macro moyen = 0.9637
  recall_macro moyen = 0.9628
  f1_macro moyen = 0.9628

SVM :
  accuracy moyen = 0.9938
  precision_macro moyen = 0.9940
  recall_macro moyen = 0.9938
  f1_macro moyen = 0.9938

SVM :
  accuracy moyen = 0.9938
  precision_macro moyen = 0.9940
  recall_macro moyen = 0.9938
  f1_macro moyen = 0.9938

Gradient Boosting :
  accuracy moyen = 0.9675
  precision_macro moyen = 0.9678
  recall_macro moyen = 0.9674
  f1_macro moyen = 0.9675

R√©gression Logistique :
  accuracy moyen = 0.9954
  precision_macro moyen = 0.9954
  recall_macro moyen = 0.9954
  f1_macro moyen = 0.9954

Gradient Boosting :
  accuracy moyen = 0.9675
  precision_macro moyen = 0.9678
  recall_macro moyen = 0.9674
  f1_macro moyen = 0.9675

R√©gression Logi

## 7. Optimisation des hyperparam√®tres

### 7.1 D√©finition des grilles d'hyperparam√®tres

In [8]:
# --- Grilles d'hyperparam√®tres pour GridSearchCV ---
params = {
    'Random Forest': {
        'n_estimators': [50, 100, 200],
        'max_depth': [10, 20, None]
    },
    'SVM': {
        'C': [0.1, 1, 10],
        'kernel': ['linear', 'rbf']
    },
    'Gradient Boosting': {
        'n_estimators': [50, 100, 200],
        'learning_rate': [0.01, 0.1, 0.2]
    },
    'R√©gression Logistique': {
        'C': [0.1, 1, 10],
        'penalty': ['l2'],
        'solver': ['lbfgs']
    }
}

### 7.2 Fonction d'optimisation et ex√©cution

In [9]:
# --- Fonction d'optimisation avec GridSearchCV ---
def tune_models(X, y, models, params, cv=5, scoring='f1_macro'):
    best_models = {}
    for name, model in models.items():
        print(f"\nOptimisation de {name}...")
        grid = GridSearchCV(model, params[name], cv=cv, scoring=scoring, n_jobs=-1)
        grid.fit(X, y)
        print(f"Meilleurs param√®tres pour {name} : {grid.best_params_}")
        print(f"Meilleur score {scoring} : {grid.best_score_:.4f}")
        best_models[name] = grid.best_estimator_
    return best_models

best_models = tune_models(X_train_resampled, y_train_resampled, models, params, cv=5, scoring='f1_macro')


Optimisation de Random Forest...
Meilleurs param√®tres pour Random Forest : {'max_depth': 10, 'n_estimators': 50}
Meilleur score f1_macro : 0.9690

Optimisation de SVM...
Meilleurs param√®tres pour SVM : {'C': 10, 'kernel': 'linear'}
Meilleur score f1_macro : 0.9984

Optimisation de Gradient Boosting...
Meilleurs param√®tres pour Random Forest : {'max_depth': 10, 'n_estimators': 50}
Meilleur score f1_macro : 0.9690

Optimisation de SVM...
Meilleurs param√®tres pour SVM : {'C': 10, 'kernel': 'linear'}
Meilleur score f1_macro : 0.9984

Optimisation de Gradient Boosting...
Meilleurs param√®tres pour Gradient Boosting : {'learning_rate': 0.1, 'n_estimators': 200}
Meilleur score f1_macro : 0.9721

Optimisation de R√©gression Logistique...
Meilleurs param√®tres pour R√©gression Logistique : {'C': 0.1, 'penalty': 'l2', 'solver': 'lbfgs'}
Meilleur score f1_macro : 0.9984
Meilleurs param√®tres pour Gradient Boosting : {'learning_rate': 0.1, 'n_estimators': 200}
Meilleur score f1_macro : 0.9721

## 8. √âvaluation finale des mod√®les optimis√©s

√âvaluation compl√®te des mod√®les optimis√©s sur l'ensemble de test.

In [10]:
# --- R√©-√©valuation des mod√®les optimis√©s sur le test set ---
print("\n=== √âvaluation des mod√®les optimis√©s sur le test set ===")
final_scores = {}
for name, model in best_models.items():
    y_pred = model.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    prec = precision_score(y_test, y_pred, average='macro')
    rec = recall_score(y_test, y_pred, average='macro')
    f1 = f1_score(y_test, y_pred, average='macro')
    final_scores[name] = f1

    print(f"\nMod√®le : {name}")
    print(f"Accuracy    : {acc:.4f}")
    print(f"Precision   : {prec:.4f}")
    print(f"Recall      : {rec:.4f}")
    print(f"F1-score    : {f1:.4f}")
    print("Matrice de confusion :")
    print(confusion_matrix(y_test, y_pred))
    print("\nRapport complet :")
    print(classification_report(y_test, y_pred))


=== √âvaluation des mod√®les optimis√©s sur le test set ===

Mod√®le : Random Forest
Accuracy    : 0.9577
Precision   : 0.9574
Recall      : 0.9574
F1-score    : 0.9574
Matrice de confusion :
[[74  3]
 [ 3 62]]

Rapport complet :
              precision    recall  f1-score   support

           0       0.96      0.96      0.96        77
           1       0.95      0.95      0.95        65

    accuracy                           0.96       142
   macro avg       0.96      0.96      0.96       142
weighted avg       0.96      0.96      0.96       142


Mod√®le : SVM
Accuracy    : 0.9930
Precision   : 0.9924
Recall      : 0.9935
F1-score    : 0.9929
Matrice de confusion :
[[76  1]
 [ 0 65]]

Rapport complet :
              precision    recall  f1-score   support

           0       1.00      0.99      0.99        77
           1       0.98      1.00      0.99        65

    accuracy                           0.99       142
   macro avg       0.99      0.99      0.99       142
weighted a

## 9. S√©lection et sauvegarde du meilleur mod√®le

Identification du mod√®le avec les meilleures performances et sauvegarde pour utilisation future.

In [11]:
# --- S√©lection et sauvegarde du meilleur mod√®le (meilleur F1 macro) ---
best_model_name = max(final_scores, key=final_scores.get)
best_model = best_models[best_model_name]
print(f"\nüèÜ Meilleur mod√®le final : {best_model_name} avec un F1-score macro de {final_scores[best_model_name]:.4f}")

joblib.dump(best_model, '../models/model.pkl')
print("Mod√®le sauvegard√© dans '../models/model.pkl'")


üèÜ Meilleur mod√®le final : SVM avec un F1-score macro de 0.9929
Mod√®le sauvegard√© dans '../models/model.pkl'


In [12]:
# Sauvegarde du scaler pour utilisation dans l'application Streamlit
import joblib
joblib.dump(scaler, '../models/scaler.pkl')
print("Scaler sauvegard√© dans '../models/scaler.pkl'")

Scaler sauvegard√© dans '../models/scaler.pkl'
