### <center>**Classification Supervisée et Evaluation des Modèles**</center>

#### **1. Définition du Variable Cible et des Features :**

In [29]:
import pandas as pd

data = pd.read_csv("../data/cleaned/data.csv")

y = data['Cluster']
X = data.drop(columns=['Cluster', 'risk_category'])

X.head()

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age
0,0.825781,0.863078,0.055277,0.711208,0.839238,0.266103,0.612059,1.437767
1,-0.802604,-1.206933,-0.439687,0.169719,-0.889534,-0.83982,-0.324994,-0.050575
2,1.152449,2.013084,-0.61458,0.209057,1.840419,-1.462846,0.749586,0.047687
3,-0.802604,-1.075504,-0.439687,-0.49301,-0.475488,-0.580889,-1.063014,-1.247065
4,-1.703581,0.501647,-3.273965,0.711208,0.479229,1.453088,4.158488,0.143015


#### **2. Division des Données :**

In [30]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

Le **``stratify``** garantit que la proportion des clusters (0/1) reste la même dans train et test. C’est essentiel quand on a déséquilibre potentiel.

<br>

#### **4. Gestion du Déséquilibre :**

##### **4.1. C’est quoi un déséquilibre des classes ?**

Quand on fait de la classification, on a souvent un jeu de données avec une variable cible (``y``) qui contient plusieurs classes.

Dans notre Dataset :

- ``0`` = diabète

- ``1`` = pas de diabète

Si dans notre dataset on a :

- ``90`` % de classe ``0``.

- ``10`` % de classe ``1``.

Alors notre Dataset est **_déséquilibré_**.

Le modèle risque d’apprendre à prédire presque toujours la classe majoritaire (0), car elle domine les données.

In [31]:
from collections import Counter

print("Avant sur-échantillonnage :", Counter(y_train))

Avant sur-échantillonnage : Counter({0: 320, 1: 294})


##### **4.2. RandomOverSampler :**

- ``RandomOverSampler`` est une technique de rééchantillonnage (resampling) fournie par la bibliothèque imblearn (``imbalanced-learn``).

- Elle sert à équilibrer les classes en dupliquant aléatoirement des exemples de la classe minoritaire.

- Il repère la classe minoritaire (celle qui a le moins d’exemples).

- Il duplique aléatoirement certains échantillons de cette classe jusqu’à ce que les deux classes aient le même nombre d’exemples.

C’est une méthode simple mais efficace pour donner au modèle plus de données de la classe rare.

In [32]:
from imblearn.over_sampling import RandomOverSampler

ros = RandomOverSampler(random_state=42)

X_resampled, y_resampled = ros.fit_resample(X_train, y_train)

print("Après sur-échantillonnage :", Counter(y_resampled))

Après sur-échantillonnage : Counter({0: 320, 1: 320})


<br>

#### **5. Entraînement des Modèles :**

##### **5.1. RandomForest :**



In [None]:
from sklearn.ensemble import RandomForestRegressor

rf = RandomForestRegressor(random_state=42)

rf.fit(X_resampled, y_resampled)

y_pred_rf = rf.predict(X_test)

print(y_pred_rf)

##### **5.2. SVM :**

In [None]:
from sklearn.svm import SVC

svm = SVC(probability=True, random_state=42)

svm.fit(X_resampled, y_resampled)

y_pred_svm = svm.predict(X_test)

print(y_pred_svm)

##### **5.3. Gradient Boosting :**

In [None]:
from sklearn.ensemble import  GradientBoostingClassifier

gbc = GradientBoostingClassifier(random_state=42)

gbc.fit(X_resampled, y_resampled)

y_pred_gbc = gbc.predict(X_test)

print(y_pred_gbc)

##### **5.4. Decision Tree :**

In [None]:
from sklearn.tree import DecisionTreeClassifier

dt = DecisionTreeClassifier(random_state=42)

dt.fit(X_resampled, y_resampled)

y_pred_dt = dt.predict(X_test)

print(y_pred_dt)

##### **5.5. Régression Logistique :**

In [None]:
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression(max_iter=1000, random_state=42)

lr.fit(X_resampled, y_resampled)

y_pred_lr = lr.predict(X_test)

print(y_pred_lr)

##### **5.6. XGB :**

In [None]:
from xgboost import XGBClassifier

xgb = XGBClassifier(use_label_encoder=False, eval_metric='logloss', random_state=42)

xgb.fit(X_resampled, y_resampled)

y_pred_xgb = xgb.predict(X_test)

print(y_pred_xgb)

#### **6. Evaluation des Performances :**