# TP : Analyse en Composantes Principales (ACP) et choix du clustering

## 1. Introduction

### üåü Objectifs du TP
- Comprendre le fonctionnement du PCA (ACP en fran√ßais)
- R√©duire la dimension de donn√©es pour les visualiser
- Comparer les r√©sultats de clustering (K-Means et DBSCAN) sur les donn√©es projet√©es

### üîç Qu'est-ce que le PCA ?
L'**Analyse en Composantes Principales** (ACP ou PCA pour *Principal Component Analysis*) est une m√©thode math√©matique qui permet de :
- **R√©duire le nombre de dimensions** d'un jeu de donn√©es,
- En conservant un maximum d'information (**variance**),
- En projetant les points dans un nouvel espace (appel√© espace des composantes principales).

Cela permet notamment de **visualiser** des donn√©es complexes en 2D, ou de **pr√©traiter les donn√©es** avant un clustering.

### üßπ Pourquoi pr√©traiter les donn√©es avec le PCA avant un clustering ?
- Lorsque les donn√©es ont **beaucoup de dimensions**, certaines peuvent √™tre **corr√©l√©es ou peu informatives**.
- Le PCA √©limine ces redondances et simplifie la structure des donn√©es.
- En r√©duisant le bruit et la complexit√©, cela peut :
  - am√©liorer la qualit√© des clusters,
  - faciliter le travail de K-Means ou DBSCAN,
  - r√©duire les temps de calcul.

En r√©sum√©, le PCA sert souvent de **filtre intelligent** avant de lancer un algorithme de regroupement.

## 2. Test avec un jeu de donn√©es multidimensionnel

Jusqu'ici, on n'a travaill√© qu'avec des donn√©es ne comportant que deux dimensions pour une meilleure visibilit√©. Qu'en est-il des donn√©es mutidimensionnelles ?

In [None]:
# Installation des biblioth√®ques
!pip install pandas numpy scikit-learn matplotlib seaborn

### üìÅ 2.1 G√©n√©ration de donn√©es (5 dimensions)

In [None]:
from sklearn.datasets import make_classification
import pandas as pd
import matplotlib.pyplot as plt

# Cr√©ation d'un jeu avec 5 caract√©ristiques
X, y = make_classification(n_samples=300, n_features=5, n_redundant=0, 
                           n_clusters_per_class=1, random_state=42)

# Conversion en DataFrame
df = pd.DataFrame(X, columns=[f"Feature_{i+1}" for i in range(X.shape[1])])
df.head()  # Affichage des attributs et des 5 premiers enregistrements

### üîå2.2  D√©termination des composantes et variance par l'algorithme PCA 

L'algorithme PCA va permettre de diminuer le nombre de dimensions, de 5 √† 2 ici.

In [None]:
from sklearn.decomposition import PCA

# R√©duction √† 2 composantes principales
pca = PCA(n_components=2)
X_reduit = pca.fit_transform(X)

Chaque **composante** est une combinaison lin√©aire de plusieurs crit√®res, et c‚Äôest cette combinaison enti√®re qui explique une part de la variance.

**La variance** :

- ‚ùå La variance expliqu√©e par une composante ne refl√®te pas directement le poids d‚Äôun crit√®re (ou variable).
- ‚úÖ Le pourcentage de variation totale des donn√©es capt√© par chaque **composante principale**.



üéì **<u>Exemple</u>** :
Si `Composante 1` explique 60% de la variance, cela signifie qu‚Äôen projetant toutes les donn√©es sur cet axe, on conserve 60 % de l'information globale. Mais cela ne dit pas quel crit√®re (ex : revenu, √¢ge...) est responsable de ce 60 %.




In [None]:
# D√©termination de la variance de chaque composante 
pca = PCA(n_components=2)  # 2 composantes
X_reduit = pca.fit_transform(X)
print(pca.explained_variance_ratio_)


On voit que seulement **55% (32% + 23%) de l'information** est conserv√©e : il va falloir utiliser plus de composants.

In [None]:
# D√©termination de la variance de chaque composante 
pca = PCA(n_components=3) # 3 composantes
X_pca3 = pca.fit_transform(X)
print(pca.explained_variance_ratio_)

On passe maintenant √† **75% de l'information** de conserv√©e : c'est bien mieux :).
Pour visualiser tout cela, on va afficher un **graphique par paire de composants**, ce sera plus lisible.

In [None]:
from sklearn.decomposition import PCA

# R√©duction √† 3 composantes principales
pca = PCA(n_components=3)
X_pca3 = pca.fit_transform(X)


# Affichage des 3 combinaisons de composantes principales
pairs = [(0, 1), (0, 2), (1, 2)]
for i, j in pairs:
    plt.figure()
    plt.scatter(X_pca3[:, i], X_pca3[:, j], s=50)
    plt.xlabel(f"Composante {i+1}")
    plt.ylabel(f"Composante {j+1}")
    plt.title(f"Projection : Composantes {i+1} et {j+1}")
    plt.grid(True)
    plt.show()

### üìä 2.3 Comparaison avec K-Means / DBSCAN

**<u>Remarque</u>** : on pourra toujours appliquer la `m√©thode du coude (K-Means)` et le `k-distance-plot (DBSCAN)` pour d√©terminer les **meilleurs param√®tres** (n_cluster et eps / min_samples).

In [None]:
from sklearn.cluster import KMeans
from sklearn.cluster import DBSCAN
from sklearn.neighbors import NearestNeighbors
from collections import Counter
import numpy as np


### üîé Application de K-Means 
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)  # Meilleur k observ√©
k_labels = kmeans.fit_predict(X_pca3)

# Affichage 2D selon les 2 premi√®res composantes
plt.scatter(X_pca3[:, 0], X_pca3[:, 1], c=k_labels, cmap="viridis", s=50)
plt.title("K-Means sur donn√©es PCA (3 composantes)")
plt.show()



### üîé DBSCAN
dbscan = DBSCAN(eps=0.813, min_samples=3)  # Meilleure estimation eps/min_samples
d_labels = dbscan.fit_predict(X_pca3)

# Affichage 2D selon les 2 premi√®res composantes
plt.scatter(X_pca3[:, 0], X_pca3[:, 1], c=d_labels, cmap="plasma", s=50)
plt.title("DBSCAN sur donn√©es PCA (3 composantes)")
plt.show()

**<u>Remarque</u>** : on peut aussi proposer un **affichage en 3D** √† titre informatif.

In [None]:
### üßä Affichage 3D avec matplotlib
from mpl_toolkits.mplot3d import Axes3D
from mpl_toolkits.mplot3d.art3d import Poly3DCollection

fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot(111, projection='3d')

ax.scatter(X_pca3[:, 0], X_pca3[:, 1], X_pca3[:, 2], c=k_labels, cmap='viridis', s=50)
ax.set_xlabel("Composante 1")
ax.set_ylabel("Composante 2")
ax.set_zlabel("Composante 3")
ax.set_title("Visualisation 3D des donn√©es PCA + K-Means")
plt.show()

### üéØ2.4. Comparaison / Questions

- Qu'observe-t-on ? *On observe que les donn√©es projet√©es en 2D conservent une structure qui permet de distinguer plusieurs groupes.
  Les points forment des regroupements visibles, bien que la s√©paration ne soit pas toujours nette.*
  
  
- Le **clustering** change-t-il entre K-Means et DBSCAN ? *Oui. K-Means impose un nombre fixe de clusters et d√©coupe l'espace de fa√ßon circulaire. DBSCAN, lui, d√©tecte automatiquement les groupes selon la densit√© des points et peut identifier du bruit.*


- Quels sont les **avantages / inconv√©nients** visibles ? *K-Means d√©termine efficacement 3 clusters (on pourrait essayer avec d'autres valeurs). DBSCAN n'est pas fiable ici, les donn√©es ne sont pas assez denses et/ou trop espac√©es.*


- Que nous apprend la projection PCA sur la forme des donn√©es ? *Elle montre que les donn√©es initiales √† 5 dimensions peuvent √™tre bien repr√©sent√©es dans un espace ici √† 3 dimensions tout en conservant une bonne partie de la structure. Cela facilite la visualisation et le clustering.*


## 3. TP : Cat√©goriser des patients selon le risque de cancer.


## üéØ Objectifs du TP
- Analyser un jeu de donn√©es contenant des informations sur des **facteurs de risque de cancer**.
- R√©duire la dimension des donn√©es √† 2 ou 3 composantes avec PCA.
- Visualiser les individus dans l'espace r√©duit.
- Explorer les regroupements potentiels par clustering (`K-Means` ou `DBSPAN`).

Un fichier de donn√©es contient 2000 clients fictifs avec les informations suivantes :
- `√¢ge` (en ann√©es)
- `poids` (en kg)
- `ant√©c√©dents familiaux` (oui / non)
- `tabac` (oui / non)
- `alcool` (oui / non)
- `activit√© sportive`(faible, moyenne, intense)

### üì• 3.1 ‚Äì Chargement des donn√©es avec pandas

In [None]:
# Chargement depuis un fichier CSV (√† placer dans le m√™me dossier que ce notebook)
import pandas as pd

df = pd.read_csv("donnees_cancer_pca.csv", encoding="utf-8", encoding_errors="ignore")  # Noter le UTF-8 :)
print(df.head())

### üîÑ 3.2 ‚Äì Encodage des donn√©es

Avant d'appliquer le PCA, il faut convertir les variables non num√©riques en format num√©rique. On utilise :

- `LabelEncoder` pour les **variables ordinales**, c'est-√†-dire celles qui ont un ordre logique entre les modalit√©s (ex : "Faible" < "Mod√©r√©e" < "Intense").
- `get_dummies` pour les **variables nominales**, qui repr√©sentent des cat√©gories sans ordre (ex : "Oui" ou "Non").


**<u>Remarques</u>** :
- On pourrait utiliser tout le temps `LabelEncoder` m√™me √† la place de `get_dummies`, attention √† ne pas introduire **d'ordre artificiel**.
- `get_dummies` permet d'encoder plusieurs attributs en m√™me temps contrairement √† `LabelEncoder`.


#### üß† **Fonctionnement** de `get_dummies` 

Quand `get_dummies` encode une variable binaire comme "*Fumeur*" avec les modalit√©s "*Oui*" et "*Non*", il cr√©e deux colonnes :

| Fumeur_Oui | Fumeur_Non |
|------------|------------|
| 1          | 0          |
| 0          | 1          |

Avec `drop_first=True`, seule la colonne `Fumeur_Oui` est conserv√©e. Cela √©vite les **redondances** et les **liens entre attributs** qui pourraient perturber des algorithmes contre les r√©gressions et le PPCA

In [None]:
from sklearn.cluster import KMeans
from sklearn.cluster import DBSCAN
from sklearn.neighbors import NearestNeighbors
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import LabelEncoder
from collections import Counter
import numpy as np
import matplotlib.pyplot as plt


# On cr√©e une copie de df pour travailler dessus sans modifier l'original
# Cela √©vite d'alt√©rer le DataFrame de base si on veut le r√©utiliser ensuite 
# (l'encodage rajoute des colonnes et modifie les valeurs).
X = df.copy()


# Encodage de l'activit√© physique (ordinale)
le = LabelEncoder()
X["Activit√©_Physique"] = le.fit_transform(X["Activit√©_Physique"])

# Encodage one-hot des autres variables cat√©gorielles (non ordonn√©es)
# Le drop_first = True permet d'√©viter les redondances 
X_encoded = pd.get_dummies(X, columns=["Fumeur", "Consommation_Alcool", "Ant√©c√©dents_Familiaux"], drop_first=True)

### üß† 3.4  Analyse en composantes principales (PCA)

Il faut d√©terminer le nombre de composantes optimal pour le PCA. Mais avant cela, il faut **standardiser** les crit√®res, c'est √† dire leur donner un **poids √©gal** (les composantes sont des combinaisons lin√©aires des crit√®res fournis, ainsi, un √¢ge entre 40 et 70 ans p√®serait bien plus qu'un 0 / 1 caract√©risant un fumeur ou non).

‚úÖ Ce que fait `StandardScaler` :
Il transforme chaque colonne pour qu‚Äôelle ait :
- une moyenne = 0
- un √©cart type = 1

Autrement dit, il met toutes **les variables sur la m√™me √©chelle**, ce qui rend leur importance √©quivalente dans le PCA.

‚úÖ Nombre de **composantes n√©cessaires** au PCA : un minimum de **75% d'informations retenues** est attendu ici.

In [None]:
# Mise des variables √† la m√™me √©chelle
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_encoded) # Entra√Ænement du scaler


# TEST : PCA avec 2 composantes (avec r√©sultats)
################### A COMPLETER ########################



# TEST : PCA avec 3 composantes (avec r√©sultats)
################### A COMPLETER ########################



### üìåQuestions

- 1. **Compl√©ter** le code manquant permettant de tester le PCA pour 2 et 3 composantes. On notera **<u>obligatoirement</u>** `X_pca` les donn√©es travaill√©es apr√®s l'entra√Ænement du mod√®le PCA.
- 2. **Conclure** sur le nombre de composantes.

**<u>Aide</u>** : on verra ici que *2 composantes* sont largement suffisantes (95% d'informations retenues).

### üß† 3.5  Application du PCA et d√©termination du meilleur mod√®le K-Means / DBSCAN


In [None]:
# Application de la PCA avec le bon nombre de composantes
################### A COMPLETER ########################


# Affichage 2D 
plt.scatter(X_pca[:, 0], X_pca[:, 1], s=50, alpha=0.7)
plt.xlabel("Composante 1")
plt.ylabel("Composante 2")
plt.title("Projection PCA (2 composantes)")
plt.grid(True)
plt.show()

### üìåQuestions

- 1. **Compl√©ter** le code manquant.
- 2. Quel mod√®le entre le **K-Means** et le **DBSCAN** pourrait-on appliquer ici ? Justifier. <u>ON FERA UNE ANALYSE SEULEMENT QUALITATIVE</u> (pas de tests). 
- 3. En d√©duire <u>qualitativement</u> le (ou les) param√®tres `n_clusters` (K_Means) ou `min_samples` / `eps` (DBSCAN)

### üß† 3.6  Application du PCA et d√©termination du meilleur mod√®le entre K-Means et DBSCAN

In [None]:
# Application du meilleur mod√®le avec les bons crit√®res
################ A COMPLETER ###################


# Affichage des r√©sultat
plt.figure(figsize=(8, 6))
scatter = plt.scatter(X_pca[:, 0], X_pca[:, 1], c=k_labels, cmap='Set2', s=50)

# Ajouter les num√©ros de clusters en annotation au centre de chaque groupe
for cluster_id in np.unique(k_labels):
    # coordonn√©es du centre de gravit√© du cluster
    x_mean = X_pca[k_labels == cluster_id, 0].mean()
    y_mean = X_pca[k_labels == cluster_id, 1].mean()
    plt.text(x_mean, y_mean, str(cluster_id), fontsize=14, weight='bold',
             ha='center', va='center', color='black', bbox=dict(facecolor='white', edgecolor='black', boxstyle='round,pad=0.3'))

plt.title("Algorithme sur donn√©es PCA avec num√©ros de clusters")
plt.xlabel("Composante 1")
plt.ylabel("Composante 2")
plt.grid(True)
plt.show()

### üìåQuestion

A priori, combien de **groupes de patients** peut-on proposer √† partir des r√©sultats ?  

### üß† 3.7  Pr√©diction de l'appartenance d'un patient √† une cat√©gorie 

On a vu qu'avec l'algorithme **DBSCAN**, on devait utiliser **KNN** pour **estimer la cat√©gorie d'appartenance** d'une nouvelle donn√©e. 
Voici la d√©marche √† suivre avec l'algorithme **K_Means**.

#### üìù R√©sum√© des √©tapes de pr√©diction pour un nouveau patient

| √âtape | Description |
|-------|-------------|
| 1Ô∏è‚É£ Encodage de l'activit√© physique | Utiliser le `LabelEncoder` d√©j√† entra√Æn√© (`le`) sur la colonne `"Activit√©_Physique"` |
| 2Ô∏è‚É£ Encodage des variables nominales | Utiliser `pd.get_dummies` avec `drop_first=True` pour les variables comme `"Fumeur"`, `"Alcool"`... |
| 3Ô∏è‚É£ Ajustement des colonnes | Ajouter les colonnes manquantes pour correspondre √† `X_encoded`, puis r√©ordonner les colonnes |
| 4Ô∏è‚É£ Standardisation | Appliquer le `scaler.transform(...)` entra√Æn√© pr√©c√©demment sur `X_encoded` |
| 5Ô∏è‚É£ R√©duction de dimension | Appliquer `pca.transform(...)` sur les donn√©es standardis√©es du patient |
| 6Ô∏è‚É£ Pr√©diction du cluster | Utiliser `kmeans.predict(...)` pour obtenir le num√©ro du cluster associ√© |


**<u>Exemple</u>** : On teste ici pour un patient avec ces caract√©ristiques : *√Çge = 65 ans, Poids = 80 kg, Ant√©c√©dents = Oui, Tabac = Non, Alcool = Oui, Activit√© = Faible*

In [None]:
# Caract√©ristiques du patient :
# √Çge = 65 ans, Poids = 80 kg, Ant√©c√©dents = Oui, Tabac = Non, Alcool = Oui, Activit√© = Faible

patient = pd.DataFrame([{
    "√Çge": 65,
    "Poids": 80,
    "Fumeur": "Non",
    "Consommation_Alcool": "Oui",
    "Ant√©c√©dents_Familiaux": "Oui",
    "Activit√©_Physique": "Faible"
}])

# √âtape 1 : Encodage de l'activit√© physique avec le m√™me LabelEncoder que pr√©c√©demment
patient["Activit√©_Physique"] = le.transform(patient["Activit√©_Physique"])

# √âtape 2 : Encodage one-hot des autres variables cat√©gorielles (comme dans le TP)
patient_encoded = pd.get_dummies(patient, drop_first=True)

# √âtape 3 : Ajouter les colonnes manquantes pour correspondre √† X_encoded
for col in X_encoded.columns:
    if col not in patient_encoded.columns:
        patient_encoded[col] = 0
patient_encoded = patient_encoded[X_encoded.columns]  # Reordonner les colonnes

# √âtape 4 : Standardiser avec le scaler d√©j√† entra√Æn√©
patient_scaled = scaler.transform(patient_encoded)

# √âtape 5 : R√©duction avec le PCA d√©j√† entra√Æn√©
patient_pca = pca.transform(patient_scaled)

# √âtape 6 : Pr√©diction avec le mod√®le KMeans
cluster_pred = kmeans.predict(patient_pca)[0]
print(f"‚úÖ Le patient est class√© dans le cluster {cluster_pred}")


### üß† 3.7  Analyse des r√©sultats

Il est important de comprendre qu'avec le PCA, les **composantes** sont une **combinaison lin√©aires des crit√®res** relev√©s : on ne peut donc pas analyser directement les groupes obtenus.

En revanche, on peut cibler les types de personnes composants les clusters : dans l'exemple ci-dessus, 
chaque cluster correspond probablement √† un **profil de risque** :
  - üü© Un cluster peut regrouper des patients **jeunes, actifs, non-fumeurs, sans ant√©c√©dents** ‚Üí risque faible
  - üü• Un autre cluster peut repr√©senter des patients **plus √¢g√©s, fumeurs, avec ant√©c√©dents** ‚Üí risque √©lev√©
  - üü¶ Le troisi√®me est un **profil interm√©diaire** entre les deux.

In [None]:
import seaborn as sns


# Ajout des labels K-Means aux donn√©es d'origine
X_labeled = df.copy()
X_labeled["Cluster"] = k_labels


# Projection 2D (composantes 1 et 2)
plt.scatter(X_pca[:, 0], X_pca[:, 1], s=50, alpha=0.7)
plt.xlabel("Composante 1")
plt.ylabel("Composante 2")
plt.title("Projection PCA (2 composantes)")
plt.grid(True)
plt.show()


# Barplot de la consommation de tabac par cluster
plt.figure(figsize=(6, 4))
sns.barplot(
    data=X_labeled.groupby("Cluster")["Fumeur"].apply(lambda x: (x == "Oui").mean()).reset_index(),
    x="Cluster", y="Fumeur"
)
plt.title("Proportion de fumeurs par cluster")
plt.ylabel("Proportion de fumeurs")
plt.grid(True)
plt.show()


# Barplot de la consommation d'alcool par cluster
plt.figure(figsize=(6, 4))
sns.barplot(
    data=X_labeled.groupby("Cluster")["Consommation_Alcool"].apply(lambda x: (x == "Oui").mean()).reset_index(),
    x="Cluster", y="Consommation_Alcool"
)
plt.title("Proportion de consommateurs d'alcool par cluster")
plt.ylabel("Proportion d'alcool")
plt.grid(True)
plt.show()


# Barplot des ant√©c√©dents familiaux par cluster
plt.figure(figsize=(6, 4))
sns.barplot(
    data=X_labeled.groupby("Cluster")["Ant√©c√©dents_Familiaux"].apply(lambda x: (x == "Oui").mean()).reset_index(),
    x="Cluster", y="Ant√©c√©dents_Familiaux"
)
plt.title("Proportion d'ant√©c√©dents familiaux par cluster")
plt.ylabel("Proportion avec ant√©c√©dents")
plt.grid(True)
plt.show()


# Barplot de l'activit√© physique par cluster
plt.figure(figsize=(6, 4))
sns.barplot(
    data=X_labeled.groupby("Cluster")["Activit√©_Physique"].value_counts(normalize=True).rename("Proportion").reset_index(),
    x="Cluster", y="Proportion", hue="Activit√©_Physique"
)
plt.title("R√©partition de l'activit√© physique par cluster")
plt.grid(True)
plt.show()



# Boxplot de l'√¢ge par cluster
plt.figure(figsize=(6, 4))
sns.boxplot(data=X_labeled, x="Cluster", y="√Çge")
plt.title("Distribution de l'√¢ge par cluster")
plt.grid(True)
plt.show()

# Boxplot du poids par cluster
plt.figure(figsize=(6, 4))
sns.boxplot(data=X_labeled, x="Cluster", y="Poids")
plt.title("Distribution du poids par cluster")
plt.ylabel("Poids (kg)")
plt.grid(True)
plt.show()

### üß† R√©sum√© : interpr√©tation des clusters avec les barplots et boxplots

Pour comprendre ce que repr√©sente chaque cluster (faible, moyen ou fort risque de cancer), on utilise :

| Type de graphique        | Variables concern√©es                            | Ce qu'on observe                                                         |
|--------------------------|--------------------------------------------------|--------------------------------------------------------------------------|
| üì¶ Boxplot               | `√Çge`, `Poids`                                   | Rep√®re les groupes plus √¢g√©s ou corpulents                              |
| üìä Barplot (proportions) | `Fumeur`, `Consommation_Alcool`, `Ant√©c√©dents_Familiaux` | Observe la part de patients expos√©s √† des facteurs de risque           |
| üìä Barplot (r√©partition) | `Activit√©_Physique`                   | Compare les modalit√©s (ex : actif / non) dans chaque cluster             |


### üìåQuestion

Classer les clusters en fonction des **risques de cancers**.

### üå≤ 3.8 Influence des diff√©rents crit√®res

Une fois les clusters identifi√©s et associ√©s √† des niveaux de risque, on peut entra√Æner un **mod√®le supervis√©** (Random Forest ici) pour d√©terminer quels crit√®res influencent le plus le classement des patients.


#### üìò R√©sum√© ‚Äì D√©terminer l‚Äôimportance des crit√®res dans le risque de cancer (Random Forest)

Pour savoir **quels crit√®res influencent le plus le classement des patients** par niveau de risque, on suit ces √©tapes :

| √âtape | Description                                                                 |
|-------|-----------------------------------------------------------------------------|
| 1Ô∏è‚É£    | Associer chaque **cluster** (0, 1, 2) √† un **niveau de risque** (`faible`, `mod√©r√©`, `√©lev√©`) |
| 2Ô∏è‚É£    | Ajouter cette information dans le tableau principal (`df`)                |
| 3Ô∏è‚É£    | Utiliser le DataFrame encod√© (`X_encoded`) comme **base d‚Äôapprentissage** |
| 4Ô∏è‚É£    | Entra√Æner un mod√®le **RandomForestClassifier** avec `Cluster` comme cible  |
| 5Ô∏è‚É£    | Extraire l‚Äô**importance des variables** via `.feature_importances_`        |
| 6Ô∏è‚É£    | Afficher un **histogramme horizontal** pour visualiser les crit√®res les plus d√©terminants |

‚úÖ Ce processus permet d‚Äô**interpr√©ter les d√©cisions du mod√®le** et de **hi√©rarchiser les facteurs de risque** en fonction de leur contribution.



In [None]:
from sklearn.ensemble import RandomForestClassifier
import pandas as pd
import matplotlib.pyplot as plt

# √âtape 1 : Associer les clusters √† des niveaux de risque
# (adapte si n√©cessaire selon ton analyse visuelle)
cluster_risque = {
    0: "Mod√©r√©",
    1: "Faible",
    2: "√âlev√©"
}

# √âtape 2 : Cr√©er les colonnes "Cluster" et "Niveau_Risque"
df["Cluster"] = k_labels
df["Niveau_Risque"] = df["Cluster"].map(cluster_risque)

# On v√©rifie que l'ajout des colonnes est effectif
print(df.head())


# √âtape 3 : Utiliser les donn√©es entra√Æn√©es pr√©c√©demment 
X_features = X_encoded.copy()
y_risque = df["Cluster"]  

# √âtape 4 : Entra√Æner une Random Forest pour analyser l'importance des crit√®res
rf = RandomForestClassifier(random_state=42)
rf.fit(X_features, y_risque)

# √âtape 5 : Extraire l‚Äôimportance des variables 
importances = pd.Series(rf.feature_importances_, index=X_features.columns)
importances.sort_values(ascending=True).plot(kind="barh", figsize=(8, 6))

# √âtape 6 : Les afficher sous forme d‚Äôhistogramme
plt.title("Importance des crit√®res pour pr√©dire le niveau de risque (Random Forest)")
plt.xlabel("Importance")
plt.grid(True)
plt.tight_layout()
plt.show()
