---
# TD2 Clustering par la m√©thode k-means
## - Application √† la gestion des risques -
---

### Objectif p√©dagogique

√Ä l'issue de ce TD, l'√©tudiant devra √™tre capable de :

- Comprendre le principe math√©matique de l'algorithme k-means ;
- Impl√©menter et utiliser k-means en Python avec *`scikit-learn`* ;
- Choisir un nombre pertinent de clusters (m√©thode du coude, silhouette) ;
- Interpr√©ter des clusters dans un contexte de gestion des risques ;
- Discuter les limites de k-means pour des applications r√©elles de gestion du risque.

### Contexte applicatif : gestion des risques naturels ‚Äì incendies de for√™t et WUI

On se place dans le contexte de la gestion des risques naturels, et plus particuli√®rement des incendies de for√™t √† l‚Äôinterface for√™t‚Äìhabitat (Wildland‚ÄìUrban Interface, WUI).

Les territoires WUI sont caract√©ris√©s par une forte h√©t√©rog√©n√©it√© des conditions de risque, li√©e √† la v√©g√©tation, √† la topographie, au climat et √† l‚Äôexposition des enjeux humains et mat√©riels.

L‚Äôobjectif est d‚Äôutiliser un algorithme de clustering non supervis√© (k-means) pour :

- Identifier des profils homog√®nes de zones WUI ;
- Mettre en √©vidence des niveaux de risque diff√©renci√©s ;
- Aider √† la priorisation des actions de pr√©vention (d√©broussaillement, urbanisme, moyens de lutte).
---

### Partie 1 : G√©n√©ration d'un jeu de donn√©es de risque incendie (WUI)

On consid√®re un territoire d√©coup√© en 300 zones WUI, caract√©ris√©es par les indicateurs suivants :

*`fuel_load`* : charge combustible (kg/m¬≤) ;

*`slope`* : pente moyenne du terrain (¬∞) ;

*`wind_exposure`* : exposition moyenne au vent (m/s) ;

*`ignition_freq`* : fr√©quence annuelle d‚Äôignitions ;

*`asset_value`* : valeur des enjeux expos√©s (M‚Ç¨).

Ces variables sont inspir√©es des mod√®les physiques et empiriques utilis√©s en science du feu et en analyse de vuln√©rabilit√© territoriale.

#### 1.1 Simulation des donn√©es

- On g√©n√®re 300 situations de terrain (pixels SIG, zones, mailles, sc√©narios).

- Elles sont volontairement r√©parties en 3 groupes de taille √©gale :

    - Risque faible
    - Risque mod√©r√©
    - Risque √©lev√©
        
üéØ Objectif p√©dagogique

üëâ Construire un jeu de donn√©es contr√¥l√©, o√π les clusters existent r√©ellement, afin de :

- tester K-means,
- analyser la s√©parabilit√©,
- interpr√©ter physiquement les r√©sultats.

In [1]:
import numpy as np
import pandas as pd

#--------------------------------------------------------------------------------------------------------------------------
# Data generation
#--------------------------------------------------------------------------------------------------------------------------

# Creation d'un dataFrame avec les variables en colonnes et les observations en lignes
# on ajoute chaque cluster a une liste 
# puis on concatene la liste en un seul DataFrame
# on impose une structure latente avec les 3 clusters, K-means doit les retrouver

n = 300

cluster_sizes = [100, 100, 100]

data_list = []

# Cluster 0 : risque faible
data_list.append(pd.DataFrame({
    "fuel_load": np.random.lognormal(mean=0.6, sigma=0.2, size=cluster_sizes[0]),
    "slope": np.random.uniform(0, 10, size=cluster_sizes[0]),
    "wind_exposure": np.random.gamma(1.0, 1.0, size=cluster_sizes[0]),
    "ignition_freq": np.random.gamma(1.0, 0.5, size=cluster_sizes[0]),
    "asset_value": np.random.lognormal(mean=1.5, sigma=0.3, size=cluster_sizes[0]),
}))

# Cluster 1 : risque mod√©r√©
data_list.append(pd.DataFrame({
    "fuel_load": np.random.lognormal(mean=1.2, sigma=0.3, size=cluster_sizes[1]),
    "slope": np.random.uniform(10, 25, size=cluster_sizes[1]),
    "wind_exposure": np.random.gamma(2.0, 1.5, size=cluster_sizes[1]),
    "ignition_freq": np.random.gamma(1.5, 1.0, size=cluster_sizes[1]),
    "asset_value": np.random.lognormal(mean=2.2, sigma=0.4, size=cluster_sizes[1]),
}))

# Cluster 2 : risque √©lev√©
data_list.append(pd.DataFrame({
    "fuel_load": np.random.lognormal(mean=1.8, sigma=0.3, size=cluster_sizes[2]),
    "slope": np.random.uniform(25, 40, size=cluster_sizes[2]),
    "wind_exposure": np.random.gamma(3.0, 2.0, size=cluster_sizes[2]),
    "ignition_freq": np.random.gamma(2.5, 1.5, size=cluster_sizes[2]),
    "asset_value": np.random.lognormal(mean=3.0, sigma=0.6, size=cluster_sizes[2]),
}))

data = pd.concat(data_list, ignore_index=True)

1. Appliquer la m√©thode K-means afin de retrouver les clusters

2. Tracer le Scatterplot *`fuel_load`* vs *`ignition_freq`* en colorant les clusters

3. Tracer le Pairplot de toutes les variables

4. Afin de faciliter l'interpr√©tation des histogrammes (diagonale de la matrice Pairplot), on peut tracer pour chaque cluster, les densit√©s de chaque variable (transformation des histogrammes en densit√©s continues) avec la fonction *`kdeplot`* du module Python *`seaborn`*

5. Afin de faire l'analyse de risque, il faut revenir dans l'espace physique.   
    - On peut partitionner le DataFrame selon la valeur de la colonne *`cluster`* √† l'aide de la m√©thode *`groupeby()`* de *`panda`* et ensuite calculer la moyenne de chaque variable √† l'aide de la m√©thode *`mean()`* de *`panda`*.
    - On tracera enseuite sur le m√™me graphe les 3 histogrammes des 5 variables pour chaque cluster. Avec un mod√®le de risque, on peut classifier les clusters par niveau de risque.

6. On calculera un score de risque comme √©tant le produit des variables contributives.  
On tracera la densit√© du score de risque par cluster 