# TP : Segmentation de Clientèle avec K-means
## Dataset : Wholesale Customers

**Objectif :** Identifier des segments de clients d'un distributeur en gros en utilisant l'algorithme K-means

---

##  Introduction

Ce TP utilise des données réelles de 440 clients d'un distributeur en gros. Chaque client est caractérisé par ses dépenses annuelles (en unités monétaires) dans 6 catégories de produits : Fresh, Milk, Grocery, Frozen, Detergents_Paper, et Delicassen.

**Contexte business :** Vous êtes data scientist pour ce distributeur. La direction souhaite segmenter sa clientèle pour adapter ses stratégies commerciales et optimiser son offre produit selon les différents profils de clients.

**Dataset disponible :** https://archive.ics.uci.edu/dataset/292/wholesale+customers

---

##  Partie 1 : Chargement et exploration des données 

### Question 1.1 : Importation et première découverte

Chargez le dataset et répondez aux questions suivantes :

a) Combien de clients (lignes) et de variables (colonnes) le dataset contient-il ?

b) Quelles sont les variables disponibles et leur type (numérique, catégorielle) ?

c) Y a-t-il des valeurs manquantes dans le dataset ?

d) Affichez les statistiques descriptives (moyenne, médiane, écart-type, min, max) pour chaque variable de dépenses.

### Question 1.2 : Analyse des distributions

a) Pour chaque catégorie de produit, quelle est l'étendue des dépenses (minimum et maximum) ? Que remarquez-vous sur les échelles ?

b) Identifiez visuellement (avec des boxplots ou histogrammes) les catégories qui présentent le plus de valeurs extrêmes (outliers).

c) Calculez pour chaque client sa dépense totale. Quelle est la dépense moyenne par client ?

### Question 1.3 : Analyse des corrélations

a) Créez une matrice de corrélation entre les 6 variables de dépenses. Quelles paires de produits sont fortement corrélées (corrélation > 0.7) ?

b) Quelle interprétation business donnez-vous à ces corrélations ? (Par exemple : pourquoi Detergents_Paper et Grocery pourraient-ils être corrélés ?)

c) Y a-t-il des corrélations négatives notables ? Que suggèrent-elles ?

### Question 1.4 : Exploration des variables catégorielles

Si les variables Channel (Horeca vs Retail) et Region sont disponibles :

a) Combien de clients appartiennent à chaque canal de distribution ?

b) Quelle est la répartition géographique des clients ?

c) Créez un graphique comparant les dépenses moyennes par catégorie de produit selon le type de canal. Quelles différences observez-vous ?

---

##  Partie 2 : Préparation des données 

### Question 2.1 : Sélection des features

a) Quelles variables allez-vous utiliser pour la segmentation ? Justifiez votre choix.

b) Pourquoi ne pas inclure les variables Channel et Region dans le clustering ?

c) Créez votre matrice de features X contenant uniquement les variables de dépenses.

### Question 2.2 : Traitement des outliers

a) Identifiez les clients avec des dépenses extrêmes (par exemple, > 3 écarts-types de la moyenne dans au moins une catégorie). Combien en trouvez-vous ?

b) Décidez : allez-vous conserver ou retirer ces outliers ? Justifiez votre décision en considérant l'impact sur le clustering.

c) Si vous décidez de les conserver, quelle précaution devez-vous prendre lors de la normalisation ?

### Question 2.3 : Normalisation

a) Pourquoi est-il indispensable de normaliser les données avant d'appliquer K-means ?

b) Quelle méthode de normalisation allez-vous utiliser (StandardScaler, MinMaxScaler, RobustScaler) ? Justifiez votre choix compte tenu des caractéristiques du dataset.

c) Appliquez la normalisation à votre matrice X. Vérifiez que la transformation a bien été effectuée (moyenne ≈ 0, écart-type ≈ 1 pour StandardScaler).

### Question 2.4 : Réflexion théorique

a) Rappelez le principe de fonctionnement de l'algorithme K-means (initialisation, affectation, mise à jour).

b) Quels sont les deux hyperparamètres principaux de K-means que vous devrez définir ?

c) Quelles sont les limites connues de K-means ? (forme des clusters, sensibilité, etc.)

---

##  Partie 3 : Détermination du nombre optimal de clusters

### Question 3.1 : Méthode du coude (Elbow Method)

a) Calculez l'inertie (somme des distances au carré intra-cluster) pour K variant de 2 à 10 clusters.

b) Tracez la courbe de l'inertie en fonction de K. À partir de quelle valeur de K la diminution de l'inertie devient-elle marginale ?

c) Selon la méthode du coude, quel serait le nombre optimal de clusters ? Y a-t-il une ambiguïté dans l'interprétation ?

d) Pourquoi l'inertie diminue-t-elle toujours quand K augmente ? Peut-on se fier uniquement à ce critère ?

### Question 3.2 : Score de silhouette

Le score de silhouette mesure la qualité du clustering : il vaut entre -1 et 1, avec des valeurs proches de 1 indiquant des clusters bien séparés et cohérents.

a) Calculez le score de silhouette moyen pour K variant de 2 à 10.

b) Pour quelle(s) valeur(s) de K le score de silhouette est-il maximal ?

c) Tracez la courbe et comparez avec les résultats de la méthode du coude. Y a-t-il concordance ?

d) Qu'est-ce qu'un "bon" score de silhouette ? Le vôtre est-il satisfaisant ?

### Question 3.3 : Davies-Bouldin Index

Cet indice mesure le ratio entre la dispersion intra-cluster et la séparation inter-cluster. Plus il est faible, meilleure est la segmentation.

a) Calculez le Davies-Bouldin Index pour K variant de 2 à 10.

b) Pour quelle valeur de K cet indice est-il minimal ?

c) Les trois métriques (coude, silhouette, Davies-Bouldin) convergent-elles vers le même K optimal ?

### Question 3.4 : Décision finale

a) Sur la base des trois analyses précédentes, quel nombre de clusters recommandez-vous ? Argumentez votre choix.

b) Si les métriques donnent des résultats contradictoires, quelle stratégie adoptez-vous ? (tester plusieurs K, privilégier l'interprétabilité business, etc.)

c) Y a-t-il un intérêt business à avoir 2 clusters vs 4 ou 5 clusters ?

---

##  Partie 4 : Application et visualisation du K-means

### Question 4.1 : Entraînement du modèle final

a) Entraînez un modèle K-means avec le K optimal choisi. N'oubliez pas de fixer le random_state pour la reproductibilité.

b) Affectez chaque client à son cluster. Ajoutez cette information comme nouvelle colonne dans votre DataFrame.

c) Quelle est la répartition des clients dans les différents clusters ? Y a-t-il des clusters déséquilibrés ?

### Question 4.2 : Analyse des centroïdes

a) Récupérez les coordonnées des centroïdes de chaque cluster dans l'espace normalisé.

b) Transformez ces centroïdes dans l'espace original (dénormalisez-les) pour obtenir les dépenses moyennes par cluster et par catégorie.

c) Créez un tableau récapitulatif des centroïdes dénormalisés. Quelle est l'interprétation de ce tableau ?

