# 🏦 Projet NSI – Prédire la segmentation de clients dans un hypermarché

## 🎯 Objectifs du projet
- Utiliser **PCA** pour visualiser des données client en 2D
- Comparer deux méthodes de clustering : **K-Means** et **DBSCAN**
- Choisir visuellement celle qui segmente le mieux les clients
- Identifier les groupes de clients ayant des comportements d'achat similaires

## 📁 Etape 1 : Jeu de données simulé
- Charger le fichier `clients_hypermarche.csv`
- Afficher les 5 premières lignes

In [None]:
# Installation des bibliothèques
!pip install pandas numpy scikit-learn matplotlib seaborn

In [1]:
############### A COMPLETER ICI ###################


## 🧹  Etape 2 : Prétraitement et PCA
- Encoder les variables qualitatives (`LabelEncoder`, `get_dummies`)
- Standardiser les données avec `StandardScaler`
- Appliquer le PCA avec **un nombre de composantes à déterminer**
 
 💡 <u>*Aide*</u> : utilisez `explained_variance_ratio_` pour justifier votre choix.
    
    
- Réduire la dimension avec **PCA** selon l'objectif visé (2 ou 3 composantes)
- Afficher la **variance expliquée** et un **nuage de points 2D** des clients

In [None]:
############### A COMPLETER ICI ###################
# À compléter : encodage, standardisation, PCA

## 🔍  Etape 3 : Comparaison qualitative des méthodes

💡 L'objectif est de **décider visuellement quel algorithme (K-Means ou DBSCAN) est le plus adapté** au jeu de données.


| Critère                         | K-Means                         | DBSCAN                                   |
|---------------------------------|----------------------------------|-------------------------------------------|
| Type de clusters                | Formes arrondies                 | Formes libres, densité variable           |
| Nombre de clusters              | Doit être défini à l'avance      | Estimé automatiquement                   |
| Sensibilité aux outliers        | ⚠️ Très sensible                 | ✅ Tolère bien les points isolés (bruit)  |
| Paramètres clés                 | `n_clusters` (k)                 | `eps`, `min_samples`                     |
| Interprétation des résultats    | Plus simple                      | Plus difficile                            |

- Appliquer **K-Means** avec un k choisi à l’œil (ex : 3 ou 4)
- Appliquer **DBSCAN** avec des paramètres raisonnables (ex : `eps=1.0`, `min_samples=5`)
- Afficher les **deux segmentations** sur les mêmes données réduites.

➡️ **Comparer visuellement** les regroupements : quelles formes ? quels niveaux de bruit ?

In [None]:
############### A COMPLETER ICI ###################
# À compléter : appliquer K-Means et DBSCAN, tracer les graphes

## 📊  Etape 4 (*) : Interprétation des clusters

💡 **Remarque importante sur le PCA :**

- Le PCA permet de réduire la dimension des données tout en conservant un maximum d'information.
- Si 2 ou 3 composantes n'expliquent pas assez de variance (ex : < 70 %), il est recommandé d'utiliser **davantage de composantes** (ex : 6 à 8).

👉 Même si cela rend la **visualisation impossible**, on peut tout à fait appliquer **K-Means / DBSCAN** dans cet espace réduit, car le PCA améliore souvent la séparation des groupes.


🔍 **Attention : le choix du nombre de composantes PCA peut changer les résultats !**

- En ajoutant une composante supplémentaire (ex : passer de 6 à 7), les **axes de séparation changent**, ce qui peut modifier :
    - La structure des données dans l’espace réduit
    - Le regroupement trouvé par K-Means / DBSCAN
    - Les moyennes des variables dans chaque cluster
- Il est alors utile de **réévaluer les bons nombres de clusters** ou les **meilleurs couples** avec la méthode appropriée. 

💡 Cela montre que **le choix du nombre de composantes n’est pas neutre** et peut avoir un impact significatif sur l’analyse.



**<u>A faire</u>** :
- Appliquer le PCA avec un *nombre de composants cohérent* puis l'algorithme sélectionné (K_Means / DBSCAN) avec des *paramètres plausibles*.
- Ajouter les numéros de clusters au DataFrame
- Créer des **boxplots** pour `Frequence_de_visite`, `Montant_moyen_mensuel`, `Durée_moyenne_visite`
- Créer des **barplots** pour les variables catégorielles

➡️ Si on observe des variations importantes (ex : avec `k=3` entre PCA(6) et PCA(7) par exemple), cela signifie que **K-Means est sensible à la structure exacte de l'espace réduit**, et que le nombre de clusters n'est peut-être **pas optimal** 

🔄 Dans ce cas, on peut :
- Re-tester avec un `k` différent (ex : `k=4`)
- Réexaminer si les groupes sont mieux séparés visuellement entre les PCA.


➡️ En déduire le **profil des segments** : *clients occasionnels, fidèles, gros acheteurs*, etc.

In [None]:
############### A COMPLETER ICI ###################
# À compléter : visualiser les clusters avec seaborn