# K-Means

<img src="./figures/kmeans.jpg" width="700px"/>

## Market Segmentation

Le but de ce projet est de **clusteriser les clients** d'un centre commercial en fonction de certaines données personnelles: âge, sexe, revenu annuel et spending score.

Pour plus de précision sur les data, voir le lien suivant:<br>
https://www.kaggle.com/datasets/vjchoudhary7/customer-segmentation-tutorial-in-python

## Exercice


### Load Data
1. Loadez et examinez les data.<br>
   ```
   df = pd.read_csv('./data/mall_customers.csv')
   ```


### Data Analysis
2. Supprimez la colonne `CustomerID`.


3. Examinez les correlations entre les variables de votre dataset.


4. Encodez la variable discrète `Gender` de manère *1-hot*: `df = pd.get_dummies(df)`


5. Normalisez les data en utilisant un `Normalizer()`:<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.Normalizer.html


### Model
6. Fittez un $K$-means sur vos data, avec $K=3$.<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans


7. Fittez plusieurs $K$-means sur vos data, pour $K=2,\dots,20$.<br>
    Faites les grrphe de l'inertie de vos modèles `kean._inertia` en fonction de $K$.<br>
    La meilleure $K$ valeur de $K$ est celle pour laquelle on a un coude dans ce graphe (**Elbow method**):<br>
    https://www.scikit-yb.org/en/latest/api/cluster/elbow.html


8. Déterminer visuellement la meilleure valeur de $K$ grâce à la Elbow method.<br>
    Fittez un $K$-means sur vos data avec cette meilleure valeur de $K$.<br>
    Vos résultats ae sont-ils améliorés?


9. Effectuez une **analyse par composantes principales (principal component analysis PCA)** en 2 dimensions de vos data.<br>
    https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html
    Faites le graphe des data projetées que vous obtenez.<br>
    Sur votre graphe, coloriez vos points en fonction de leurs appartenances à différents clusters calculées par votre $K$-means.

## Librairies

In [1]:
import pandas as pd
import numpy as np

from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.preprocessing import Normalizer
from sklearn.cluster import KMeans

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

## Load Data

In [2]:
df = pd.read_csv('./data/mall_customers.csv')

## Data Analysis

### Generalities

### Correlations

### 1-hot encoding of discrete variables

## Model

### Fit a K-means

### Fit a PCA and plot clustered data

### Elbow method to determine optimal number of clusters

### Re-fit a K-means with optimal number of clusters