# Projet 5 : Segmenter des clients d'un site e-commerce

*Pierre-Eloi Ragetly*

Ce projet fait parti du parcours *Data Scientist* d'OpenClassroooms.

L'objectif pricipal est de réaliser **une segmentation des clients** d'un site de e-commerce, **une proposition de contrat de maintenance** devra être inclue.

Les données mises à notre disposition proviennent du site *kaggle* :
https://www.kaggle.com/olistbr/brazilian-ecommerce

# Partie II : Clustering

L'objectif de ce notebook est de décrire les opérations nécessaire à la segmentation des données.

nous lancerons le partionnement des données, après une rapide analyse de corrélation entre les variables. Trois algorithmes seront testés:
- clustering hiérarchique
- k-means
- DBSCAN

Pour déterminer quel algorithme donne les meilleurs résultats nous utiliserons les métriques suivantes :
- coefficient de silhouette pour vérifier la forme des clusters
- L'indice de Rand ajusté pour vérifier la stabilité des clusters à :
    - 3 mois
    - 6 mois
    - 12 mois
    
Une fois le meilleur partionnnement sélectionné, nous essaierons de caractériser les différents clustes. Nous utiliserons notammment l'algorithme de réduction *t-SNE* afin de pouvoir visualiser les clusters.

In [1]:
# Import usual libraries
%matplotlib inline
import matplotlib.pyplot as plt
import numpy as np
import scipy.stats as stats
import pandas as pd
import seaborn as sns

In [2]:
# Change some default parameters of matplotlib using seaborn
plt.rcParams.update(plt.rcParamsDefault)
plt.rcParams.update({'axes.titleweight': 'bold'})
sns.set(style='ticks')
current_palette = sns.color_palette('RdBu')
sns.set_palette(current_palette)

In [3]:
# Import data
data = (pd.read_csv("data/data.csv")
          .set_index("customer_unique_id"))

  has_raised = await self.run_ast_nodes(code_ast.body, cell_name,


<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Étude-de-la-matrice-des-corrélations" data-toc-modified-id="Étude-de-la-matrice-des-corrélations-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Étude de la matrice des corrélations</a></span></li><li><span><a href="#Clustering" data-toc-modified-id="Clustering-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Clustering</a></span><ul class="toc-item"><li><span><a href="#Clustering-Hiérarchique" data-toc-modified-id="Clustering-Hiérarchique-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Clustering Hiérarchique</a></span></li><li><span><a href="#k-means" data-toc-modified-id="k-means-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>k-means</a></span></li><li><span><a href="#DBSCAN" data-toc-modified-id="DBSCAN-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>DBSCAN</a></span></li><li><span><a href="#Clustering-final" data-toc-modified-id="Clustering-final-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Clustering final</a></span></li></ul></li><li><span><a href="#Caractérisation-des-clusters" data-toc-modified-id="Caractérisation-des-clusters-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Caractérisation des clusters</a></span><ul class="toc-item"><li><span><a href="#Visualisation-des-clusters-avec-le-t-SNE" data-toc-modified-id="Visualisation-des-clusters-avec-le-t-SNE-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Visualisation des clusters avec le t-SNE</a></span></li></ul></li></ul></div>

## Étude de la matrice des corrélations

Un moyen facile de vérifier la présence de **corrélations linéaires** entre les couples de variables quantitatives est de calculer la matrice des corrélations. Cette matrice donne le coefficient de corrélation de Pearson pour chaque couple de variable. Nous tracerons cette matrice sous forme de *heat-map* qui permet de voir rapidement les variables les plus corrélées.

Nous ajouterons à cette matrice les *p-valeurs* du test de significativité associé. Lorque l'on effectue un test de significativité, il est préférable d'avoir une loi normale bivariée pour chaque couple de variable, ce qui permet d'avoir un test exact. Une condition nécessaire (mais non suffisante) de l'obtention d'une telle loi est que chaque variable suive une loi normale. Cependant étant donné que le nombre d'observations est grand, nous allons pouvoir effectuer un test asymptotique et nous affranchir de l'hypothèse de loi normale bivariée.

In [8]:
feat_date = ["order_purchase_timestamp",
             "review_creation_date",
             "review_answer_timestamp"]

data[feat_date].dtypes

order_purchase_timestamp    object
review_creation_date        object
review_answer_timestamp     object
dtype: object

In [4]:
from functions.wrangling import wrangling_pipeline
from functions.visualization import corr_plot

# Clean the data by using the pipeline
# detailed in the wrangling notebook
df_clean = wrangling_pipeline(data, m_mean=True)

# Display the correlation array
corr_plot(df_clean, size_scale=500)

TypeError: '>=' not supported between instances of 'str' and 'float'

## Clustering

### Clustering Hiérarchique

### k-means

### DBSCAN

### Clustering final

## Caractérisation des clusters

### Visualisation des clusters avec le t-SNE