# PROJET 4 : Segmentation des clients d'un site e-commerce


## SOMMAIRE  <a class="anchor" id="sommaire"></a>
## [IMPORT DES LIBRAIRIES](#3)<a class="anchor" id="sommaire"></a>
## [CHARGEMENT DES DONNEES](#4)<a class="anchor" id="sommaire"></a>
## [MISSION 1: DIFFERENTS TYPES DE SEGMENTATION ](#5)<a class="anchor" id="sommaire"></a>
### [M1-1 : RFM](#6)<a class="anchor" id="sommaire"></a>
### [M1-2 : K-MEANS](#7)<a class="anchor" id="sommaire"></a>
### [M1-3 : DB-SCAN](#8)<a class="anchor" id="sommaire"></a>


--------------------------------------------------------

## [IMPORT DES LIBRAIRIES](#sommaire)<a class="anchor" id="3"></a>

In [1]:
import numpy as np
import pandas as pd
import seaborn as sns
from utils.functions import *
import os
from sklearn.cluster import DBSCAN 
from sklearn.preprocessing import StandardScaler 
from sklearn.preprocessing import normalize 
from sklearn.decomposition import PCA 
from sklearn.metrics import silhouette_samples, silhouette_score

## [CHARGEMENT DES DONNEES](#sommaire)<a class="anchor" id="4"></a>

In [4]:
### Lecture du fichier de sauvegarde de DF final
file_customers_Final_Behaviour = 'data/final/customers_Final_Behaviour.csv'
file_AllData = 'data/final/AllData.csv'

customers_Final_Behaviour = pd.read_csv(file_customers_Final_Behaviour, sep='\t', engine='python')
all_Data = pd.read_csv(file_AllData, sep='\t', engine='python')

In [5]:
# Supression des variables des montants par categorie
# en doublon(cf matrice de correlation) :
customers_Final_Behaviour.drop(columns=['amount_sports_leisure',
                                             'amount_health_beauty',
                                             'amount_home',
                                             'amount_furniture',
                                             'amount_fashion',
                                             'amount_misc',
                                             'amount_construction',
                                             'amount_electronics',
                                             'amount_supplies',
                                             'amount_food_drink',
                                             'amount_gifts'], inplace=True)

## [MISSION 1: DIFFERENTS TYPES DE SEGMENTATION ](#sommaire)<a class="anchor" id="5"></a>

### [M1-1 : RFM ](#sommaire)<a class="anchor" id="6"></a>

### [M1-2 : K-Means ](#sommaire)<a class="anchor" id="7"></a>

### [M1-3 : DB-Scan ](#sommaire)<a class="anchor" id="8"></a>

#### Préparation des données :

In [9]:
customers_Final_Behaviour_dbscan = customers_Final_Behaviour.copy()
customers_Final_Behaviour_dbscan_in = customers_Final_Behaviour_dbscan.drop(columns=['Unnamed: 0','customer_id', 'customer_unique_id','customer_city','customer_state','order_id','First_order_date'])
customers_Final_Behaviour_dbscan_in.fillna(0, inplace = True)

# Standardisation des variables :
customers_Final_Behaviour_dbscan_std = customers_Final_Behaviour_dbscan_in.sample(20000).copy()
# transformer les données en array numpy
X = customers_Final_Behaviour_dbscan_std.values

std_scale = StandardScaler().fit(X)
X_scaled = std_scale.transform(X)

#### Calcul des parametres(eps,mn_samples) pour dbscan :

In [10]:
# calcul de la valeur optimale de epsilon
from sklearn.metrics import silhouette_samples, silhouette_score
nbColumns = 19
min_samples_default =nbColumns * 2

range_eps = [2,4,5]
for i in range_eps :
    print('eps ='+str(i))
    db = DBSCAN(eps = i, min_samples = min_samples_default).fit(X_scaled)
    core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
    core_samples_mask[db.core_sample_indices_]= True
    labels = db.labels_
    print(set(labels))
    silhouette_avg = silhouette_score(X_scaled, labels)
    print("pour eps ="+str(i),labels," le silhouette_score moyen est : ",silhouette_avg)
    


eps =2
{0, 1, 2, -1}
pour eps =2 [0 1 0 ... 0 0 0]  le silhouette_score moyen est :  0.3170824217908753
eps =4
{0, 1, -1}
pour eps =4 [0 0 0 ... 0 0 0]  le silhouette_score moyen est :  0.573163429324979
eps =5
{0, 1}
pour eps =5 [0 0 0 ... 0 0 0]  le silhouette_score moyen est :  0.5737159571952241


In [29]:
# calcul de la valeur min_sample
min_samples = [5,10,20,40]
for j in min_samples :
    print('min_samples ='+str(j))
    db = DBSCAN(eps = 5, min_samples = j).fit(X_scaled)
    core_samples_mask = np.zeros_like(db.labels_, dtype=bool)
    core_samples_mask[db.core_sample_indices_]= True
    labels = set([label for label in db.labels_ if label >= 0]) # ignorer le label -1 comme un outlier
    print(set(labels))
    print("Pour min_samples ="+str(i),labels," le nombre total de clusters est : ",str(len(set(labels))))

min_samples =5
{0, 1, 2, 3, 4, 5}
Pour min_samples =5 {0, 1, 2, 3, 4, 5}  le nombre total de clusters est :  6
min_samples =10
{0, 1, 2, 3, 4}
Pour min_samples =5 {0, 1, 2, 3, 4}  le nombre total de clusters est :  5
min_samples =20
{0, 1, 2, 3}
Pour min_samples =5 {0, 1, 2, 3}  le nombre total de clusters est :  4
min_samples =40
{0, 1, 2}
Pour min_samples =5 {0, 1, 2}  le nombre total de clusters est :  3


In [11]:
# Numpy array of all the cluster labels assigned to each data point
dbscan = DBSCAN(eps = 5, min_samples = 38).fit(X_scaled)
clusters = dbscan.labels_
customers_Final_Behaviour_dbscan_std['dbscan_cluster'] = dbscan.fit_predict(X_scaled)

array([0, 1], dtype=int64)

In [14]:
# Faire une transformation inverse de la normalisation faite Log :
customers_Final_Behaviour_dbscan_inverse = customers_Final_Behaviour_dbscan_std.copy()

customers_Final_Behaviour_dbscan_inverse_copy = customers_Final_Behaviour_dbscan_inverse.copy()
# Les variables qui ont un coeeficient de skewness > 2
listVarDensite = ['frequency_order',
                  'monetary_amount_order',
                  'mean_value_order', 'nbr_payments_type']
for j,val in enumerate(listVarDensite):
    # transformer les données pour le rendre normales  
    customers_Final_Behaviour_dbscan_inverse_copy[val] =  np.exp(customers_Final_Behaviour_dbscan_inverse[val])-1  
    jmax = j
    
#customers_Final_Behaviour_dbscan_inverse_copy.sort_values(by="dbscan_cluster", ascending=False)

In [16]:
# Affichage des repartitions des variables pour chaque cluster :
#radar_plot(customers_Final_Behaviour_dbscan_inverse_copy, group='dbscan_cluster',
#           xsize=0.25, ysize=0.25, figsize=(25, 25))


#### Réduction des dimensions pour afficher les clusters :

In [17]:
# TSNE est une technique utile pour visualiser des données avec beaucoup de variables. 
# L'algorithme t-SNE est intéressant car il utilise des distributions de probabilité conjointes pour décrire la proximité des points de données.

In [18]:
np.random.seed(1)
#tnse_sample = X_scaled
tnse_sample = customers_Final_Behaviour_dbscan_std

In [19]:
import sklearn.manifold as manifold

# On applique le T-SNE à l'échantillon
tsne = manifold.TSNE(n_components=2, init='pca', perplexity=50, random_state=0)
X_tsne = tsne.fit_transform(tnse_sample)

In [None]:
# Affichage du graphique
clusters_sample = dbscan.fit_predict(X_scaled)
plt.figure(figsize=(15, 12))
plt.axis([np.min(X_tsne[:, 0] * 1.1), np.max(X_tsne[:, 0] * 1.1),
          np.min(X_tsne[:, 1] * 1.1), np.max(X_tsne[:, 1] * 1.1)])

colors = ['royalblue', 'maroon', 'forestgreen', 'mediumorchid', 'tan', 'deeppink', 'olive', 'goldenrod', 'lightcyan', 'navy','gray','purple']

for i in range(len(np.unique(clusters_sample))):
    idx = clusters_sample == i
    plt.scatter(X_tsne[idx, 0], X_tsne[idx, 1], label=i, s=10, c=colors[i])
    plt.title('T-SNE sur 4 clusters')

plt.legend(loc='upper left', markerscale=2)
plt.show()