# E-ShopPy - SUIVI DES UTILISATEURS D'UN SITE DE E-COMMERCE

## PRESENTATION

<br>

L'objectif de notre étude est de réaliser une <b>analyse des données récoltées par un site réel de e-commerce</b>, disponible sur le site Kaggle (https://www.kaggle.com/retailrocket/ecommerce-dataset)

Le jeu de données est constitué de trois fichiers.
- Le fichier principal <em>events.csv</em>  contient <u>2756101 lignes et 5 variables</u>: <em>Heure Unix (timestamp), Identifiant de l'utilisateur, Catégorie de l'évènement, Identifiant de l'objet</em> et <em>Identifiant de la transaction</em>.

|    |     timestamp |   visitorid | event   |   itemid |   transactionid |
|---:|--------------:|------------:|:--------|---------:|----------------:|
|  0 | 1433221332117 |      257597 | view    |   355908 |             nan |
|  1 | 1433224214164 |      992329 | view    |   248676 |             nan |
|  2 | 1433221999827 |      111016 | view    |   318965 |             nan |
|  3 | 1433221955914 |      483717 | view    |   253185 |             nan |
|  4 | 1433221337106 |      951259 | view    |   367447 |             nan |
|  5 | 1433224086234 |      972639 | view    |    22556 |             nan |
|  6 | 1433221923240 |      810725 | view    |   443030 |             nan |
|  7 | 1433223291897 |      794181 | view    |   439202 |             nan |
|  8 | 1433220899221 |      824915 | view    |   428805 |             nan |
|  9 | 1433221204592 |      339335 | view    |    82389 |             nan |


Les données ont été récoltées du <b>3 mai 2015 au 18 septembre 2015</b> et nous représente un évènement ("Vue", "Mise au panier", "Transaction") réalisé par un utilisateur sur un objet. Il y a 1407580 utilisateurs uniques et 235061 objets uniques.

Les seules valeurs manquantes du fichier concerne la colonne <em>transactionid</em>, ce qui s'explique par le fait que seules les transactions seront identifiées par un valeur.

- Deux  fichiers <em>item_properties_part1.csv</em> et <em>item_properties_part2.csv</em> rassemblent <u>4 variables et respectivement 10999999 et 9254926 lignes</u>. Il s'agit d'un découpage d'un fichier unique volumineux.

Les variables sont <em>Heure Unix (timestamp), Identifiant de l'objet, Catégorie de l'évènement, Propriété de l'objet</em> et <em>Valeur de la propriété</em>. La plupart des propriétés ont été hachées, à l'exception des propriétés <em>categoryid</em> (Identifiant de la catégorie de l'objet) et <em>available</em> (Disponibilité de l'objet).

|    |     timestamp |   itemid | property   | value                           |
|---:|--------------:|---------:|:-----------|:--------------------------------|
|  0 | 1435460400000 |   460429 | categoryid | 1338                            |
|  1 | 1441508400000 |   206783 | 888        | 1116713 960601 n277.200         |
|  2 | 1439089200000 |   395014 | 400        | n552.000 639502 n720.000 424566 |
|  3 | 1431226800000 |    59481 | 790        | n15360.000                      |
|  4 | 1431831600000 |   156781 | 917        | 828513                          |

- Le dernier fichier <em>category_tree.csv</em> contient <u>1669 lignes et 2 variables</u>: <em>Identifiant de la catégorie enfant</em> et <em>Identifiant de la catégorie parent</em>. Il s'agit d'une représentation arborescente des catégories en sections, sous-sections, etc.


|    |   categoryid |   parentid |
|---:|-------------:|-----------:|
|  0 |         1016 |        213 |
|  1 |          809 |        169 |
|  2 |          570 |          9 |
|  3 |         1691 |        885 |
|  4 |          536 |       1691 |

Le prétraitement des données a été réalisé en plusieurs étapes à savoir:

 - Pour le fichier <em>events</em>, les 460 lignes redondantes ont été supprimées par drop_duplicates(keep="first").
 
 - L’heure, le jour de la semaine, le jour de l'année et le mois ont été extrait de la variable <em>timestamp</em> du fichier <em>events</em>, afin d'étudier la variation des évènements selon ces catégories temporelles.
 
 - Les fichiers ont été triées selon la variable <em>timestamp</em> par sort_values(by='timestamp', ascending=True)
 
 - Pour les deux  fichiers <em>item_properties_part1</em> et <em>item_properties_part2</em>, seules les lignes contenant la propriété <em>categoryid</em> ont été récupérées. Les deux fichiers ont ensuite été réunis. La sélection a permis de réduire drastiquement la taille des fichiers, le fichier final ne contient plus que 444364 lignes. La variable <em>property</em>, devenue inutile, a été supprimé et la variable <em>value</em> a été renommée <em>categoryid</em>.
 
 - Enfin, tous les fichiers ont été réunis. Les fichiers <em>events</em> et <em>item_properties</em> ont été réunis en faisant la jointure sur <em>itemid</em>. Le fichier résultant a été rassemblé avec <em>category_tree</em> en faisant la jointure sur <em>categoryid</em>.


# DATA VISUALISATION

### Distribution des évènements selon leur type

<img src = 'type_event.png' style = 'height:500px'>

Cette première visualisation nous permet de constater que les évènements sont constitués quasi-exclusivement de "Vue" (96.7%). Les autres types "Mise au panier" et "Transaction" suivent avec pour fréquences respectives 2.5% et 0.8%. 

Le jeu de données est fondamentalement déséquilibré. Un utilisateur qui regarde un article ne s'engage pas nécessairement dessus. Ce constat invite à s'intéresser aux taux de conversion. Une problématique de modélisation serait de cibler le ratio transaction/vue par utilisateur ou par objet.

### Nombre de vues avant achats

<img src = 'nb_view_before_purchase.png' style = 'height:500px'>

Lorsqu'il y a achat, cette visualiation montre que l'utilisateur n'avait regardé l'objet qu'une seule fois dans la majorité des cas. Dans 4 cas sur 5, il a suffit d'au plus deux vues.

On peut donc émettre l'hypothèse que plus un objet sera regardé par un utilisateur, moins cet utilisateur sera prêt à convertir sa curiosité en achat. Dans une problématique de classification, le nombre de vue semble être un feature pertinent, d'autant plus que la donnée est facile à recueillir.

### Temps entre deux évènements

<img src = 'time_between_event.png' style = 'height:500px'>

A un couple d'utilisateur/objet donné, sachant qu'il y a eu achat, on peut visualiser le temps mis entre la première vue et la première mise au panier, ainsi que le temps mis entre la première mise au panier et la transaction.

Les courbes sont tracé en fonction des valeurs des centiles. Ainsi, dans 60% des cas, il a fallu moins de 200 secondes entre la première vue et la mise au panier.

Dans 80% des situations, les conversions se font en moins de 1000 secondes, soit 17 min environ. Les temps sont bien plus longs pour les 20% restants.

Dans une problématique de classification, le <b>temps peak-to-peak</b> (durée passée sur un objet) semble être un feature pertinent pour cibler l'achat, d'autant plus que la donnée est facile à recueillir. Plus le temps peak-to-peak sera long, moins l'achat sera susceptible d'arriver. Dans le cas d'une vue unique sans action ultérieur, nous considérerons que le temps peak-to-peak sera considéré comme nul.

### Nombre de produits par panier

<img src = 'nb_item_basket.png' style = 'height:500px'>

La grande majorité des paniers ne sont constitués que d'un objet. <br>
Pour le reste, il est possible de compter les objets acheté ensemble. On peut pousser l'analyse pour chercher des règles d'association.

### Visualisation du nombre d'achats selon une variation temporelle

Concernant les graphiques suivants, l'axe des ordonnées donne un indice du nombre d'achats effectués sur une période temporelle.  <br> On s'intéresse ici davantage à la forme de la distribution qu'aux quantités réelles échangées.

<img src = 'transaction_hour.png' style = 'height:500px'>

Le fuseau horaire GMT est la référence pour ce graphique. <br>

Ce graphique appuie l'idée d'une saisonnalité journalière. On constate que la plupart des achats ont lieu entre 15h et 23h, avec un pic à 17h. <br>
D'autres analyses marketing ont noté que la concentration des achats sur les sites d'e-commerce avait lieu en soirée, au moment où les magasins sont fermés  et où les consommateurs sont dans leur domicile.

<img src = 'transaction_weekday.png' style = 'height:500px'>

Ce graphique appuie l'idée d'une saisonnalité hebdomadaire. Les achats sont concentrés en semaine, avec une baisse dès Vendredi et peu d'achats le week-end.  <br>
Ce constat rejoint d'autres analyses statistiques de marketing. Le week-end est consacré au loisir, ce qui fait baisser les ventes.

<img src = 'transaction_day.png' style = 'height:500px'>

On retrouve la saisonnalité hebdomadaire. Il est possible de constater une saisonnalité mensuelle. <br>
Les achats décroissent lentement au cours du mois. Le pic arrive le 7 tandis que le jour le moins consommateur est le 21 (le jour 31 doit être écarté). Ce phénomène est relié au jour de paie qui arrive en fin de mois.

<img src = 'transaction_month.png' style = 'height:500px'>

On constate que les achats sont majoritaires en Juillet et qu'il y a un décrochage en Septembre. Cette visualisation est étonnante puisque le mois de Septembre est connu pour être une période de forte dépense et que la période estivale est au contraire une période de creux.

La fenêtre de recueil des données étant courte, cette analyse reste limitée.

### Etude des relations entre feature à journée fixée

En regroupant les évènements par journée, il est possible d'étudier les relations entre le nombre d'événements par type ainsi que les taux de conversion.

<img src = 'event_day_pairplot.png' style = 'height:500px'>

On peut visualiser les corrélations entre les divers features par une heatmap.

<img src = 'event_day_heatmap.png' style = 'height:500px'>

On remarque que les corrélations entre features sont assez évidentes. Ce constat nous amène à devoir chercher d'autres features.

On peut obtenir les mêmes catégories de graphique en ciblant par utilisateur ou par objet.

## Conclusion sur ces visualisations
<br/>

Notre étude nous invite à créer des features temporelles (horodatage, temps peak-to-peak) pour nourrir un dataset plutôt limité en informations. <br>

La description des saisonnalités est une première approche de l'analyse par série temporelle. <br>

La répartition des évènements incite à mettre l'accent sur les taux de conversion. L'optimisation de ces taux est un enjeu majeur d'une plateforme e-commerce.


<br/>

# MODELISATION PAR MACHINE LEARNING

## Introduction au Machine Learning
<br />
<br />
Les problématiques abordées ont été les suivantes:

- peut-on prédire le nombre d'achats futurs ?

- peut-on estimer le taux de conversion d'un objet ?

- peut-on prédire l'achat d'un objet par un utilisateur ? 

- peut-on segmenter les utilisateurs ?

- peut-on établir un système de recommendation des produits ?

<br />
Ces problématiques font recours respectivement aux domaines de modélisation suivants:

- série temporelle

- régression

- classification

- clustering

- règle d'association

### Série temporelle


Trois séries temporelles donnant respectivement le nombre de vues, de mises au panier et de transaction par jour ont été étudiées. <br> Dans une perspective métier, la série temporelle des transactions est cependant la plus pertinente et sera la seule mentionnée ici. 
- La prédiction des ventes permet d’ajuster en temps réel les stocks pour répondre à la demande.
- Elle sert la stratégie commerciale et marketing.
- Enfin, la prédiction des ventes sert de référence pour une évaluation a posteriori: des ventes réelles inférieures aux prévisions peuvent constituer une alerte.

Le modèle de prédiction choisie est la méthode SARIMA. On choisit un modèle multiplicatif et une saisonnalité de 7 pour éliminer les variations hebdomadaires.

L'estimation des paramètres conduit à privilégier un modèle SARIMA(1,1,1)(1,1,0,7).

<img src = 'time_series_transaction.png' style = 'height:500px'>

Erreur relative: 0.010192047954345503 <br>
Ecart absolu moyen: 38.44196262404545 <br>
Ecart quadratique moyen: 51.811326582418296 <br> <br>
Le nombre de transactions avoisinant les 150 par jour, l'écart absolu moyen est correct. La présence de pics indésirables augmente l'écart quadratique moyen. <br>
Le modèle sur-évalue très légèrement les valeurs exactes.

### Régression

La variable cible est le taux de conversion, à savoir le nombre de transactions divisé par le nombre de vues. <br>
Pour prendre en compte les features temporels, on ne s'intéresse qu'à un produit et on construit des taux de conversion glissant.

Les features qui serviront au problème de classification sont les features temporels, les taux autres que la variable cible, ainsi que le nombre d'évènement par type sur une fenêtre glissante.

Quatre modèles de régression ont été utilisés: la régression linéaire, Lasso, Ridge et ElasticNet. <br>
On mesure les écarts par l'erreur quadratique moyenne (RMSE) et l'erreur absolue moyenne (AMSE)

<b>Régression Linéaire</b> <br>
Score: 0.9913713545181261 <br>
RMSE: 0.007721214895725545 <br>
AMSE: 0.004422777934411853 <br>

<b>Lasso</b> <br>
Le paramètre alpha choisi vaut: 0.001 <br>
Score: 0.9881410099468632 <br>
RMSE: 0.009051867315081702 <br>
AMSE: 0.005013370832464129 <br>

<b>Ridge</b> <br>
Le paramètre alpha choisi vaut: 1.0 <br>
Score: 0.9914157433905187  <br>
RMSE: 0.007701328926925473 <br>
AMSE: 0.004339397504150746 <br>

<b>ElasticNet</b> <br>
L'optimisation des paramètres de ce modèle le rapproche du modèle Ridge, comme le montre le graphique suivant où la RMSE reste faible à ratio L1 faible.
<img src = 'elasticnet.png' style = 'height:500px'>

L'interprétation de ces modèles montre que seules quelques features sont utilisées. La variable cible est dépendante des features conceptuellement les plus proches d'elle, le ratio 'engagement_rate' et 'nbr_transaction_rolling_week'.

Ce problème de régression a son analogue en prenant le point de vue de l'utilisateur. Son utilisation métier étant moins pertinente, il ne sera pas détaillé dans ce rapport.

### Classification

On ne s'intéresse ici qu'à l'utilisateur le plus actif. <br>
Pour chaque objet qu'il consulte, on indique s'il y aura transaction à la fin: c'est la variable cible.

En plus des features déjà mentionnés dans la section Régression, on introduit le feature <b>time peak_to_peak</b>.

Il y a un déséquilibre dans le jeu de données entre les objets achetés et non-acheté: le ratio est d'environ 1 pour 5 dans notre situation. Tous les modèles de classification ont été entrainés successivement sur l'échantillon original et sur un échantillon suréchantillonné pour vérifier leur robustesse.

Plusieurs modèles de classification ont été utilisés: la régression logistique, les forêts aléatoires, SVM, AdaBoost, Bagging, VotingClassifier, StackingClassifier et enfin XGBoost. <br>
On mesure la qualité du modèle par l'accuracy et le F1 score de la classe minoritaire (objet acheté).

Les modèles de régression logistique et SVM ont été écartés rapidement au profit de RandomForest. Une validation croisée sur le jeu de données suréchantilloné a donné le résultat suivant: <br>
LogisticRegression: outer accuracy 67.82 +/- 1.30 <br>
RF: outer accuracy 96.21 +/- 0.77 <br>
SVM: outer accuracy 78.55 +/- 0.70 <br>
Le modèle RandomForest dépasse de loin les autres modèles.


<b>Forêts aléatoires</b> <br>
Accuracy: 0.9406 <br>
F1 score: 0.82 <br>
Accuracy (suréchantillonné): 0.9406 <br>
F1 Score (suréchantillonné): 0.76 <br>

<b>AdaBoost</b> <br>
Accuracy: 0.9206 <br>
F1 score: 0.77 <br>
Accuracy (suréchantillonné): 0.9345 <br>
F1 Score (suréchantillonné): 0.79 <br>

<b>Bagging</b> <br>
Accuracy: 0.9238 <br>
F1 score: 0.75 <br>
Accuracy (suréchantillonné): 0.9462 <br>
F1 Score (suréchantillonné): 0.79 <br>

<b>Voting (avec RandomForest, SVM, RegressionLogistic)</b> <br>
Accuracy: 0.8538 <br>
F1 score: 0.16 <br>
Accuracy (suréchantillonné): 0.6712 <br>
F1 Score (suréchantillonné): 0.47 <br>

<b>Stacking (avec RandomForest, SVM, RegressionLogistic; classifieur final: Random Forest)</b> <br>
Accuracy: 0.9467 <br>
F1 score: 0.83 <br>
Accuracy (suréchantillonné): 0.9132 <br>
F1 Score (suréchantillonné): 0.65 <br>

<b>XGBoost</b> <br>
F1 score: 0.80 <br>
F1 Score (suréchantillonné): 0.82 <br>

Les modèles d'ensemble avec votes sont pénalisés par l'utilisation de votants peu performants. <br>
Les autres modèles sont performants. On pourra préférer une méthode d'ensemble comme AdaBoost plutôt que RandomForest pour limiter le sur-apprentissage. <br>

L'interprétation des modèles montre que la feature peaktopeak est primordial pour obtenir ces performances.
<img src = 'xgb_feature.png' width="520" height="300px">

Ce problème de classification a son analogue en prenant le point de vue de l'objet. Son utilisation métier étant moins pertinente, il ne sera pas détaillé dans ce rapport.

### Règles d'association

Après avoir sélectionné les paniers avec plus de deux éléments, on utilise l'algorithme APriori de la librairie mlxtend pour obtenir les ensembles d'items les plus fréquents. <br>
On peut en déduire des règles d'association:

|    | antecedents         | consequents         |   antecedent support |   consequent support |    support |   confidence |    lift |   leverage |   conviction |
|---:|:--------------------|:--------------------|---------------------:|---------------------:|-----------:|-------------:|--------:|-----------:|-------------:|
|  0 | frozenset({146642}) | frozenset({10572})  |           0.00112655 |           0.00638378 | 0.00112655 |     1        | 156.647 | 0.00111936 |    inf       |
|  1 | frozenset({10572})  | frozenset({146642}) |           0.00638378 |           0.00112655 | 0.00112655 |     0.176471 | 156.647 | 0.00111936 |      1.21292 |
|  2 | frozenset({10572})  | frozenset({333039}) |           0.00638378 |           0.00112655 | 0.00112655 |     0.176471 | 156.647 | 0.00111936 |      1.21292 |
|  3 | frozenset({333039}) | frozenset({10572})  |           0.00112655 |           0.00638378 | 0.00112655 |     1        | 156.647 | 0.00111936 |    inf       |
|  4 | frozenset({10572})  | frozenset({341869}) |           0.00638378 |           0.00112655 | 0.00112655 |     0.176471 | 156.647 | 0.00111936 |      1.21292 |

Les règles les plus pertinentes sont celles disposant d'un lift élevé. <br>

Ce tableau permet d'écrire un système de recommandation: à un objet donné (antecedents), on associera un ensemble d'objets (consequents) de telle sorte que le lift soit maximal.

### Clustering

La segmentation des clients est un besoin métier majeur. Elle permet d'adapter une stratégie commerciale en fonction du client. <br>

A l'aide des feature temporelles, du peak-to-peak et du nombre d'évènements par type, on souhaite regrouper les utilisateurs au sein de clusters.<br>

Les algorithmes de clustering utilisés sont KMeans et AgglomerativeClustering.

Pour déterminer le nombre de cluster optimal pour KMeans, diverses méthodes sont utilisées. <br>
 -la méthode du coude consiste à calculer la distorsion ou l'inertie et à chercher le point de coude. <br>
 -la méthode de la silhouette consiste à maximiser le coefficient de silhouette.<br>
 -la méthode de Calinski-Harabasz consiste à maximiser le coefficient de Calinski-Harabasz. <br>
 Toutes ces méthodes nous permettent d'estimer le nombre optimal de clusters àclusters 4.

<img src = 'distorsion_kmeans.png' height="500px">

<img src = 'inertie_kmeans.png' height="500px">

<img src = 'silhouette_kmeans.png' height="500px">

<img src = 'ch_kmeans.png' height="500px">

Pour l'AgglomerativeClustering, on peut visualiser le clustering par un dendrogramme. 
<img src = 'dendrograms.png' height="500px">

Le nombre de cluster optimal semble être 4 ou 5. <br>

Les méthodes de la silhouette et de Calinski-Harabaszdonne 5 clusters pour l'optimalité. <br>

En choisissant 5 clusters, il est possible de tester la correspondance entre KMeans et AgglomerativeClustering. <br>
Un tableau croisé montre que la correspondance est plutôt satisfaisante. <br>
Le modèle KMeans étant plus économe en temps et en mémoire, il est donc à privilégier.

## Conclusion sur le Machine Learning
<br/>
La plupart des problématiques abordées ont trouvé des réponses satisfaisantes, malgré un jeu de donnée limité en feature. <br>
La solution apportée sur le problème de régression est en revanche peu qualitative, puisque elle s'appuie sur des features difficiles à déployer en contexte réel. <br>
L'extraction de la feature "time peak-to-peak" a été une avancée pour améliorer les performances des modèles de classification.


## Piste à explorer

- Les catégories d'objets n'ont pas eu d'utilité dans la modélisation. Il semble possible d'en extraire des features pertinents. <br>
- L'analyse statistique des clusters permettrait de favoriser l'interprétabilité du modèle. <br>
- Il est possible de pousser davantage l'analyse de l'entonnoir de vente. <br>