![Lapage](Lapage_logo.png)
# Contexte
Lapage était originellement une librairie physique avec plusieurs points de vente. 
Mais devant le succès de certains de ses produits et l’engouement de ses clients, elle a décidé depuis 2 ans d’ouvrir un site de vente en ligne. 
Vous intervenez car l’entreprise souhaite faire le point après deux ans d’exercice, et pouvoir analyser ses points forts, ses points faibles, les comportements clients, etc.

# Missions
- Réaliser une analyse des différents indicateurs de vente :
    - Le CA (indicateurs et graphiques) et son évolution dans le temps via la mise en place d'une décomposition en moyenne mobile pour évaluer la tendance globale;
    - Zoom sur les références, pour voir un peu les tops et les flops, la répartition par catégorie, etc.;
    - Focus sur les profils des clients, et également la répartition du chiffre d'affaires entre eux, via par exemple une courbe de Lorenz.
- Fournir une analyse plus ciblée sur les clients : l’objectif serait cette fois-ci de comprendre le comportement de nos clients en ligne, pour pouvoir ensuite comparer avec la connaissance acquise via nos librairies physiques. 
- Etablir le lien entre le genre d’un client et les catégories des livres achetés.
- Faire divers corrélations entre l’âge des clients et le montant total des achats, la fréquence d’achat, la taille du panier moyen et les catégories des livres achetés.



# Préparation des données 

## Initialisation du projet

### Import des librairies

In [8]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

### Paramètres

In [9]:
%matplotlib inline 
# On indique que l'on veut voir apparaître les graphiques dans le notebook, sinon on ne verrait rien

pd.set_option('max_colwidth', 100)
pd.set_option('display.max_rows', 1000)
pd.set_option('display.max_columns', 1000)

### Import des fichiers

In [41]:
path='./Fichiers csv/'
customers_df = pd.read_csv(path+"customers.csv")
products_df=pd.read_csv(path+"products.csv")
transactions_df=pd.read_csv(path+"transactions.csv")

## Analyse de la qualité des données

Avant de commencer, je stocke le nomnbre de lignes et de colonnes de chacun des fichiers

In [42]:
print (f"""
Le fichier 'customers.csv' contient initialiement {customers_df.shape[0]} lignes et {customers_df.shape[1]} colonnes. 
Le fichier 'products.csv' contient initialiement {products_df.shape[0]} lignes et {products_df.shape[1]} colonnes. 
Le fichier 'transactions.csv' contient initialiement {transactions_df.shape[0]} lignes et {transactions_df.shape[1]} colonnes. 
""")


Le fichier 'customers.csv' contient initialiement 8623 lignes et 3 colonnes. 
Le fichier 'products.csv' contient initialiement 3287 lignes et 3 colonnes. 
Le fichier 'transactions.csv' contient initialiement 679532 lignes et 4 colonnes. 



### Erreurs de type

In [43]:
customers_df.dtypes

client_id    object
sex          object
birth         int64
dtype: object

In [44]:
products_df.dtypes

id_prod     object
price      float64
categ        int64
dtype: object

### Valeurs manquantes

In [45]:
transactions_df.dtypes

id_prod       object
date          object
session_id    object
client_id     object
dtype: object

**Observation**<br>
La seule chose qui semble être problématique est la variable date qui n'est pas considérée comme une date. <br>
On peut corriger cela via la fonction to_datetime de pandas. <br>

**Méthode**<br>
En lançant la commande de transformation du type object en date, on s'aperçoit que la conversion est bloquée par une erreur : "Unknown string format: test_2021-03-01 02:30:02.237419"<br>
Avant de relancer la conversion, j'identifie toutes les dates ayant le mot "test" et je les stocke dans un nouveau dataframe avant de les supprimer de mon fichier.
Je lance ensuite ma conversion au format date.

In [46]:
mask = np.column_stack([transactions_df["date"].str.contains("test", na=False) for col in transactions_df])
test_dates_transactions_df=transactions_df.loc[mask.any(axis=1)]
test_dates_transactions_df.head()

Unnamed: 0,id_prod,date,session_id,client_id
3019,T_0,test_2021-03-01 02:30:02.237419,s_0,ct_0
5138,T_0,test_2021-03-01 02:30:02.237425,s_0,ct_0
9668,T_0,test_2021-03-01 02:30:02.237437,s_0,ct_1
10728,T_0,test_2021-03-01 02:30:02.237436,s_0,ct_0
15292,T_0,test_2021-03-01 02:30:02.237430,s_0,ct_0


In [47]:
transactions_df.drop(test_dates_transactions_df.index, inplace=True)

In [48]:
transactions_df.shape

(679332, 4)

In [49]:
transactions_df.date=pd.to_datetime(transactions_df.date)
transactions_df.dtypes

id_prod               object
date          datetime64[ns]
session_id            object
client_id             object
dtype: object

### Doublons

### Valeurs aberrantes

### Conclusion

# Analyse des différents indicateurs de vente