# <center>Projet 6: Analysez les ventes d'une librairie avec Python<center>

<div>
<img src="logo-lapage.png" style = "width: 400px; height: 150px" title = "Lapage"/>
</div>

### <center>Réalisée par: Thi Tuong Le</center>
#### <center>Data Analyst</center>

**Context (Background:**

_Lapage_ était originellement une librairie physique avec plusieurs points de vente. Mais devant le succès de certains de ses produits et l’engouement de ses clients, elle a décidé depuis 2 ans d’ouvrir un site de vente en ligne. J'intervene car l’entreprise souhaite faire le point après deux ans d’exercice, et pouvoir analyser ses points forts, ses points faibles, les comportements clients. (Lapage was originally a physical bookstore with several points of sale. But due to the success of some of its products and the enthusiasm of its customers, it decided two years ago to open an online sales site. I intervene because the company wishes to take stock after two years of exercise, and to be able to analyze its strong points, its weak points, the customers behaviors).

**Compétences (Skills):**
* **_Réaliser une analyse bivariée pour interpréter des données (Perform a bivariate analysis to interpret data)_**
* **_Réaliser un test statistique (Perform a statistical test)_**
* **_Analyser des séries temporelles (Analyze time series)_**

## Sommaire (Part. 1)
1. [Libraries](#1.-Libraries)
2. [Datasets](#2.-Datasets)
3. [Nettoyage des dataframes](#3.-Nettoyage-des-dataframes)                                                            
    3.1. [Fichier "customers.csv"](#3.1.-Fichier-"customers.csv")                                                        
    3.2. [Fichier "products.csv"](#3.2.-Fichier-"products.csv")                                                        
    3.3. [Fichier "transcactions.csv"](#3.3.-Fichier-"transcactions.csv")
4. [Jointure des fichiers](#4.-Jointure-des-fichiers)
5. [Extraction les jour | mois | année](#5.-Extraction-les-jour-|-mois-|année)
6. [Grouper par les âges des clients](#6.-Grouper-par-les-âges-des-clients)
7. [Exportation du fichier final](#7.-Exportation-du-fichier-final)

## 1. Libraries

In [1]:
# Import tous les libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
import seaborn as sns

## 2. Datasets

In [2]:
# Current working directory
import os
os.getcwd()

"/Users/lethituong/Desktop/Data Analyst/P6-Analysez les ventes d'une librairie avec R ou Python/Ventes d'une librairie"

In [3]:
# Import les dataframes
cust = pd.read_csv("customers.csv")
prod = pd.read_csv("products.csv")
trans = pd.read_csv("transactions.csv")

## 3. Nettoyage des dataframes

### 3.1. Fichier "customers.csv"

In [4]:
# Vue générale de fichier
cust.head()

Unnamed: 0,client_id,sex,birth
0,c_4410,f,1967
1,c_7839,f,1975
2,c_1699,f,1984
3,c_5961,f,1962
4,c_5320,m,1943


Dans la colonne "birth" indique que l'année de naissance de customers.

In [5]:
# La taille de fichier
cust.shape

(8623, 3)

Il y a 3 colonne (client_id, sex, et birth) et 8623 ligne dans ce fichier. 

In [6]:
# Information générale
cust.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8623 entries, 0 to 8622
Data columns (total 3 columns):
client_id    8623 non-null object
sex          8623 non-null object
birth        8623 non-null int64
dtypes: int64(1), object(2)
memory usage: 202.2+ KB


Bref, ce fichier constitute 3 colonnes :  
* Client_id : référence de chaque client (object) 
* Sex : le genre du client (object)
* Birth : l'année de naissance du client (int)

In [7]:
# tester les valeurs manquantes, nulls, et NaN
print(cust.isnull().values.any())
print(cust.isna().values.any())

False
False


In [8]:
# tester les valeur doublons
print(cust.duplicated().values.any())

False


In [9]:
# verifier les valuers doublons
cust.duplicated().sum()

0

In [10]:
# verifier les valuers NaN
cust.isna().sum()

client_id    0
sex          0
birth        0
dtype: int64

In [11]:
# verifier les valeurs null
cust.isnull().sum()

client_id    0
sex          0
birth        0
dtype: int64

In [12]:
# les valeurs de "sex"
cust.sex.unique()

array(['f', 'm'], dtype=object)

Il y a que "f" et "m" dans la colonne "sex"

In [13]:
# description statistique 
cust.describe(include="all")

Unnamed: 0,client_id,sex,birth
count,8623,8623,8623.0
unique,8623,2,
top,c_7157,f,
freq,1,4491,
mean,,,1978.280877
std,,,16.919535
min,,,1929.0
25%,,,1966.0
50%,,,1979.0
75%,,,1992.0


**Bref, ce fichier n'a pas de doublons ni de valeurs nulls ou NaNs.**

In [14]:
# Vẻifier lé valeurs idclient si elles sont uniques Dé test sont presents sous le format ct ..... => lé supprimer

### 3.2. Fichier "products.csv"

In [15]:
# Vue générale de fichier
prod.head()

Unnamed: 0,id_prod,price,categ
0,0_1421,19.99,0
1,0_1368,5.13,0
2,0_731,17.99,0
3,1_587,4.99,1
4,0_1507,3.99,0


In [16]:
# la taille de fichier
prod.shape

(3287, 3)

Il y a 3 colonnes (id_prod, price, et categ) et 3287 lignes dans ce fichier.

In [17]:
# Information générale 
prod.info ()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3287 entries, 0 to 3286
Data columns (total 3 columns):
id_prod    3287 non-null object
price      3287 non-null float64
categ      3287 non-null int64
dtypes: float64(1), int64(1), object(1)
memory usage: 77.2+ KB


Ce fichier a 3 colonnes :  
* id_prod : référence de chaque article (object)
* price : le prix de l'article (float)
* categ : la catégorie du produit (int)

In [18]:
# les valuers unique de categ
prod["categ"].unique()

array([0, 1, 2])

"Categ" content 3 valeurs "0", "1", et "2".

In [19]:
# tester les valeurs manquantes, nulls
print(prod.isnull().values.any())

False


In [20]:
# tester les valeurs NaNs
print(prod.isna().values.any())

False


In [21]:
# tester les valeurs doublons
print(prod.duplicated().values.any())

False


In [22]:
# verifier les valeurs NaN
prod.isna().sum()

id_prod    0
price      0
categ      0
dtype: int64

In [23]:
# verifier les valeus nulls
prod.isnull().sum()

id_prod    0
price      0
categ      0
dtype: int64

In [24]:
# verifier les valeurs doublons
prod.duplicated().sum()

0

In [25]:
# description statistiques
prod.describe(include="all")

Unnamed: 0,id_prod,price,categ
count,3287,3287.0,3287.0
unique,3287,,
top,1_384,,
freq,1,,
mean,,21.856641,0.370246
std,,29.847908,0.615387
min,,-1.0,0.0
25%,,6.99,0.0
50%,,13.06,0.0
75%,,22.99,1.0


In [26]:
prod.drop(prod.loc[prod['price']<=0].index, inplace=True)

**Le fichier products n'a pas de valeurs nulles ni de doublons.**

<html><font color='blue'> On a le "min" de prix est de "-1", peut-être une erreur? 

### 3.3. Fichier "transcactions.csv"

In [27]:
# Vue générale de fichier
trans.head()

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1518,2022-05-20 13:21:29.043970,s_211425,c_103
1,1_251,2022-02-02 07:55:19.149409,s_158752,c_8534
2,0_1277,2022-06-18 15:44:33.155329,s_225667,c_6714
3,2_209,2021-06-24 04:19:29.835891,s_52962,c_6941
4,0_1509,2023-01-11 08:22:08.194479,s_325227,c_4232


In [28]:
# La taille 
trans.shape

(679532, 4)

Il y a 4 colonnes (id_prod, date, session_id, et client_id) et 679 532 lignes dans le fichier "transactions".

In [29]:
# Information générale de fichier
trans.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 679532 entries, 0 to 679531
Data columns (total 4 columns):
id_prod       679532 non-null object
date          679532 non-null object
session_id    679532 non-null object
client_id     679532 non-null object
dtypes: object(4)
memory usage: 20.7+ MB


Le fichier transactions compte 4 colonnes :  
* id_prod : la référence de chaque article (object)
* date : la date à laquelle l'achat a été effectué (object, yyyy-mm-dd hh-mm-ss)
* session_id : la référence de la session d'achat (object)
* client_id : la référence de chaque client (object)

In [30]:
# Tester les valeurs manquants ou nulls
print(trans.isnull().values.any())

False


In [31]:
# Tester les valeurs NaNs
print(trans.isna().values.any())

False


In [32]:
# Tester les valeurs doublons
print(trans.duplicated().values.any())

True


In [33]:
# Verifier les valeurs nulls
trans.isnull().sum()

id_prod       0
date          0
session_id    0
client_id     0
dtype: int64

In [34]:
# Verifier les valeurs NaNs
trans.isna().sum()

id_prod       0
date          0
session_id    0
client_id     0
dtype: int64

In [35]:
# Description statistiques
trans.describe(include = "all")

Unnamed: 0,id_prod,date,session_id,client_id
count,679532,679532,679532,679532
unique,3267,679371,342316,8602
top,1_369,test_2021-03-01 02:30:02.237413,s_0,c_1609
freq,2252,13,200,25488


<html><font color='blue'> On remarque dans la colonne "date" l'intitulé "test_". Peut-être cela cause le prix "-1" ?

In [36]:
# Sort la transaction pour voir les date de "test"
trans.sort_values("date", ascending = False)

Unnamed: 0,id_prod,date,session_id,client_id
246980,T_0,test_2021-03-01 02:30:02.237450,s_0,ct_0
573155,T_0,test_2021-03-01 02:30:02.237449,s_0,ct_0
670680,T_0,test_2021-03-01 02:30:02.237449,s_0,ct_1
19312,T_0,test_2021-03-01 02:30:02.237449,s_0,ct_0
392443,T_0,test_2021-03-01 02:30:02.237448,s_0,ct_0
...,...,...,...,...
439073,0_1358,2021-03-01 00:05:18.801198,s_5,c_2033
488300,0_1458,2021-03-01 00:04:54.559692,s_4,c_7912
462702,0_1352,2021-03-01 00:02:38.311413,s_3,c_580
428477,0_1390,2021-03-01 00:02:26.047414,s_2,c_664


C'est bien les peremières fois sont les "test". On les retire de cette dataframe et enregistre dans autre dataframe.

In [37]:
# Calcul le nombre de "test"
trans.date.str.startswith("test").sum()

200

In [38]:
# Garder les "test" dans une autre dataframe
trans_test = trans.loc[trans["id_prod"]== "T_0",:]

In [39]:
# On supprime tous les "test"
trans_finale = trans.drop(trans_test.index)

In [40]:
trans_finale.shape

(679332, 4)

In [41]:
# On affiche les infos de nouvelle dataframe
trans_finale.info ()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 679332 entries, 0 to 679531
Data columns (total 4 columns):
id_prod       679332 non-null object
date          679332 non-null object
session_id    679332 non-null object
client_id     679332 non-null object
dtypes: object(4)
memory usage: 25.9+ MB


In [42]:
# Le nombre de douplicated 
trans_finale.duplicated().sum()

0

**Finalement, le fichier "transactions" n'a pas de valeurs manquantes ni de doublons.**

## 4. Jointure des fichiers

In [43]:
# Left join entre "transactions" et "customers" par le clé "client_id"
trans_cust = pd.merge(trans_finale, cust, on = "client_id", how = "left")

In [44]:
# On affiche le data après join
trans_cust.head()

Unnamed: 0,id_prod,date,session_id,client_id,sex,birth
0,0_1518,2022-05-20 13:21:29.043970,s_211425,c_103,f,1986
1,1_251,2022-02-02 07:55:19.149409,s_158752,c_8534,m,1988
2,0_1277,2022-06-18 15:44:33.155329,s_225667,c_6714,f,1968
3,2_209,2021-06-24 04:19:29.835891,s_52962,c_6941,m,2000
4,0_1509,2023-01-11 08:22:08.194479,s_325227,c_4232,m,1980


In [45]:
trans_cust.shape

(679332, 6)

In [46]:
# Vérifier après join
trans_cust.isnull().sum()

id_prod       0
date          0
session_id    0
client_id     0
sex           0
birth         0
dtype: int64

In [47]:
trans_cust.isna().sum()

id_prod       0
date          0
session_id    0
client_id     0
sex           0
birth         0
dtype: int64

In [48]:
# Left join entre "trans_cust" et "products" par le clé "id_prod"
df = pd.merge(trans_cust, prod, on = "id_prod", how = "left")

In [49]:
df.head()

Unnamed: 0,id_prod,date,session_id,client_id,sex,birth,price,categ
0,0_1518,2022-05-20 13:21:29.043970,s_211425,c_103,f,1986,4.18,0.0
1,1_251,2022-02-02 07:55:19.149409,s_158752,c_8534,m,1988,15.99,1.0
2,0_1277,2022-06-18 15:44:33.155329,s_225667,c_6714,f,1968,7.99,0.0
3,2_209,2021-06-24 04:19:29.835891,s_52962,c_6941,m,2000,69.99,2.0
4,0_1509,2023-01-11 08:22:08.194479,s_325227,c_4232,m,1980,4.99,0.0


In [50]:
df.shape

(679332, 8)

In [51]:
# vérification après jointures
print(df.isnull().values.any())

True


In [52]:
df.isnull().sum()

id_prod         0
date            0
session_id      0
client_id       0
sex             0
birth           0
price         221
categ         221
dtype: int64

<html><font color="brown"> On remarque que la dataframe finale contient 221 valeurs manquantes dans les colonnes price et catégorie!

In [53]:
# On crée une nouvelle dataframe qui conserve les NaN valeurs de "price" et "categ"
df_nan = df[df["price"].isnull()]

In [54]:
df_nan.head()

Unnamed: 0,id_prod,date,session_id,client_id,sex,birth,price,categ
2633,0_2245,2022-09-23 07:22:38.636773,s_272266,c_4746,m,1940,,
10103,0_2245,2022-07-23 09:24:14.133889,s_242482,c_6713,f,1963,,
11723,0_2245,2022-12-03 03:26:35.696673,s_306338,c_5108,m,1978,,
15670,0_2245,2021-08-16 11:33:25.481411,s_76493,c_1391,m,1991,,
16372,0_2245,2022-07-16 05:53:01.627491,s_239078,c_7954,m,1973,,


In [55]:
df_nan.shape

(221, 8)

In [56]:
# On vérifie tous les ligne ont le même "id_prod"
df_nan.id_prod.unique()

array(['0_2245'], dtype=object)

In [57]:
# On vérifie dans la dataframe "products"
prod.loc[prod["id_prod"]=="0_2245",:]

Unnamed: 0,id_prod,price,categ


le "id_prod"= "0_2245" n'apparait pas dans le fichier "products". 

In [58]:
# On groupe par les "categ"
prod.groupby("categ").head()

Unnamed: 0,id_prod,price,categ
0,0_1421,19.99,0
1,0_1368,5.13,0
2,0_731,17.99,0
3,1_587,4.99,1
4,0_1507,3.99,0
5,0_1163,9.99,0
6,1_463,36.99,1
10,2_228,225.17,2
11,1_178,51.92,1
12,1_143,9.99,1


On trouve que l'"id_prod" commence par le numéro de la catégorie à laquelle il appartient. Donc, l'article "0_2245" appartient à la catégorie "0". 

In [59]:
# On remplace les valeurs de "categ" dans "df" dataframe par "0"
df["categ"].fillna(0, inplace = True)

In [60]:
# les prix total de la catégorie "0"
df.loc[df["categ"]==0]["price"].sum()

4419730.97

In [61]:
# La moyenne des prix de la "categ" = "0"
np.round(df.loc[df["categ"]==0]["price"].mean(),2)

10.64

In [62]:
# On remplace mes valeurs NaN de la colonne "price" par le prix moyen des produits de la catégorie = "0"
df["price"].fillna(10.64, inplace = True)

In [63]:
# On vérifie après remplacement
df.loc[df["id_prod"] == "0_2245", :]

Unnamed: 0,id_prod,date,session_id,client_id,sex,birth,price,categ
2633,0_2245,2022-09-23 07:22:38.636773,s_272266,c_4746,m,1940,10.64,0.0
10103,0_2245,2022-07-23 09:24:14.133889,s_242482,c_6713,f,1963,10.64,0.0
11723,0_2245,2022-12-03 03:26:35.696673,s_306338,c_5108,m,1978,10.64,0.0
15670,0_2245,2021-08-16 11:33:25.481411,s_76493,c_1391,m,1991,10.64,0.0
16372,0_2245,2022-07-16 05:53:01.627491,s_239078,c_7954,m,1973,10.64,0.0
...,...,...,...,...,...,...,...,...
669533,0_2245,2021-08-25 09:06:03.504061,s_80395,c_131,m,1981,10.64,0.0
670484,0_2245,2022-03-06 19:59:19.462288,s_175311,c_4167,f,1979,10.64,0.0
671088,0_2245,2022-05-16 11:35:20.319501,s_209381,c_4453,m,1981,10.64,0.0
675480,0_2245,2022-02-11 09:05:43.952857,s_163405,c_1098,m,1986,10.64,0.0


In [64]:
# On vérifie
df.isna().sum()

id_prod       0
date          0
session_id    0
client_id     0
sex           0
birth         0
price         0
categ         0
dtype: int64

**Le fichier final "df" ne contient plus de valeurs manquantes.**

In [65]:
# On affiche les info
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 679332 entries, 0 to 679331
Data columns (total 8 columns):
id_prod       679332 non-null object
date          679332 non-null object
session_id    679332 non-null object
client_id     679332 non-null object
sex           679332 non-null object
birth         679332 non-null int64
price         679332 non-null float64
categ         679332 non-null float64
dtypes: float64(2), int64(1), object(5)
memory usage: 46.6+ MB


In [66]:
# Changer le type de la colonne "categ" par int
df.categ = df.categ.astype(int)

In [67]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 679332 entries, 0 to 679331
Data columns (total 8 columns):
id_prod       679332 non-null object
date          679332 non-null object
session_id    679332 non-null object
client_id     679332 non-null object
sex           679332 non-null object
birth         679332 non-null int64
price         679332 non-null float64
categ         679332 non-null int64
dtypes: float64(1), int64(2), object(5)
memory usage: 46.6+ MB


Bref, ce fichier constitute 8 colonnes :

- client_id : référence de chaque client (object)
- sex : le genre du client (object)
- birth : l'année de naissance du client (int)
- price : le prix de l'article (float)
- categ : la catégorie du produit (int)
- date : la date à laquelle l'achat a été effectué (object, yyyy-mm-dd hh-mm-ss)
- session_id : la référence de la session d'achat (object)
- client_id : la référence de chaque client (object)

## 5. Extraction les jour | mois | année 

In [68]:
# Modification de la type de la colonne "date"
df["date"]=pd.to_datetime(df["date"], format="")
#df["hour"] = pd.to_datetime(df["hour"],format="")

In [69]:
# Créer les nouvelles colonnes
df["year"]= df["date"].dt.year
df["month"]= df["date"].dt.month
df["day"]= df["date"].dt.day

In [70]:
df.head()

Unnamed: 0,id_prod,date,session_id,client_id,sex,birth,price,categ,year,month,day
0,0_1518,2022-05-20 13:21:29.043970,s_211425,c_103,f,1986,4.18,0,2022,5,20
1,1_251,2022-02-02 07:55:19.149409,s_158752,c_8534,m,1988,15.99,1,2022,2,2
2,0_1277,2022-06-18 15:44:33.155329,s_225667,c_6714,f,1968,7.99,0,2022,6,18
3,2_209,2021-06-24 04:19:29.835891,s_52962,c_6941,m,2000,69.99,2,2021,6,24
4,0_1509,2023-01-11 08:22:08.194479,s_325227,c_4232,m,1980,4.99,0,2023,1,11


In [71]:
# Verifier les data unique
print(df["year"].unique())
print(df["month"].unique())
print(df["day"].unique())

[2022 2021 2023]
[ 5  2  6  1 10 12 11  4  9  8  7  3]
[20  2 18 24 11  3 26 27 29  7  6 12 28  4  8 13 15 14 16  1 21 19 23 10
 30 25 17  9  5 22 31]


In [72]:
# On affiche les informations sur les commandes
print("Les données sont collectées à partir du",df.date.min(),"jusqu'au", df.date.max())

Les données sont collectées à partir du 2021-03-01 00:01:07.843138 jusqu'au 2023-02-28 23:58:30.792755


In [73]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 679332 entries, 0 to 679331
Data columns (total 11 columns):
id_prod       679332 non-null object
date          679332 non-null datetime64[ns]
session_id    679332 non-null object
client_id     679332 non-null object
sex           679332 non-null object
birth         679332 non-null int64
price         679332 non-null float64
categ         679332 non-null int64
year          679332 non-null int64
month         679332 non-null int64
day           679332 non-null int64
dtypes: datetime64[ns](1), float64(1), int64(5), object(4)
memory usage: 62.2+ MB


## 6. Grouper par les âges des clients

In [74]:
# Je crée une colonne "age"
df["age"] = 2023 - df["birth"]

In [75]:
df.head()

Unnamed: 0,id_prod,date,session_id,client_id,sex,birth,price,categ,year,month,day,age
0,0_1518,2022-05-20 13:21:29.043970,s_211425,c_103,f,1986,4.18,0,2022,5,20,37
1,1_251,2022-02-02 07:55:19.149409,s_158752,c_8534,m,1988,15.99,1,2022,2,2,35
2,0_1277,2022-06-18 15:44:33.155329,s_225667,c_6714,f,1968,7.99,0,2022,6,18,55
3,2_209,2021-06-24 04:19:29.835891,s_52962,c_6941,m,2000,69.99,2,2021,6,24,23
4,0_1509,2023-01-11 08:22:08.194479,s_325227,c_4232,m,1980,4.99,0,2023,1,11,43


In [76]:
# Calculer du nombre d'observations (N) 
len(df.groupby(["age", "client_id"]).count())

8600

Donc, on doit discréditer de colonne "age" en 19 intervalles.

In [77]:
# On affiche les infos de "age"
df["age"].describe()

count    679332.000000
mean         45.188861
std          13.574553
min          19.000000
25%          36.000000
50%          43.000000
75%          53.000000
max          94.000000
Name: age, dtype: float64

In [78]:
sup = 94
inf = 19
K = 7
# La tranche par intervalle:
l = np.round((sup - inf)/K,0)

In [79]:
# Obtenir les intervalles :
x = inf

for y in range (1,K):
    x = x + l
    print(x)

30.0
41.0
52.0
63.0
74.0
85.0


In [80]:
# Créer une nouvelle colonne qui conserve les tranches d'âge:
labels = ["19-29","30-40","41-51","52-61","62-73","74-84","85-94"]
df["age_ranges"]= pd.cut(df["age"], 7, labels = labels)

In [81]:
df.head()

Unnamed: 0,id_prod,date,session_id,client_id,sex,birth,price,categ,year,month,day,age,age_ranges
0,0_1518,2022-05-20 13:21:29.043970,s_211425,c_103,f,1986,4.18,0,2022,5,20,37,30-40
1,1_251,2022-02-02 07:55:19.149409,s_158752,c_8534,m,1988,15.99,1,2022,2,2,35,30-40
2,0_1277,2022-06-18 15:44:33.155329,s_225667,c_6714,f,1968,7.99,0,2022,6,18,55,52-61
3,2_209,2021-06-24 04:19:29.835891,s_52962,c_6941,m,2000,69.99,2,2021,6,24,23,19-29
4,0_1509,2023-01-11 08:22:08.194479,s_325227,c_4232,m,1980,4.99,0,2023,1,11,43,41-51


## 7. Exportation du fichier final

In [82]:
# Enregistrer sous la forme de "csv"
df.to_csv("df.csv", index = False) 

<div class="alert alert-block alert-warning">
<html><font color = "green", size = "4"><strong>On utilise le fichier "df.csv" pour faire les missions de ce projet.