# Projet 6 - Analyser les ventes d'une librairie avec Python (partie 1 : Préparation des données)

##  1. Import des librairies

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import scipy.stats as st

# 2. Import des df et nettoyage

###  2.1 Customers:

In [2]:
clients = pd.read_csv('customers.csv')
clients.head()

Unnamed: 0,client_id,sex,birth
0,c_4410,f,1967
1,c_7839,f,1975
2,c_1699,f,1984
3,c_5961,f,1962
4,c_5320,m,1943


In [3]:
clients.shape

(8623, 3)

In [4]:
clients['birth'].min()

1929

In [5]:
clients['birth'].max()

2004

In [6]:
clients['sex'].value_counts()

f    4491
m    4132
Name: sex, dtype: int64

In [7]:
clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8623 entries, 0 to 8622
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   client_id  8623 non-null   object
 1   sex        8623 non-null   object
 2   birth      8623 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 202.2+ KB


In [8]:
clients.isnull().sum()

client_id    0
sex          0
birth        0
dtype: int64

In [9]:
clients['client_id'].duplicated().sum()

0

### 2.2 Products:

In [10]:
produits = pd.read_csv('products.csv')
produits.shape

(3287, 3)

In [11]:
produits.head()

Unnamed: 0,id_prod,price,categ
0,0_1421,19.99,0
1,0_1368,5.13,0
2,0_731,17.99,0
3,1_587,4.99,1
4,0_1507,3.99,0


In [12]:
p = produits['id_prod'].value_counts()
p

0_1421    1
0_2298    1
0_870     1
0_1785    1
0_1876    1
         ..
0_2155    1
0_1118    1
2_12      1
2_20      1
0_1920    1
Name: id_prod, Length: 3287, dtype: int64

In [13]:
p.unique()

array([1], dtype=int64)

In [14]:
produits['price'].describe()

count    3287.000000
mean       21.856641
std        29.847908
min        -1.000000
25%         6.990000
50%        13.060000
75%        22.990000
max       300.000000
Name: price, dtype: float64

In [15]:
p_categ = produits['categ'].value_counts().reset_index()
p_categ 

Unnamed: 0,index,categ
0,0,2309
1,1,739
2,2,239


In [16]:
produits.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3287 entries, 0 to 3286
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id_prod  3287 non-null   object 
 1   price    3287 non-null   float64
 2   categ    3287 non-null   int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 77.2+ KB


In [17]:
produits['id_prod'].duplicated().sum()

0

In [18]:
produits.isnull().sum()

id_prod    0
price      0
categ      0
dtype: int64

### 2.3 Transactions:

In [19]:
transactions = pd.read_csv('transactions.csv')
transactions.shape

(679532, 4)

In [20]:
transactions.head()

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1518,2022-05-20 13:21:29.043970,s_211425,c_103
1,1_251,2022-02-02 07:55:19.149409,s_158752,c_8534
2,0_1277,2022-06-18 15:44:33.155329,s_225667,c_6714
3,2_209,2021-06-24 04:19:29.835891,s_52962,c_6941
4,0_1509,2023-01-11 08:22:08.194479,s_325227,c_4232


In [21]:
transactions.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 679532 entries, 0 to 679531
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   id_prod     679532 non-null  object
 1   date        679532 non-null  object
 2   session_id  679532 non-null  object
 3   client_id   679532 non-null  object
dtypes: object(4)
memory usage: 20.7+ MB


In [22]:
transactions['client_id'].value_counts()

# on peut déjà noter que le nombre de clients dans les transactions est < au nombre de clients dans le fichiers clients
# 8602 vs 8623 = 21 de différence

c_1609    25488
c_6714     9187
c_3454     6773
c_4958     5195
c_3263      403
          ...  
c_4478        1
c_5962        1
c_4223        1
c_6292        1
c_1624        1
Name: client_id, Length: 8602, dtype: int64

In [23]:
transactions['id_prod'].value_counts()

# on peut déjà noter que le nombre d'id produits dans les transactions est < au nombre de clients dans le fichiers clients
# 3267 vs 3287 = 20 de différence

1_369     2252
1_417     2189
1_414     2180
1_498     2128
1_425     2096
          ... 
0_1539       1
0_1728       1
2_81         1
2_98         1
0_833        1
Name: id_prod, Length: 3267, dtype: int64

In [24]:
#recherche de doublons dans le fichier transactions

b = transactions.duplicated(keep = False)
b.value_counts().unique()

array([679349,    183], dtype=int64)

In [25]:
#Analyse de ces doublons:

t = transactions.loc[transactions.duplicated(keep = False)]
t

Unnamed: 0,id_prod,date,session_id,client_id
3019,T_0,test_2021-03-01 02:30:02.237419,s_0,ct_0
9668,T_0,test_2021-03-01 02:30:02.237437,s_0,ct_1
10728,T_0,test_2021-03-01 02:30:02.237436,s_0,ct_0
15292,T_0,test_2021-03-01 02:30:02.237430,s_0,ct_0
19312,T_0,test_2021-03-01 02:30:02.237449,s_0,ct_0
...,...,...,...,...
653098,T_0,test_2021-03-01 02:30:02.237432,s_0,ct_0
657830,T_0,test_2021-03-01 02:30:02.237417,s_0,ct_0
662081,T_0,test_2021-03-01 02:30:02.237427,s_0,ct_1
671647,T_0,test_2021-03-01 02:30:02.237424,s_0,ct_1


In [26]:
t.value_counts()

# on remarque que sur ces 183 lignes, il n'y a qu'une seule id_prod = T_0

id_prod  date                             session_id  client_id
T_0      test_2021-03-01 02:30:02.237413  s_0         ct_0         9
         test_2021-03-01 02:30:02.237428  s_0         ct_0         6
         test_2021-03-01 02:30:02.237446  s_0         ct_0         6
         test_2021-03-01 02:30:02.237412  s_0         ct_1         5
         test_2021-03-01 02:30:02.237414  s_0         ct_1         5
         test_2021-03-01 02:30:02.237443  s_0         ct_1         5
         test_2021-03-01 02:30:02.237427  s_0         ct_0         4
         test_2021-03-01 02:30:02.237441  s_0         ct_0         4
         test_2021-03-01 02:30:02.237442  s_0         ct_0         4
         test_2021-03-01 02:30:02.237430  s_0         ct_1         4
         test_2021-03-01 02:30:02.237444  s_0         ct_0         4
                                                      ct_1         4
         test_2021-03-01 02:30:02.237432  s_0         ct_0         4
         test_2021-03-01 02:30:02.23741

In [27]:
transactions.loc[transactions['id_prod'] == 'T_0', :]

# vérification dans tout de df transactions du nombre de lignes concernées par ce produit T0
# il y a en tout 200 lignes concernées 

Unnamed: 0,id_prod,date,session_id,client_id
3019,T_0,test_2021-03-01 02:30:02.237419,s_0,ct_0
5138,T_0,test_2021-03-01 02:30:02.237425,s_0,ct_0
9668,T_0,test_2021-03-01 02:30:02.237437,s_0,ct_1
10728,T_0,test_2021-03-01 02:30:02.237436,s_0,ct_0
15292,T_0,test_2021-03-01 02:30:02.237430,s_0,ct_0
...,...,...,...,...
657830,T_0,test_2021-03-01 02:30:02.237417,s_0,ct_0
662081,T_0,test_2021-03-01 02:30:02.237427,s_0,ct_1
670680,T_0,test_2021-03-01 02:30:02.237449,s_0,ct_1
671647,T_0,test_2021-03-01 02:30:02.237424,s_0,ct_1


In [28]:
#Analyse des clients des lignes en doublons

t['client_id'].value_counts()

#il y a deux clients qui ressortent, on peut imagine que 'ct' = 'client test'

ct_0    96
ct_1    87
Name: client_id, dtype: int64

In [29]:
# vérification du nombre total de client test ct_0 dans le df transactions

transactions.loc[transactions['client_id'] == 'ct_0', :]

Unnamed: 0,id_prod,date,session_id,client_id
3019,T_0,test_2021-03-01 02:30:02.237419,s_0,ct_0
5138,T_0,test_2021-03-01 02:30:02.237425,s_0,ct_0
10728,T_0,test_2021-03-01 02:30:02.237436,s_0,ct_0
15292,T_0,test_2021-03-01 02:30:02.237430,s_0,ct_0
19312,T_0,test_2021-03-01 02:30:02.237449,s_0,ct_0
...,...,...,...,...
633911,T_0,test_2021-03-01 02:30:02.237446,s_0,ct_0
634523,T_0,test_2021-03-01 02:30:02.237427,s_0,ct_0
635105,T_0,test_2021-03-01 02:30:02.237443,s_0,ct_0
653098,T_0,test_2021-03-01 02:30:02.237432,s_0,ct_0


In [30]:
# vérification du nombre total de client test ct_1 dans le df transactions

transactions.loc[transactions['client_id'] == 'ct_1', :]

Unnamed: 0,id_prod,date,session_id,client_id
9668,T_0,test_2021-03-01 02:30:02.237437,s_0,ct_1
23678,T_0,test_2021-03-01 02:30:02.237430,s_0,ct_1
27778,T_0,test_2021-03-01 02:30:02.237437,s_0,ct_1
35433,T_0,test_2021-03-01 02:30:02.237418,s_0,ct_1
38646,T_0,test_2021-03-01 02:30:02.237445,s_0,ct_1
...,...,...,...,...
648864,T_0,test_2021-03-01 02:30:02.237420,s_0,ct_1
662081,T_0,test_2021-03-01 02:30:02.237427,s_0,ct_1
670680,T_0,test_2021-03-01 02:30:02.237449,s_0,ct_1
671647,T_0,test_2021-03-01 02:30:02.237424,s_0,ct_1


In [31]:
# Il y a 106 + 94 = 200, clients qu'on considère comme clients tests
# ce qui correspond bien aux 200 lignes en T0 du df transactions

In [32]:
# Vérification également des 'S_0'

transactions.loc[transactions['session_id'] == 's_0', :]

# il y en a bien que 200.

Unnamed: 0,id_prod,date,session_id,client_id
3019,T_0,test_2021-03-01 02:30:02.237419,s_0,ct_0
5138,T_0,test_2021-03-01 02:30:02.237425,s_0,ct_0
9668,T_0,test_2021-03-01 02:30:02.237437,s_0,ct_1
10728,T_0,test_2021-03-01 02:30:02.237436,s_0,ct_0
15292,T_0,test_2021-03-01 02:30:02.237430,s_0,ct_0
...,...,...,...,...
657830,T_0,test_2021-03-01 02:30:02.237417,s_0,ct_0
662081,T_0,test_2021-03-01 02:30:02.237427,s_0,ct_1
670680,T_0,test_2021-03-01 02:30:02.237449,s_0,ct_1
671647,T_0,test_2021-03-01 02:30:02.237424,s_0,ct_1


In [33]:
#Vérification de la présence du produit 'T_O' dans le DF 'produits'

produits.loc[produits['id_prod'] == 'T_0', :]

#On voit que c'est associé à un chiffre négatif

Unnamed: 0,id_prod,price,categ
731,T_0,-1.0,0


In [34]:
#interrogation de tous les chiffres négatifs dans le DF 'produits': il n'y en a qu'un.

produits.loc[produits['price'] <= 0, :]

# On peut donc imaginer que ce chiffre a été entré en négatif justement car il s'agit de lignes test

Unnamed: 0,id_prod,price,categ
731,T_0,-1.0,0


In [35]:
#Vérification de la présence du client 'ct_O' dans le DF 'clients'

clients.loc[clients['client_id'] == 'ct_0', :]

Unnamed: 0,client_id,sex,birth
2735,ct_0,f,2001


In [36]:
#Vérification de la présence du client 'ct_1' dans le DF 'clients'

clients.loc[clients['client_id'] == 'ct_1', :]

Unnamed: 0,client_id,sex,birth
8494,ct_1,m,2001


In [37]:
# On peut donc conclure qu'il s'agit de lignes Test à supprimer du DF transactions

transactions.drop(transactions[(transactions['id_prod'] == 'T_0')].index, inplace=True)
transactions.shape

(679332, 4)

In [38]:
# On supprime aussi le produit 'T_O' dans le DF 'produits'

produits.drop(produits[(produits['id_prod'] == 'T_0')].index, inplace=True)

In [39]:
# Et on supprime les clients 'ct_O' et 'ct_1' dans le DF 'clients'

clients.drop(clients[(clients['client_id'] == 'ct_0')].index, inplace=True)
clients.drop(clients[(clients['client_id'] == 'ct_1')].index, inplace=True)

In [40]:
transactions.isnull().sum()

id_prod       0
date          0
session_id    0
client_id     0
dtype: int64

In [41]:
#La colonne 'date' du df transactions était en format 'object', je la transforme donc en format 'date'

transactions['date'] = pd.to_datetime(transactions['date'], format='%Y-%m-%d', errors = 'coerce')
transactions

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1518,2022-05-20 13:21:29.043970,s_211425,c_103
1,1_251,2022-02-02 07:55:19.149409,s_158752,c_8534
2,0_1277,2022-06-18 15:44:33.155329,s_225667,c_6714
3,2_209,2021-06-24 04:19:29.835891,s_52962,c_6941
4,0_1509,2023-01-11 08:22:08.194479,s_325227,c_4232
...,...,...,...,...
679527,0_1551,2022-01-15 13:05:06.246925,s_150195,c_8489
679528,1_639,2022-03-19 16:03:23.429229,s_181434,c_4370
679529,0_1425,2022-12-20 04:33:37.584749,s_314704,c_304
679530,0_1994,2021-07-16 20:36:35.350579,s_63204,c_2227


In [42]:
transactions.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 679332 entries, 0 to 679531
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   id_prod     679332 non-null  object        
 1   date        679332 non-null  datetime64[ns]
 2   session_id  679332 non-null  object        
 3   client_id   679332 non-null  object        
dtypes: datetime64[ns](1), object(3)
memory usage: 25.9+ MB


# 3. Les jointures

## 3.1 Jointures entre clients & transactions:

In [43]:
# 1ère jointure : entre le df clients et le df transactions:

jointure_1 = pd.merge(clients, transactions, on= 'client_id', how= 'outer', indicator = True)
jointure_1.shape

# 'outer' pour voir les mismatch

(679353, 7)

In [44]:
jointure_1['_merge'].unique()

['both', 'left_only']
Categories (3, object): ['left_only', 'right_only', 'both']

In [45]:
left_only = jointure_1.loc[jointure_1['_merge'] == 'left_only', :]
left_only

Unnamed: 0,client_id,sex,birth,id_prod,date,session_id,_merge
59493,c_8253,f,2001,,NaT,,left_only
200286,c_3789,f,1997,,NaT,,left_only
218173,c_4406,f,1998,,NaT,,left_only
220388,c_2706,f,1967,,NaT,,left_only
225538,c_3443,m,1959,,NaT,,left_only
248409,c_4447,m,1956,,NaT,,left_only
248965,c_3017,f,1992,,NaT,,left_only
261024,c_4086,f,1992,,NaT,,left_only
313133,c_6930,m,2004,,NaT,,left_only
319727,c_4358,m,1999,,NaT,,left_only


In [46]:
left_only.shape

# On a 21 lignes pour lesquelles on a des clients (du DF clients) mais qui n'ont fait aucunes transactions
# Ces 21 lignes correspondent bien au chiffre qu'on avait trouvé lors de l'analyse du df transactions
# Puisque le projet consiste à mettre en correlation les profils des clients avec leurs habitudes de consommation,
    #il ne semble pas pertinent de garder ces 21 lignes puisqu'il n'y a pas d'achats correspondant.
# Il s'agit probablement de clients ayant remplis leur coordonnées sur le site mais n'ayant pas été jusqu'à la validation de 
    #l'achat
# Aussi on ne peut garder "id_prod" Null puisqu'elle constitue une PK avec le DF produits pour la prochaine jointure.

(21, 7)

In [47]:
# On créé donc un df ou on ne garde que les 'both' et on supprime la colonne 'merge' qui ne sert plus à rien

df_1 = jointure_1.loc[jointure_1['_merge'] == 'both', :]
df_1 = df_1.drop('_merge', axis = 1)
df_1.shape

(679332, 6)

In [48]:
df_1.head()

Unnamed: 0,client_id,sex,birth,id_prod,date,session_id
0,c_4410,f,1967,0_1316,2021-12-29 09:11:18.860592,s_141762
1,c_4410,f,1967,1_385,2021-03-22 01:40:22.782925,s_9707
2,c_4410,f,1967,1_190,2021-11-12 18:11:43.280574,s_118628
3,c_4410,f,1967,0_1455,2021-03-22 14:29:25.189266,s_9942
4,c_4410,f,1967,1_483,2022-03-13 21:35:55.949042,s_178686


## 3.2 Jointures entre df_1 & produits:

In [49]:
# deuxième jointure: entre le nouveau df 'df_1' (fusion de clients et transactions) et le df produits:

jointure_2 = pd.merge(df_1, produits, on = 'id_prod', how= 'outer', indicator = True)
jointure_2['_merge'].unique()

# 'outer' pour identifier les mismatch.

['both', 'left_only', 'right_only']
Categories (3, object): ['left_only', 'right_only', 'both']

In [50]:
jointure_2.shape

(679353, 9)

In [51]:
# Analyse des 'left_only' (=pas de correspondance de produits):

left = jointure_2.loc[jointure_2['_merge'] == 'left_only', :]
left.head()
# on a 221 lignes qui ressortent pour lesquels il y a des clients et un achat de la part de ces clients
    # mais on n'a pas le produit correspondant dans le DF produit
# La seule chose qu'on semble connaitre c'est l'id_prod = 0_2245

Unnamed: 0,client_id,sex,birth,id_prod,date,session_id,price,categ,_merge
542051,c_4505,m,1976.0,0_2245,2022-01-09 09:23:31.000720,s_147220,,,left_only
542052,c_4505,m,1976.0,0_2245,2022-11-09 09:23:31.000720,s_295013,,,left_only
542053,c_3468,f,1981.0,0_2245,2021-09-11 10:52:05.205583,s_88251,,,left_only
542054,c_3468,f,1981.0,0_2245,2022-05-11 10:52:05.205583,s_206902,,,left_only
542055,c_1403,f,1978.0,0_2245,2022-09-15 14:26:50.187952,s_268455,,,left_only


In [52]:
# Vérification qu'il n'y a qu'une seule id_prod dans ces lignes 'left_only':

left['id_prod'].unique()

array(['0_2245'], dtype=object)

In [53]:
# Vérification que ce produit n'existe en effet pas dans le df produits:

produits.loc[produits['id_prod'] == '0_2245', :]

# il semble que le produit '0_2245', malgré qu'il ai fait l'objet de transactions, ne soit pas répertorié dans le df 'produits'
# toutefois on a l'id_prod, on peut donc en déduire de quelle catégorie il fait partie = 0
# on peut donc décider de garder ce produit en lui attribuant un prix en correlation avec la catégorie 0

Unnamed: 0,id_prod,price,categ


In [54]:
# Analyse de l'échantillon du produit 0_2245 plus en détail pour trouver comment on peut remplacer les valeurs manquantes:

# Analyse de la répartition du sexe

left.sex.value_counts()

# Répartition quasi égalitaire

f    117
m    104
Name: sex, dtype: int64

In [55]:
# Je souhaite analyser les âges donc je créée une une colonne âge dans df jointure_2:

jointure_2['age'] = (pd.to_datetime(jointure_2.date).dt.year - jointure_2['birth'])
jointure_2.head()

Unnamed: 0,client_id,sex,birth,id_prod,date,session_id,price,categ,_merge,age
0,c_4410,f,1967.0,0_1316,2021-12-29 09:11:18.860592,s_141762,7.2,0.0,both,54.0
1,c_4410,f,1967.0,0_1316,2022-03-29 09:11:18.860592,s_186233,7.2,0.0,both,55.0
2,c_4410,f,1967.0,0_1316,2022-05-29 09:11:18.860592,s_215758,7.2,0.0,both,55.0
3,c_3654,f,1978.0,0_1316,2021-11-26 03:51:34.068872,s_125143,7.2,0.0,both,43.0
4,c_3654,f,1978.0,0_1316,2022-08-26 03:51:34.068872,s_258546,7.2,0.0,both,44.0


In [56]:
# Analyse globale des prix du df global
jointure_2.price.describe()

count    679132.000000
mean         17.455405
std          18.331641
min           0.620000
25%           8.870000
50%          13.990000
75%          18.990000
max         300.000000
Name: price, dtype: float64

In [57]:
# Analyse globale des prix uniquement sur la catégorie 0

categ_0 = jointure_2.loc[jointure_2['categ'] == 0, :]
categ_0['price'].describe()

# On note que la moyenne ou encore l'écart-type sont bien différents, on peut donc à première vue se dire qu'on va utiliser les
    #données de la catégorie 0 plutôt que les données globales.

count    415475.000000
mean         10.638330
std           4.933982
min           0.620000
25%           6.290000
50%           9.990000
75%          14.450000
max          40.990000
Name: price, dtype: float64

In [58]:
# Analyse des prix moyens en fonction de l'âge sur le df global

jointure_2.groupby(['age'])['price'].mean()

age
17.0    40.651361
18.0    39.912041
19.0    41.031823
20.0    39.978619
21.0    39.974855
          ...    
90.0    16.930165
91.0    16.452476
92.0    16.885816
93.0    16.400155
94.0    19.033478
Name: price, Length: 78, dtype: float64

In [59]:
# Analyse des prix moyens en fonction de l'âge sur le df categ = 0

cat0 = categ_0.groupby(['age'])['price'].mean().reset_index()
cat0

# Encore une fois les résultats sont bien différents.
# Les moyennes par âge de la categ 0 semblent toutes tournées autour de la moyenne globale de la categ 0 (10)
    #(ce qui est normal puisque l'écart-type de la categ 0 est relativement faible.)

Unnamed: 0,age,price
0,17.0,10.521021
1,18.0,10.547512
2,19.0,10.592603
3,20.0,10.986606
4,21.0,10.783517
...,...,...
73,90.0,11.398043
74,91.0,10.963895
75,92.0,10.712647
76,93.0,9.689756


In [60]:
# Je sélectionne uniquement mes lignes correspondant au produit 0_2245:

echantillon = jointure_2.loc[jointure_2['id_prod'] == '0_2245', :]
echantillon

Unnamed: 0,client_id,sex,birth,id_prod,date,session_id,price,categ,_merge,age
542051,c_4505,m,1976.0,0_2245,2022-01-09 09:23:31.000720,s_147220,,,left_only,46.0
542052,c_4505,m,1976.0,0_2245,2022-11-09 09:23:31.000720,s_295013,,,left_only,46.0
542053,c_3468,f,1981.0,0_2245,2021-09-11 10:52:05.205583,s_88251,,,left_only,40.0
542054,c_3468,f,1981.0,0_2245,2022-05-11 10:52:05.205583,s_206902,,,left_only,41.0
542055,c_1403,f,1978.0,0_2245,2022-09-15 14:26:50.187952,s_268455,,,left_only,44.0
...,...,...,...,...,...,...,...,...,...,...
542267,c_4283,f,1976.0,0_2245,2022-08-01 02:46:38.931757,s_246657,,,left_only,46.0
542268,c_4283,f,1976.0,0_2245,2021-09-01 02:46:38.931757,s_83377,,,left_only,45.0
542269,c_6236,f,1976.0,0_2245,2022-02-25 00:08:08.736068,s_170426,,,left_only,46.0
542270,c_4453,m,1981.0,0_2245,2022-02-16 11:35:20.319501,s_166050,,,left_only,41.0


In [61]:
# Je regarde la distribution des âges dans cet échantillon: 

echantillon.age.value_counts()

43.0    16
40.0    15
39.0    14
44.0    12
38.0    12
49.0    12
46.0     9
35.0     9
50.0     9
31.0     8
37.0     8
48.0     8
42.0     8
54.0     7
45.0     6
36.0     6
53.0     6
41.0     5
34.0     5
51.0     5
30.0     4
32.0     4
52.0     3
47.0     3
33.0     3
65.0     3
82.0     2
59.0     2
72.0     2
20.0     2
69.0     1
70.0     1
19.0     1
22.0     1
58.0     1
81.0     1
27.0     1
86.0     1
21.0     1
62.0     1
66.0     1
64.0     1
88.0     1
Name: age, dtype: int64

In [62]:
# Je sélectionne les 6 âges les plus "représentatifs" de l'échantillon:

cat0.loc[(cat0['age'] == 43.0) | (cat0['age'] == 40.0) | (cat0['age'] == 39.0) | (cat0['age'] == 44.0) | 
         (cat0['age'] == 38.0) | (cat0['age'] == 49.0)   , :]

# Ils ont tous une moyenne similaire

Unnamed: 0,age,price
21,38.0,10.676186
22,39.0,10.658982
23,40.0,10.653139
26,43.0,10.587553
27,44.0,10.613506
32,49.0,10.572549


In [63]:
# J'ai donc assez d'informations pour conclure que je peux raisonnablement remplacer les valeurs manquantes pour les prix des
    #produits '0_2245' par la moyenne des prix de la catégorie 0

jointure_2.loc[jointure_2['id_prod'] == '0_2245', 'price'] = categ_0.price.mean()
jointure_2.loc[jointure_2['id_prod'] == '0_2245', 'categ'] = 0
jointure_2.loc[jointure_2['id_prod'] == '0_2245', :]

Unnamed: 0,client_id,sex,birth,id_prod,date,session_id,price,categ,_merge,age
542051,c_4505,m,1976.0,0_2245,2022-01-09 09:23:31.000720,s_147220,10.63833,0.0,left_only,46.0
542052,c_4505,m,1976.0,0_2245,2022-11-09 09:23:31.000720,s_295013,10.63833,0.0,left_only,46.0
542053,c_3468,f,1981.0,0_2245,2021-09-11 10:52:05.205583,s_88251,10.63833,0.0,left_only,40.0
542054,c_3468,f,1981.0,0_2245,2022-05-11 10:52:05.205583,s_206902,10.63833,0.0,left_only,41.0
542055,c_1403,f,1978.0,0_2245,2022-09-15 14:26:50.187952,s_268455,10.63833,0.0,left_only,44.0
...,...,...,...,...,...,...,...,...,...,...
542267,c_4283,f,1976.0,0_2245,2022-08-01 02:46:38.931757,s_246657,10.63833,0.0,left_only,46.0
542268,c_4283,f,1976.0,0_2245,2021-09-01 02:46:38.931757,s_83377,10.63833,0.0,left_only,45.0
542269,c_6236,f,1976.0,0_2245,2022-02-25 00:08:08.736068,s_170426,10.63833,0.0,left_only,46.0
542270,c_4453,m,1981.0,0_2245,2022-02-16 11:35:20.319501,s_166050,10.63833,0.0,left_only,41.0


In [64]:
# Analyse des 'right_only'

invendus = jointure_2.loc[jointure_2['_merge'] == 'right_only', :]
invendus

Unnamed: 0,client_id,sex,birth,id_prod,date,session_id,price,categ,_merge,age
679332,,,,0_1016,NaT,,35.06,0.0,right_only,
679333,,,,0_1780,NaT,,1.67,0.0,right_only,
679334,,,,0_1062,NaT,,20.08,0.0,right_only,
679335,,,,0_1119,NaT,,2.99,0.0,right_only,
679336,,,,0_1014,NaT,,1.15,0.0,right_only,
679337,,,,1_0,NaT,,31.82,1.0,right_only,
679338,,,,0_1318,NaT,,20.92,0.0,right_only,
679339,,,,0_1800,NaT,,22.05,0.0,right_only,
679340,,,,0_1645,NaT,,2.99,0.0,right_only,
679341,,,,0_322,NaT,,2.99,0.0,right_only,


In [65]:
invendus.shape
# on a 21 lignes pour lesquelles on a bien les produits qui ressortent, mais il n'y a pas de transactions et de clients associés
# on ne sait pas trop à quoi ils correspondent, est-ce que ce sont des invendus, ou des produits qui sont 'out of stock'? 
# je choisi de les garder dans un DF, appelé "invendus" mais de les supprimer du DF Final
# (la variable 'client_ID' étant aussi une PK, elle ne peut rester en NULL)

(21, 10)

In [66]:
# Le DF finalisé (en supprimant les "invendus") :

jointure_2.drop(jointure_2[(jointure_2['_merge'] == 'right_only')].index, inplace=True)
final = jointure_2.drop('_merge', axis = 1)
final.shape

(679332, 9)

In [67]:
# On créé une variable "mois_année" pour faire des analyses par mois.

final['mois_année'] = pd.to_datetime(final['date']).dt.to_period('M')

In [68]:
final.head()

Unnamed: 0,client_id,sex,birth,id_prod,date,session_id,price,categ,age,mois_année
0,c_4410,f,1967.0,0_1316,2021-12-29 09:11:18.860592,s_141762,7.2,0.0,54.0,2021-12
1,c_4410,f,1967.0,0_1316,2022-03-29 09:11:18.860592,s_186233,7.2,0.0,55.0,2022-03
2,c_4410,f,1967.0,0_1316,2022-05-29 09:11:18.860592,s_215758,7.2,0.0,55.0,2022-05
3,c_3654,f,1978.0,0_1316,2021-11-26 03:51:34.068872,s_125143,7.2,0.0,43.0,2021-11
4,c_3654,f,1978.0,0_1316,2022-08-26 03:51:34.068872,s_258546,7.2,0.0,44.0,2022-08


In [70]:
final.to_csv('df_final.csv', index=False)