## Importations des librairies

In [1]:
import pandas as pd
import numpy as np
import datetime
import re

## Chargement des données

In [2]:
df_customers = pd.read_csv('./dataset_bookstore/customers.csv')

In [3]:
df_products = pd.read_csv('./dataset_bookstore/products.csv')

In [4]:
df_transactions = pd.read_csv('./dataset_bookstore/transactions.csv', parse_dates=[2])

## Affichage d'un échantillon de chacun d'eux

In [5]:
df_customers.head()

Unnamed: 0,client_id,sex,birth
0,c_4410,f,1967
1,c_7839,f,1975
2,c_1699,f,1984
3,c_5961,f,1962
4,c_5320,m,1943


In [6]:
df_products.head()

Unnamed: 0,id_prod,price,categ
0,0_1421,19.99,0
1,0_1368,5.13,0
2,0_731,17.99,0
3,1_587,4.99,1
4,0_1507,3.99,0


In [7]:
df_transactions.head()

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242


# ETAPE 1 : Nettoyage des données

## Ca peut être utile de regrouper ces trois jeux de données en un seul dataframe à l'aide de jointures

In [8]:
data_final=pd.merge(df_transactions,df_products,how='left',on=["id_prod"]) 
data_final.shape

(337016, 6)

In [9]:
data_final=pd.merge(data_final,df_customers,how='left',on=["client_id"]) 
data_final.head(5)

Unnamed: 0,id_prod,date,session_id,client_id,price,categ,sex,birth
0,0_1483,2021-04-10 18:37:28.723910,s_18746,c_4450,4.99,0.0,f,1977
1,2_226,2022-02-03 01:55:53.276402,s_159142,c_277,65.75,2.0,f,2000
2,1_374,2021-09-23 15:13:46.938559,s_94290,c_4270,10.71,1.0,f,1979
3,0_2186,2021-10-17 03:27:18.783634,s_105936,c_4597,4.2,0.0,m,1963
4,0_1351,2021-07-17 20:34:25.800563,s_63642,c_1242,8.99,0.0,f,1980


## On va ensuite vérifier s’il n’y a pas des valeurs manquantes.

In [10]:
data_final.isnull().any()

id_prod       False
date          False
session_id    False
client_id     False
price          True
categ          True
sex           False
birth         False
dtype: bool

In [11]:
data_final.isnull().sum()

id_prod         0
date            0
session_id      0
client_id       0
price         103
categ         103
sex             0
birth           0
dtype: int64

## On remarque que nous avons des transactions avec des valeurs manquantes en ce qui concerne le prix et la catégorie. On essaye de les afficher.

In [12]:
data_final[np.isnan(data_final["price"])]

Unnamed: 0,id_prod,date,session_id,client_id,price,categ,sex,birth
6235,0_2245,2021-06-17 03:03:12.668129,s_49705,c_1533,,,m,1972
10802,0_2245,2021-06-16 05:53:01.627491,s_49323,c_7954,,,m,1973
14051,0_2245,2021-11-24 17:35:59.911427,s_124474,c_5120,,,f,1975
17486,0_2245,2022-02-28 18:08:49.875709,s_172304,c_4964,,,f,1982
21078,0_2245,2021-03-01 00:09:29.301897,s_3,c_580,,,m,1988
...,...,...,...,...,...,...,...,...
322710,0_2245,2021-04-06 19:59:19.462288,s_16936,c_4167,,,f,1979
329417,0_2245,2021-03-30 23:29:02.347672,s_13738,c_7790,,,f,1983
330490,0_2245,2021-12-03 14:14:40.444177,s_128815,c_6189,,,f,1984
335531,0_2245,2021-04-27 18:58:47.703374,s_26624,c_1595,,,f,1973


## Les valeurs manquantes ne concernent qu'un seul produit "2245". Nous avons la possibilité soit de supprimer ses opérations soit de leur donner comme prix, la valeur moyenne de la catégorie 0.

## On décide de supprimer ses opérations car avec cette décision, nous perdons un faible nombre de transactions, nous passons de 33 7016 transactions à 33 6913.

## -> On va regarder aussi si on a des valeurs aberrantes.

## -> On va essayer de trier le tableau par ordre croissant.

In [13]:
data_final.groupby('client_id').sum().sort_values('price', ascending=True).head()

Unnamed: 0_level_0,price,categ,birth
client_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
ct_0,-106.0,0.0,212106
ct_1,-94.0,0.0,188094
c_8140,4.15,0.0,1971
c_8114,4.99,0.0,1962
c_1675,5.57,0.0,2000


## On cherche à voir pourquoi il y a des clients qui ont des achats négatifs.

In [14]:
data_final[data_final.price<0].head(10)

Unnamed: 0,id_prod,date,session_id,client_id,price,categ,sex,birth
1431,T_0,test_2021-03-01 02:30:02.237420,s_0,ct_1,-1.0,0.0,m,2001
2365,T_0,test_2021-03-01 02:30:02.237446,s_0,ct_1,-1.0,0.0,m,2001
2895,T_0,test_2021-03-01 02:30:02.237414,s_0,ct_1,-1.0,0.0,m,2001
5955,T_0,test_2021-03-01 02:30:02.237441,s_0,ct_0,-1.0,0.0,f,2001
7283,T_0,test_2021-03-01 02:30:02.237434,s_0,ct_1,-1.0,0.0,m,2001
13745,T_0,test_2021-03-01 02:30:02.237443,s_0,ct_0,-1.0,0.0,f,2001
20470,T_0,test_2021-03-01 02:30:02.237442,s_0,ct_0,-1.0,0.0,f,2001
22347,T_0,test_2021-03-01 02:30:02.237412,s_0,ct_1,-1.0,0.0,m,2001
26359,T_0,test_2021-03-01 02:30:02.237439,s_0,ct_1,-1.0,0.0,m,2001
26407,T_0,test_2021-03-01 02:30:02.237426,s_0,ct_0,-1.0,0.0,f,2001


## On remarque que l’on a des tests dans le dataframe donc on les supprime.

In [15]:
data_final[data_final.price<0].head(10)

Unnamed: 0,id_prod,date,session_id,client_id,price,categ,sex,birth
1431,T_0,test_2021-03-01 02:30:02.237420,s_0,ct_1,-1.0,0.0,m,2001
2365,T_0,test_2021-03-01 02:30:02.237446,s_0,ct_1,-1.0,0.0,m,2001
2895,T_0,test_2021-03-01 02:30:02.237414,s_0,ct_1,-1.0,0.0,m,2001
5955,T_0,test_2021-03-01 02:30:02.237441,s_0,ct_0,-1.0,0.0,f,2001
7283,T_0,test_2021-03-01 02:30:02.237434,s_0,ct_1,-1.0,0.0,m,2001
13745,T_0,test_2021-03-01 02:30:02.237443,s_0,ct_0,-1.0,0.0,f,2001
20470,T_0,test_2021-03-01 02:30:02.237442,s_0,ct_0,-1.0,0.0,f,2001
22347,T_0,test_2021-03-01 02:30:02.237412,s_0,ct_1,-1.0,0.0,m,2001
26359,T_0,test_2021-03-01 02:30:02.237439,s_0,ct_1,-1.0,0.0,m,2001
26407,T_0,test_2021-03-01 02:30:02.237426,s_0,ct_0,-1.0,0.0,f,2001


## Cleaning :

## Enfin, on réalise quelques nettoyages par anticipation sur nos analyses. Ex, nous allons convertir la colonne date en date time. Et par la suite, nous créons plusieurs colonnes qui donnent année, mois, jour, weekend.

In [16]:
data_final.date=pd.to_datetime(data_final['date'],format='%Y-%m-%d %H:%M:%S.%f')
data_final["annee"] = data_final["date"].map(lambda d: d.year) 
data_final["mois"]= data_final["date"].map(lambda d: d.month_name()) 
data_final["jour_sem"] = data_final["date"].map(lambda d: d.day_name()) 
data_final["weekend"] = data_final["jour_sem"].isin(WEEKEND)

ValueError: time data test_2021-03-01 02:30:02.237420 doesn't match format specified

## On peut maintenant avoir la première et la dernière date d’achat.

In [None]:
print("Première date d'achat: ", data_final.date.min())

In [None]:
print("Dernière date d'achat: ", data_final.date.max())

## Comme autres pistes de nettoyage, on peut penser à regrouper les clients par tranches d’âge, ou aussi les dates par saisons etc.

# ETAPE 2 : Analyse des données

## Regroupons les achats de chaque client pour connaitre leurs dépenses sur une année

In [None]:
client_price=data_final.groupby('client_id')['price'].sum().sort_values(ascending=False).re
client_price.columns=["client_id","total_achat"]
client_price.head(15)

## Regardons la concentration des achats, c'est à dire si les achats sont répartis de manière égalitaire entre les clients ou pas. Pour cela utilisons la courbe de Lorenz pour représenter tout cela et la statistique de Gini pour conclure.

In [None]:
def lorenz_curve(X,legende): 
    X_lorenz = np.cumsum(np.sort(X)) / X.sum() 
    X_lorenz = np.append([0],X_lorenz) 
    fig, ax = plt.subplots(figsize=[6,6]) 
    ax.scatter(np.arange(X_lorenz.size)/(X_lorenz.size-1), X_lorenz, marker='x', color='darkgreen', s=5) ## line plot of equality 
    ax.plot([0,1], [0,1], color='k') 
    ax.legend([legende])

In [None]:
def gini(dep): 
    n = len(dep)
    lorenz = np.cumsum(np.sort(dep)) / dep.sum()
    lorenz = np.append([0],lorenz)
    AUC = (lorenz.sum() -(lorenz[-1]/2) -(lorenz[0]/2))/len(lorenz) 
    S = 0.5 - AUC
    gini = 2*S
    return gini

In [None]:
lorenz_curve(client_price.total_achat,"repartition totale")

In [None]:
print("gini of client_price.price:",gini(client_price.total_achat))

## On peut voir que 20% des clients détenant les paniers les plus conséquents représentent plus de 50 % des achats réalisés. Nous avons 230 clients détenant un grand nombre d'achats dont un top 4 vraiment énorme.

## On peut faire une analyse univariée pour la variable « Catégorie ».
## On remarque alors que le produit 0 est le plus acheté. 
## On peut ensuite analyser chaque catégorie en utilisant des indicateurs statistiques tels que la médiane, la moyenne, le coefficient de variation.


## Puis travailler sur les autres variables (sexe, âge). 

## Comme analyse bivariée, on peut regarder l’évolution du chiffre d’affaires dans le temps. Pour être encore plus précis, on peut par exemple étudier l’influence de la variable âge sur le chiffre d’affaires.

# ETAPE 3 : réaliser des études de corrélation

## Pour les études de corrélation, nous allons définir des programmes que nous allons utiliser tout au long de ses analyses. 

In [None]:
def contengency(dataframe, varia_1, varia_2):
    tab = pd.crosstab(dataframe[varia_1], data_final[varia_2]) 
    table = sm.stats.Table(tab) 
    print(table.test_nominal_association())

In [None]:
def eta_squared(x,y):
    moyenne_y = y.mean() ## moyenne de la variable quantitative 
    classes = []
    for classe in x.unique():
    yi_classe = y[x==classe] 
    classes.append({'ni': len(yi_classe),
    'moyenne_classe': yi_classe.mean()}) 
    SCT = sum([(yj-moyenne_y)**2 for yj in y])
    SCE = sum([c['ni']*(c['moyenne_classe']-moyenne_y)**2 for c in classes]) 
    return SCE/SCT


In [None]:
contengency(data_final,"sex","categ")

## Nous pouvons conclure que de façon générale, il y a corrélation entre le sexe et les catégories car nous avons une p-value de 0.0 avec une statistique très élevée. Nous rejetons donc l'hypothèse d'indépendance entre ces deux variables.

In [None]:
X = "class_age" # qualitative

In [None]:
Y = "frequence_nb_d'achats_mois" # quantitative

In [None]:
sous_echantillon = test eta_squared(sous_echantillon[X],sous_echantillon[Y])

## On peut donc conclure à une corrélation entre l’âge et la fréquence d’achat.

In [None]:
X = "class_age" # qualitative
Y = "total_achat" # quantitative
sous_echantillon = age_categ[age_categ["total_achat"] < 5000]
eta_squared(sous_echantillon[X],sous_echantillon[Y])

## Nous constatons une indépendance entre l’âge d'un côté et le montant total des achats.