In [23]:
import pandas as pd
from skimpy import skim

In [24]:
df_customers = pd.read_csv("https://dojo-git.s3.eu-west-3.amazonaws.com/raw/customers.csv")
df_transactions = pd.read_csv("https://dojo-git.s3.eu-west-3.amazonaws.com/raw/transactions.csv")
df_products = pd.read_csv("https://dojo-git.s3.eu-west-3.amazonaws.com/raw/products.csv")

## Nettoyage du df_customers

In [25]:
df_customers.head()

Unnamed: 0,client_id,sex,birth
0,c_4410,f,1967
1,c_7839,f,1975
2,c_1699,f,1984
3,c_5961,f,1962
4,c_5320,m,1943


In [26]:
skim(df_customers)

In [27]:
# vérification de la synthaxe des client_id
max_len_id = df_customers['client_id'].str.len().max() - 2

df_customers[~df_customers['client_id'].str.match(r'c_\d{1,4}')]

Unnamed: 0,client_id,sex,birth
2735,ct_0,f,2001
8494,ct_1,m,2001


In [28]:
# suppression des index 2735 et 8494 qui semblent etre des tests
df_customers.drop([2735, 8494], inplace=True)

In [33]:
# vérification des unique dans sex
df_customers['sex'].unique()

array(['f', 'm'], dtype=object)

Observations :
Le dataset semble propre avec soit f ou m pour le sexe. les id_client avec le mauvais formatage ont été supproimé, la distribution des année de naissance des client semble cohérente

In [39]:
# enregistrement du fichier nettoyé
df_customers.to_csv('../data/processed/customers_clean.csv')

## Nettoyage du df_transactions

In [29]:
df_transactions.head()

Unnamed: 0,id_prod,date,session_id,client_id
0,0_1518,2022-05-20 13:21:29.043970,s_211425,c_103
1,1_251,2022-02-02 07:55:19.149409,s_158752,c_8534
2,0_1277,2022-06-18 15:44:33.155329,s_225667,c_6714
3,2_209,2021-06-24 04:19:29.835891,s_52962,c_6941
4,0_1509,2023-01-11 08:22:08.194479,s_325227,c_4232


In [30]:
skim(df_transactions)

### vérification des formatages des id_prod, session_id et client_id

In [43]:
# vérification de la synthaxe des client_id
max_len_id = df_transactions['client_id'].str.len().max() - 2

df_transactions_bad = df_transactions[~df_transactions['client_id'].str.match(r'c_\d{1,4}')]
df_transactions_bad

Unnamed: 0,id_prod,date,session_id,client_id
3019,T_0,test_2021-03-01 02:30:02.237419,s_0,ct_0
5138,T_0,test_2021-03-01 02:30:02.237425,s_0,ct_0
9668,T_0,test_2021-03-01 02:30:02.237437,s_0,ct_1
10728,T_0,test_2021-03-01 02:30:02.237436,s_0,ct_0
15292,T_0,test_2021-03-01 02:30:02.237430,s_0,ct_0
...,...,...,...,...
657830,T_0,test_2021-03-01 02:30:02.237417,s_0,ct_0
662081,T_0,test_2021-03-01 02:30:02.237427,s_0,ct_1
670680,T_0,test_2021-03-01 02:30:02.237449,s_0,ct_1
671647,T_0,test_2021-03-01 02:30:02.237424,s_0,ct_1


In [44]:
# voir combien de session_id differentes et client_id
print(f'nombre unique des session: {df_transactions_bad['session_id'].nunique()}')
print(f'nombre unique des client: {df_transactions_bad['client_id'].nunique()}')

nombre unique des session: 1
nombre unique des client: 2


observation : il semble sagir de test sur les initialisation du fichier --> suppression des lignes

In [46]:
# suppression des lignes où id_prod = T_0
df_transactions = df_transactions[df_transactions['id_prod'] != 'T_0']

In [50]:
# vérification de la synthaxe des client_id
max_len_id = df_transactions['client_id'].str.len().max() - 2

df_transactions[~df_transactions['client_id'].str.match(r'c_\d{1,4}')]

Unnamed: 0,id_prod,date,session_id,client_id


In [49]:
# vérification de la synthaxe des session_id
max_len_id = df_transactions['session_id'].str.len().max() - 2

df_transactions[~df_transactions['session_id'].str.match(r's_\d{1,6}')]

Unnamed: 0,id_prod,date,session_id,client_id


In [57]:
# vérification de la synthaxe des id_prod avec pour premier caractere 0, 1 ou 2
max_len_id = df_transactions['id_prod'].str.len().max() - 2

df_transactions[~df_transactions['id_prod'].str.match(r'^[012]_\d{1,4}')]

Unnamed: 0,id_prod,date,session_id,client_id


In [53]:
# vérifier la colonne date pour savoir si chaque ligne a une date ubnque
print(f'ratio du nombre de date différente : {df_transactions['date'].nunique() / len(df_transactions)}')

ratio du nombre de date différente : 1.0


In [58]:
# enregistrement du fichier nettoyé
df_customers.to_csv('../data/processed/transactions_clean.csv')

## Nettoyage du df_products

In [31]:
df_products.head()

Unnamed: 0,id_prod,price,categ
0,0_1421,19.99,0
1,0_1368,5.13,0
2,0_731,17.99,0
3,1_587,4.99,1
4,0_1507,3.99,0


In [32]:
skim(df_products)

In [73]:
# vérification de la synthaxe des id_prod avec pour premier caractere 0, 1 ou 2
max_len_id = df_products['id_prod'].str.len().max() - 2

df_products[~df_products['id_prod'].str.match(r'^[012]_\d{1,4}')]

Unnamed: 0,id_prod,price,categ


In [72]:
# suppression de cette entrée
df_products = df_products[df_products['id_prod'] != 'T_0']

In [111]:
# Verification des categories et du match avec le id_prod

df_products[(df_products['categ'] > 2) | (df_products['categ'] < 0)] # ok pas de catégire non souhaitée

df_resultat = df_products['id_prod'].str[0].astype(int) == df_products['categ']

i= 0 

for b in df_resultat:
    if b == False:
        i += 1

print(f'nombre de not match : {i}')

nombre de not match : 0


In [115]:
# vérification de la cohérence des prix (pas de prix inféroeur ou egal à zéro)
df_products[df_products['price'] <= 0]

Unnamed: 0,id_prod,price,categ,first_char


In [116]:
# enregistrement du fichier nettoyé
df_products.to_csv('../data/processed/products_clean.csv')