# 1. importation des librairies et preparation des données

## 1.1 importation des librairies

In [1]:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [15]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None) 

## 1.2 importation des dataframes

In [16]:
customers = pd.read_csv('../DA-P6/sources/customers.csv')
products = pd.read_csv('../DA-P6/sources/products.csv')
transactions = pd.read_csv('../DA-P6/sources/transactions.csv')

## 1.3 preparation des dataframes

In [17]:
# verification des données non renseignées
print(customers.info())
print(products.info())
print(transactions.info())
print(f'Aucune donnée manquante')



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8623 entries, 0 to 8622
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   client_id  8623 non-null   object
 1   sex        8623 non-null   object
 2   birth      8623 non-null   int64 
dtypes: int64(1), object(2)
memory usage: 202.2+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3287 entries, 0 to 3286
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   id_prod  3287 non-null   object 
 1   price    3287 non-null   float64
 2   categ    3287 non-null   int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 77.2+ KB
None
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 679532 entries, 0 to 679531
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype 
---  ------      --------------   ----- 
 0   id_prod     679532 non-null  object
 1   date        679532 non-null  object
 2  

### 1.3.1 preparation du fichier transactions

In [18]:
transactions.describe()

Unnamed: 0,id_prod,date,session_id,client_id
count,679532,679532,679532,679532
unique,3267,679371,342316,8602
top,1_369,test_2021-03-01 02:30:02.237413,s_0,c_1609
freq,2252,13,200,25488


Le fichier possède des données de test, il est necessaire de les enlever

In [19]:
test = transactions[transactions['date'].str.contains("test")]
print(f" Les produits test sont : {test['id_prod'].unique()}")
print(f" Les sessions de test sont : {test['session_id'].unique()}")
print(f" Les clients test sont : {test['client_id'].unique()}")


 Les produits test sont : ['T_0']
 Les sessions de test sont : ['s_0']
 Les clients test sont : ['ct_0' 'ct_1']


### 1.3.2 supression des données de test dans les 3 fichiers

In [20]:
customers.drop(customers[customers['client_id'].isin(test['client_id'].unique())].index, inplace=True)
products.drop(products[products['id_prod'].isin(test['id_prod'].unique())].index, inplace=True)
transactions.drop(transactions[transactions['session_id'].isin(test['session_id'].unique())].index, inplace=True)
transactions.describe()

Unnamed: 0,id_prod,date,session_id,client_id
count,679332,679332,679332,679332
unique,3266,679332,342315,8600
top,1_369,2022-05-20 13:21:29.043970,s_118668,c_1609
freq,2252,1,14,25488


### 1.3.3 preparation du fichier client

In [21]:
men = len(customers[customers['sex']=='m'])
women = len(customers[customers['sex']=='f'])
total = men + women
print(f"nombre de clients feminins : {women} \n"
      f"nombre de clients masculins : {men} \n"
      f"nombre de clients : {total} / {len(customers['sex'])}")

nombre de clients feminins : 4490 
nombre de clients masculins : 4131 
nombre de clients : 8621 / 8621


In [22]:
customers.describe()

Unnamed: 0,birth
count,8621.0
mean,1978.275606
std,16.917958
min,1929.0
25%,1966.0
50%,1979.0
75%,1992.0
max,2004.0


In [23]:
print(len(customers['client_id'].unique()))

8621


- Tous les identifiants clients sont uniques  
- Le sexe est toujours renseigné (h/f)  
- L'age minimal est de 18 ans  
- L'age maximal est de 93 ans

### 1.3.4 preparation du fichier produit

In [24]:
products.describe()


Unnamed: 0,price,categ
count,3286.0,3286.0
mean,21.863597,0.370359
std,29.849786,0.615446
min,0.62,0.0
25%,6.99,0.0
50%,13.075,0.0
75%,22.99,1.0
max,300.0,2.0


In [25]:
print(len(products['id_prod'].unique()))

3286


- Tous les identifiants produit sont uniques
- Le prix minimal est de 0.62 euros
- Le prix maximal est de 300 euros

In [26]:
#ajout colonne age et exportation
customers['age'] = 2023 - customers['birth']
customers.to_csv(r'./sources/customers_clean.csv', index=False)
products.to_csv(r'./sources/products_clean.csv', index=False)
transactions.to_csv(r'./sources/transactions_clean.csv', index=False)