# Projet 4 : Analysez les ventes de votre entreprise

## Nettoyage des données

Dans ce fichier nous allons Nettoyer et formater nos données pour l'analyse à venir dans le fichier *P4_Analyse.ipynb*

In [1]:
# Import des librairies
import pandas as pd
import seaborn as sns

import fonctions as f

# Import des données des bilans alimentaires
cus = pd.read_csv("data/customers.csv")
pro = pd.read_csv("data/products.csv")
tra = pd.read_csv("data/transactions.csv",parse_dates=[1])

customer = cus.copy()
product = pro.copy()
transaction = tra.copy()


Formatage des données en utilisant les fonctions disponible dans le fichier *fonction*



Vérification du tableau des clients.


In [2]:

cus['birth'] = cus['birth'].apply(f.birth_verif)
cus['sex'] = cus['sex'].apply(f.sex_verif)
cus['client_id'] = cus['client_id'].apply(f.clientId_verif)



Vérification du tableau des produits.


In [3]:
pro['id_prod'] = pro['id_prod'].apply(f.idProd_verif)
pro['price'] = pro['price'].apply(f.price_verif)
pro['categ'] = pro['categ'].apply(f.categ_verif)

#Ici on regarde que tout les identifiant et toute les categorie concorde
pro[pro['id_prod'].astype(str).str[0] != pro['categ'].astype(str).str[0]]

Unnamed: 0,id_prod,price,categ
731,,,0


Nous n'avons que le produits Nan qui est le produits test


Vérification du tableau des transactions


In [4]:
tra['id_prod'] = tra['id_prod'].apply(f.idProd_verif)
tra['date'] = tra['date'].apply(f.date_verif)
tra['session_id'] = tra['session_id'].apply(f.sessionId_verif)
tra['client_id'] = tra['client_id'].apply(f.clientId_verif)
tra['date'] = pd.to_datetime(tra['date'])


Vérification des données *null*


In [5]:
cus.isna().sum()


client_id    2
sex          0
birth        0
dtype: int64

In [6]:
pro.isna().sum()


id_prod    1
price      1
categ      0
dtype: int64

In [7]:
tra.isna().sum()


id_prod       200
date          200
session_id      0
client_id     200
dtype: int64

In [8]:
tra.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 337016 entries, 0 to 337015
Data columns (total 4 columns):
 #   Column      Non-Null Count   Dtype         
---  ------      --------------   -----         
 0   id_prod     336816 non-null  object        
 1   date        336816 non-null  datetime64[ns]
 2   session_id  337016 non-null  object        
 3   client_id   336816 non-null  object        
dtypes: datetime64[ns](1), object(3)
memory usage: 10.3+ MB


Il y a quelques données "corrompues" par notre vérification de tableau.

- *customer* -> 2 clients non définis, soit 0.02 % des entrées.
- *produits* -> 1 produit corrompu, soit 0.03 % des entrées.
- *transaction* -> 200 transaction null soit 0.05 % des entrées.

Notre échantillon, même sans ces pourcentages de pertes, sera toujours représentatif. Cherchons un peut plus de détails pour être sûr de nous.

In [9]:
cus[cus.client_id.isna()]

Unnamed: 0,client_id,sex,birth
2735,,f,2001
8494,,m,2001


In [10]:
pro[pro.id_prod.isna()]

Unnamed: 0,id_prod,price,categ
731,,,0


In [11]:
tra[tra.id_prod.isna()]

Unnamed: 0,id_prod,date,session_id,client_id
1431,,NaT,s_0,
2365,,NaT,s_0,
2895,,NaT,s_0,
5955,,NaT,s_0,
7283,,NaT,s_0,
...,...,...,...,...
332594,,NaT,s_0,
332705,,NaT,s_0,
332730,,NaT,s_0,
333442,,NaT,s_0,



Nous avons donc maintenant les index des données manquantes.


In [12]:
product[product.index == 731]

Unnamed: 0,id_prod,price,categ
731,T_0,-1.0,0


In [13]:
customer[customer.index == 2735 ]

Unnamed: 0,client_id,sex,birth
2735,ct_0,f,2001


In [14]:
transaction[transaction.index.isin(tra[tra.id_prod.isna()].index) ]

Unnamed: 0,id_prod,date,session_id,client_id
1431,T_0,test_2021-03-01 02:30:02.237420,s_0,ct_1
2365,T_0,test_2021-03-01 02:30:02.237446,s_0,ct_1
2895,T_0,test_2021-03-01 02:30:02.237414,s_0,ct_1
5955,T_0,test_2021-03-01 02:30:02.237441,s_0,ct_0
7283,T_0,test_2021-03-01 02:30:02.237434,s_0,ct_1
...,...,...,...,...
332594,T_0,test_2021-03-01 02:30:02.237445,s_0,ct_0
332705,T_0,test_2021-03-01 02:30:02.237423,s_0,ct_1
332730,T_0,test_2021-03-01 02:30:02.237421,s_0,ct_1
333442,T_0,test_2021-03-01 02:30:02.237431,s_0,ct_1


<!-- cus = cus.dropna()
pro = pro.dropna()
tra = tra.dropna() -->


Finalement, il semblerait que ces données soient des entrées effectuer pour vérifier le fonctionnement de la base de données, au vu de leurs noms. Nous pouvons sans crainte les supprimer.


In [15]:
cus = cus.dropna()
pro = pro.dropna()
tra = tra.dropna()

In [16]:

#Export des données prêtes a l'analyse.
cus.to_csv("data/customer_formate.csv",encoding="utf-8",index =False)
pro.to_csv("data/product_formate.csv",encoding="utf-8",index =False)
tra.to_csv("data/transaction_formate.csv",encoding="utf-8",index =False)
