In [91]:
import pandas as pd

In [92]:
import warnings
warnings.filterwarnings('ignore')

In [93]:
df = pd.read_csv("data_vente.csv")
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,Date,Year,Month,weekday,Day,TotalPrice
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850.0,United Kingdom,2010-12-01,2010,12,2,Wednesday,15.3
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01,2010,12,2,Wednesday,20.34
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850.0,United Kingdom,2010-12-01,2010,12,2,Wednesday,22.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01,2010,12,2,Wednesday,20.34
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850.0,United Kingdom,2010-12-01,2010,12,2,Wednesday,20.34


In [94]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 392729 entries, 0 to 392728
Data columns (total 14 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    392729 non-null  int64  
 1   StockCode    392729 non-null  object 
 2   Description  392729 non-null  object 
 3   Quantity     392729 non-null  int64  
 4   InvoiceDate  392729 non-null  object 
 5   UnitPrice    392729 non-null  float64
 6   CustomerID   392729 non-null  float64
 7   Country      392729 non-null  object 
 8   Date         392729 non-null  object 
 9   Year         392729 non-null  int64  
 10  Month        392729 non-null  int64  
 11  weekday      392729 non-null  int64  
 12  Day          392729 non-null  object 
 13  TotalPrice   392729 non-null  float64
dtypes: float64(3), int64(5), object(6)
memory usage: 41.9+ MB


In [95]:
# certaines colonnes n'ont pas le bon dtype. 
df["InvoiceNo"] = df["InvoiceNo"].astype('O')
df["Year"] = df["Year"].astype('O')
df["CustomerID"] = df["CustomerID"].astype('O')
df["Month"] = df["Month"].astype('O')
df["weekday"] = df["weekday"].astype('O')

In [96]:
df.isna().sum()

InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
Date           0
Year           0
Month          0
weekday        0
Day            0
TotalPrice     0
dtype: int64

In [97]:
df.duplicated().sum()

0

## Exploration des variables numériques

In [98]:
# stockage des variable numériques dans un tableau num_df
num_df = df[['Quantity','UnitPrice', 'TotalPrice']]

In [99]:
num_df.describe()

Unnamed: 0,Quantity,UnitPrice,TotalPrice
count,392729.0,392729.0,392729.0
mean,12.726679,3.125611,22.003864
std,43.086667,22.240809,96.766053
min,1.0,0.0,0.0
25%,2.0,1.25,4.95
50%,6.0,1.95,12.39
75%,12.0,3.75,19.8
max,4800.0,8142.75,38970.0


In [100]:
# Variable Quantity: 
# la moyenne des quantités de ventes est de 12.7
# on observe un très large écart entre le min=1 et le max=4800, ce qui renseigne sur l'hétérogénéité des quantités des commandes

In [101]:
# Variable UnitPrice:
#suppression des lignes avec UnitPrice=0
df = df[df["UnitPrice"] != 0]

In [103]:
print(df['UnitPrice'].min())
print(df['UnitPrice'].max())

0.001
8142.75


## Exploration des variables catégorielles

In [104]:
# stockage des variables catégorielles dans un tableau cat_df
cat_df = df[["InvoiceNo", "StockCode", "Description", "CustomerID", "Country", "Month", "Day"]]
cat_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country,Month,Day
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,17850.0,United Kingdom,12,Wednesday
1,536365,71053,WHITE METAL LANTERN,17850.0,United Kingdom,12,Wednesday
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,17850.0,United Kingdom,12,Wednesday
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,17850.0,United Kingdom,12,Wednesday
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,17850.0,United Kingdom,12,Wednesday


In [105]:
# application de la methode describe sur les variables catégorielles
cat_df.describe()

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country,Month,Day
count,392690,392690,392690,392690.0,392690,392690,392690
unique,18530,3664,3876,4337.0,37,12,6
top,576339,85123A,WHITE HANGING HEART T-LIGHT HOLDER,17841.0,United Kingdom,11,Thursday
freq,542,2023,2016,7676.0,349201,63168,79243


In [106]:
# De la variable "StockCode" qui référencie les différents codes des produits vendus, on peut observer que le code produit 
# le plus vendu = 85123A. ce code produit apparaît 2023 fois dans le dataset
# Notons qu'un même code produit contient plusieurs dérivés de produits différents

In [107]:
# la variable "Description" indique 3876 descriptions de produits différents. La description du produit le plus vendu est:
# WHITE HANGING HEART T-LIGHT HOLDER

In [108]:
# le variable "CustomerID" indique que le dataset contient 4337 client différents
# Le client le plus fidèle possède un CustomerID = 17841.0

In [109]:
# la variable "Country" indique 37 pays différents. 
cat_df["Country"].unique()
# Notons que dans la liste des pays, il existe un pays nommé 'Unspecified'. Ce qui veut dire que les commandes faites avec cette
# peuvent être fait de n'importe où dans le monde. 

array(['United Kingdom', 'France', 'Australia', 'Netherlands', 'Germany',
       'Norway', 'EIRE', 'Switzerland', 'Spain', 'Poland', 'Portugal',
       'Italy', 'Belgium', 'Lithuania', 'Japan', 'Iceland',
       'Channel Islands', 'Denmark', 'Cyprus', 'Sweden', 'Finland',
       'Austria', 'Greece', 'Singapore', 'Lebanon',
       'United Arab Emirates', 'Israel', 'Saudi Arabia', 'Czech Republic',
       'Canada', 'Unspecified', 'Brazil', 'USA', 'European Community',
       'Bahrain', 'Malta', 'RSA'], dtype=object)

In [110]:
# regardons le nombre de commandes effectué avec Country = 'Unspecified'
print ("Nombre de commandes avec country = 'Unspecified':", df[df['Country']=='Unspecified'].shape[0])
print ("Pourcentage de ces commandes:", (df[df['Country']=='Unspecified'].shape[0]/len(df))*100)
# ces valeurs ne représentent que 0.06% des commandes totales, ce qui est donc négligeable par rapport au total des commandes

Nombre de commandes avec country = 'Unspecified': 241
Pourcentage de ces commandes: 0.06137156535689729


In [111]:
# nous allons pour plus de clarté dans nos analyses, supprimer les lignes de commandes avec Country = 'Unspecified'
df = df[df['Country']!= 'Unspecified']

In [112]:
# dans le tableau describe, on remarque pour finir que le mois de plus forte affluence est novmebre, et le jour = jeudi.

### Inspection d'anomalies dans les variables catégorielles

In [113]:
cat_df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country,Month,Day
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,17850.0,United Kingdom,12,Wednesday
1,536365,71053,WHITE METAL LANTERN,17850.0,United Kingdom,12,Wednesday
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,17850.0,United Kingdom,12,Wednesday
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,17850.0,United Kingdom,12,Wednesday
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,17850.0,United Kingdom,12,Wednesday


In [114]:
# Variable "StockCode": cette variable montre un standard d'annotation de 5 chiffres, avec éventuellement une lettre après ces chiffres

# regardons s'il existe d'autres types d'annotations en jouant sur la longeur des différentes chaines de caractères:

In [115]:
# entrées avec StockCode inférieure à 5 chaines de caractères:
df[df['StockCode'].apply(lambda X: len(X)<5)]['StockCode'].unique()

# l'information la plus importante ici est qu'il y a des sctockcode avec la lettre "M", qui indique des commandes enrégistrées manuellement

array(['POST', 'C2', 'M', 'PADS', 'DOT'], dtype=object)

In [116]:
# entrées avec StockCode supérieure à 6 chaines de caractères:
df[df['StockCode'].apply(lambda X: len(X)>6)]['StockCode'].unique()

# ici rien de spécial à tirer

array(['15056BL', 'BANK CHARGES'], dtype=object)

In [117]:
# Variable "Description"
df[df['Description'].apply(lambda X: len(X)<=6)]['Description'].unique()

# information importante: il existe des descriptions "Manual", qui indique des commandes enregistrées manuellement

array(['Manual'], dtype=object)

In [118]:
# décision de supprimer les lignes de commandes enregistrées manuellement, car aucune information sur la description du produit
df = df[df['Description'] != 'Manual']

In [119]:
print(df['InvoiceNo'].min())
print(df['InvoiceNo'].max())
print(df['CustomerID'].min())
print(df['CustomerID'].max())
# les variables "InvoiceNo" et "CustomerID" ne présentent pas d'anomalies

536365
581587
12347.0
18287.0


In [120]:
# sauvegarde du dataset qui est à présent prêt pour une data visualisation
# la section data Viz sera présentée dans un autre notebook_DataViz
df.to_csv('data_vente.csv', index=False)