# Notebook_eda

voir le README pour le résumé du projet

Colonnes : 

- InvoiceNo : Il s'agit du numéro d'identification de la facture. Chaque transaction est généralement associée à un numéro de facture unique. Ce numéro peut être utilisé pour regrouper les articles achetés dans une même transaction.

- StockCode : C'est le code d'identification du produit ou de l'article. Chaque produit ou article disponible à la vente a généralement un code unique qui l'identifie. Ce code peut être utilisé pour associer un article spécifique à une transaction.

- Description : Cette colonne contient la description du produit ou de l'article correspondant au code StockCode. Il s'agit d'une description textuelle qui fournit des informations sur le produit ou l'article, telles que sa marque, son nom ou ses caractéristiques.

- Quantity : C'est le nombre d'unités de chaque produit ou article acheté dans une transaction donnée. Il indique combien d'unités d'un produit spécifique ont été achetées lors de cette transaction.

- InvoiceDate : Il s'agit de la date et de l'heure auxquelles la transaction a été effectuée. Cette information peut être utile pour l'analyse temporelle, la segmentation des données ou la détection de tendances saisonnières.

- UnitPrice : C'est le prix unitaire d'un produit ou article. Il représente le coût d'une seule unité du produit. Le prix total d'un produit dans une transaction peut être calculé en multipliant la quantité par le prix unitaire.

- CustomerID : Il s'agit de l'identifiant du client associé à la transaction. Chaque client a un identifiant unique qui peut être utilisé pour regrouper les transactions par client ou pour suivre les comportements d'achat spécifiques à chaque client.

- Country : Cette colonne indique le pays où la transaction a eu lieu ou le pays associé au client. Elle peut être utilisée pour analyser les ventes par pays ou pour segmenter les données en fonction des régions géographiques.

In [28]:
# import des librairies
import pandas as pd 
import numpy as np 
import seaborn as sns 
import matplotlib.pyplot as plt 

In [3]:
# import des données 
df = pd.read_csv("data/data.csv", encoding= 'unicode_escape')
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


## EDA

In [4]:
# nombre de lignes et de colonnes du df
df.shape

(541909, 8)

In [29]:
df.columns

Index(['InvoiceNo', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'UnitPrice', 'CustomerID', 'Country'],
      dtype='object')

In [7]:
# le type de données pour chaque colonne
df.dtypes

InvoiceNo       object
StockCode       object
Description     object
Quantity         int64
InvoiceDate     object
UnitPrice      float64
CustomerID     float64
Country         object
dtype: object

In [14]:
# nombre de duplicates
df.duplicated().sum()

5268

In [15]:
# drop les duplicates
df = df.drop_duplicates()
df.duplicated().sum()

0

In [16]:
# nombre de NaN pour chaque colonne
df.isnull().sum()

InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135037
Country             0
dtype: int64

### NaN

L'objectif ici est d'observer les NaN plus en détail pour essayer de voir si ces valeurs sont manquantes pour une raison particulière 

In [17]:
df.head(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


In [23]:
description_nan = df.loc[df["Description"].isnull()]
description_nan.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,12/1/2010 11:52,0.0,,United Kingdom
1970,536545,21134,,1,12/1/2010 14:32,0.0,,United Kingdom
1971,536546,22145,,1,12/1/2010 14:33,0.0,,United Kingdom
1972,536547,37509,,1,12/1/2010 14:33,0.0,,United Kingdom
1987,536549,85226A,,1,12/1/2010 14:34,0.0,,United Kingdom


In [24]:
description_nan.shape

(1454, 8)

In [25]:
customerid_nan = df.loc[df["CustomerID"].isnull()]
customerid_nan.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,12/1/2010 11:52,0.0,,United Kingdom
1443,536544,21773,DECORATIVE ROSE BATHROOM BOTTLE,1,12/1/2010 14:32,2.51,,United Kingdom
1444,536544,21774,DECORATIVE CATS BATHROOM BOTTLE,2,12/1/2010 14:32,2.51,,United Kingdom
1445,536544,21786,POLKADOT RAIN HAT,4,12/1/2010 14:32,0.85,,United Kingdom
1446,536544,21787,RAIN PONCHO RETROSPOT,2,12/1/2010 14:32,1.66,,United Kingdom


In [26]:
customerid_nan.shape

(135037, 8)