## Exploration des données - Online Retail

Le but de ce notebook est de faire une première exploration des données que l'on a afin de mieux comprendre comment elles s'organisent et ainsi pouvoir en faire par la suite un nettoyage et une analyse plus approfondie.

Ici on importe les différents packages qui nous seront nécessaires.

In [4]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

Import du fichier csv contenant nos données et premières commandes afin de faire nos premières observations.

In [None]:
df = pd.read_csv('../data/online_retail.csv')
df.head()
df.info()
df.describe()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067371 entries, 0 to 1067370
Data columns (total 8 columns):
 #   Column       Non-Null Count    Dtype  
---  ------       --------------    -----  
 0   Invoice      1067371 non-null  object 
 1   StockCode    1067371 non-null  object 
 2   Description  1062989 non-null  object 
 3   Quantity     1067371 non-null  int64  
 4   InvoiceDate  1067371 non-null  object 
 5   Price        1067371 non-null  float64
 6   Customer ID  824364 non-null   float64
 7   Country      1067371 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 65.1+ MB


Unnamed: 0,Quantity,Price,Customer ID
count,1067371.0,1067371.0,824364.0
mean,9.938898,4.649388,15324.638504
std,172.7058,123.5531,1697.46445
min,-80995.0,-53594.36,12346.0
25%,1.0,1.25,13975.0
50%,3.0,2.1,15255.0
75%,10.0,4.15,16797.0
max,80995.0,38970.0,18287.0


## Structure du DataFrame

Nombre de lignes : 1067371
Nombre de colonnes : 8
Type de données contenues dans le DataFrame: Object / integer / float

D'un premier coup d'oeil on peut observer qu'il semble y avoir des données manquantes notamment dans la colonne Customer ID ce qui nécessitera un travail de nettoyage.

## Premières observations

Maintenant que l'on a une première vision de comment est structuré notre DataFrame, nous cherchons à récupérer quelques premières informations clés. 

Nombre de transactions

In [9]:
df['Invoice'].nunique()

53628

Nombre de clients uniques

In [10]:
df['Customer ID'].nunique()

5942

Nombre de produits

In [11]:
df['StockCode'].nunique()

5305

Nombre de ventes selon les pays

In [12]:
df['Country'].value_counts().head(10)

Country
United Kingdom    981330
EIRE               17866
Germany            17624
France             14330
Netherlands         5140
Spain               3811
Switzerland         3189
Belgium             3123
Portugal            2620
Australia           1913
Name: count, dtype: int64

On observe que le Royaume-Uni est largement en tête des pays qui a le plus de transactions

On affiche quelles sont les différentes colonnes de notre DataFrame.

In [13]:
df.columns

Index(['Invoice', 'StockCode', 'Description', 'Quantity', 'InvoiceDate',
       'Price', 'Customer ID', 'Country'],
      dtype='object')

## Conclusion de l'exploration

Les données contiennent plus d’un million de lignes et couvrent plusieurs pays, avec une forte concentration des transactions au Royaume-Uni.
Cette exploration met également en évidence la nécessité d'un nettoyage des données (valeurs manquantes, clients inconnus) avant toute analyse approfondie.
