# Analyse et nettoyage du jeu de données 

### Chargement du fichier excel et transformation de chaque feuille en csv

In [26]:
import pandas as pd

# Chemin vers le fichier Excel d'entrée
excel_file_path = 'online_retail_II.xlsx'

# Charger le fichier Excel en utilisant pandas
xls = pd.ExcelFile(excel_file_path)

# Parcourir chaque feuille de calcul du fichier Excel
for sheet_name in xls.sheet_names:
    # Charger la feuille de calcul en tant que dataframe
    data_frame = xls.parse(sheet_name)
    
    # Chemin vers le fichier CSV de sortie
    csv_file_path = f'online_retail{sheet_name}.csv'
    
    # Convertir le dataframe en fichier CSV
    data_frame.to_csv(csv_file_path, index=False, encoding='utf-8')
    
print('Conversion terminée.')


KeyboardInterrupt: 

### Concaténation des deux feuilles en un fichier csv

In [None]:
import pandas as pd

# Chemin vers le premier fichier CSV
csv_file1 = 'online_retailYear 2009-2010.csv'

# Chemin vers le deuxième fichier CSV
csv_file2 = 'online_retailYear 2010-2011.csv'

# Charger les deux fichiers CSV en utilisant pandas
data_frame1 = pd.read_csv(csv_file1)
data_frame2 = pd.read_csv(csv_file2)

# Concaténer les deux dataframes
concatenated_data = pd.concat([data_frame1, data_frame2])

# Chemin vers le fichier CSV de sortie
output_csv = 'online_retail.csv'

# Enregistrer le dataframe concaténé en tant que fichier CSV
concatenated_data.to_csv(output_csv, index=False)

print('Concaténation terminée.')


Concaténation terminée.


## Nettoyage des données

In [66]:
df_ukretail = pd.read_csv('online_retail.csv')

In [67]:
df_ukretail.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1067371 entries, 0 to 1067370
Data columns (total 8 columns):
 #   Column       Non-Null Count    Dtype  
---  ------       --------------    -----  
 0   Invoice      1067371 non-null  object 
 1   StockCode    1067371 non-null  object 
 2   Description  1062989 non-null  object 
 3   Quantity     1067371 non-null  int64  
 4   InvoiceDate  1067371 non-null  object 
 5   Price        1067371 non-null  float64
 6   Customer ID  824364 non-null   float64
 7   Country      1067371 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 65.1+ MB


In [68]:
df_ukretail.shape

(1067371, 8)

In [69]:
df_ukretail.head(10)

Unnamed: 0,Invoice,StockCode,Description,Quantity,InvoiceDate,Price,Customer ID,Country
0,489434,85048,15CM CHRISTMAS GLASS BALL 20 LIGHTS,12,2009-12-01 07:45:00,6.95,13085.0,United Kingdom
1,489434,79323P,PINK CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085.0,United Kingdom
2,489434,79323W,WHITE CHERRY LIGHTS,12,2009-12-01 07:45:00,6.75,13085.0,United Kingdom
3,489434,22041,"RECORD FRAME 7"" SINGLE SIZE",48,2009-12-01 07:45:00,2.1,13085.0,United Kingdom
4,489434,21232,STRAWBERRY CERAMIC TRINKET BOX,24,2009-12-01 07:45:00,1.25,13085.0,United Kingdom
5,489434,22064,PINK DOUGHNUT TRINKET POT,24,2009-12-01 07:45:00,1.65,13085.0,United Kingdom
6,489434,21871,SAVE THE PLANET MUG,24,2009-12-01 07:45:00,1.25,13085.0,United Kingdom
7,489434,21523,FANCY FONT HOME SWEET HOME DOORMAT,10,2009-12-01 07:45:00,5.95,13085.0,United Kingdom
8,489435,22350,CAT BOWL,12,2009-12-01 07:46:00,2.55,13085.0,United Kingdom
9,489435,22349,"DOG BOWL , CHASING BALL DESIGN",12,2009-12-01 07:46:00,3.75,13085.0,United Kingdom


### Identifier les valeurs manquantes

In [70]:
nan_count = df_ukretail.isna().sum()
print(nan_count.sort_values)

<bound method Series.sort_values of Invoice             0
StockCode           0
Description      4382
Quantity            0
InvoiceDate         0
Price               0
Customer ID    243007
Country             0
dtype: int64>


Garde-t-on les lignes où le client n'est pas identifié ? Sachant qu'on cherche à classifier les clients. Nous faisons le choix de les supprimer.

In [71]:
df_ukretail = df_ukretail.dropna(subset=['Customer ID'])

### Identifier les doublons

Il existe des lignes identiques, mais on ne sait pas si ce sont réellement des doublons ou si cela peut s'expliquer par d'autres informations dont on ne dispose pas. Nous choisissons donc je garder les lignes.

### Conversion des types

In [72]:
df_ukretail['Customer ID'] = df_ukretail['Customer ID'].astype('str')

### Consistance des données

In [73]:
df_ukretail.describe()

Unnamed: 0,Quantity,Price
count,824364.0,824364.0
mean,12.414574,3.6768
std,188.976099,70.241388
min,-80995.0,0.0
25%,2.0,1.25
50%,5.0,1.95
75%,12.0,3.75
max,80995.0,38970.0


In [74]:
df_ukretail = df_ukretail[df_ukretail['Quantity']> 0]
df_ukretail = df_ukretail[df_ukretail['Price']> 0]

In [75]:
df_ukretail.describe()

Unnamed: 0,Quantity,Price
count,805549.0,805549.0
mean,13.290522,3.206561
std,143.634088,29.199173
min,1.0,0.001
25%,2.0,1.25
50%,5.0,1.95
75%,12.0,3.75
max,80995.0,10953.5


In [76]:
nan_count = df_ukretail.isna().sum()
print(nan_count.sort_values)

<bound method Series.sort_values of Invoice        0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
Price          0
Customer ID    0
Country        0
dtype: int64>


Nous supprimons les lignes où le stockcode est composé uniquement de lettres pour ne pas prendre en compte tout ce qui concerne les frais de port, qui ne donnent pas de renseignements sur le client.

In [82]:
# Appliquer le filtrage sur la colonne "stock code"
df_ukretail = df_ukretail[~df_ukretail['StockCode'].str.match(r'^[A-Za-z]')]

In [83]:
df_ukretail.describe()

Unnamed: 0,Quantity,Price
count,802632.0,802632.0
mean,13.319211,2.930763
std,143.868968,4.275915
min,1.0,0.03
25%,2.0,1.25
50%,5.0,1.95
75%,12.0,3.75
max,80995.0,649.5


### Feature engineering

On peut ajouter une colonne qui nous donne le prix unitaire multiplié par la quantité.

In [84]:
df_ukretail['total'] = df_ukretail['Quantity']*df_ukretail['Price']

### Group by

In [86]:
df_gp_invoice = df_ukretail.groupby('Invoice').sum()

  df_gp_invoice = df_ukretail.groupby('Invoice').sum()


In [89]:
df_gp_customer = df_ukretail.groupby('Customer ID').sum().drop('Price',axis=1)

  df_gp_customer = df_ukretail.groupby('Customer ID').sum().drop('Price',axis=1)


In [94]:
df_rfm = df_ukretail.groupby('Customer ID').agg({'Invoice': 'nunique', 'InvoiceDate': 'max', 'total':'sum'})
