In [5]:
# Exercice 1 : Charger le dataset et explorer les premières données
import pandas as pd
# Charger le dataset depuis un fichier CSV ou Excel
df = pd.read_excel('Dataset.xlsx')  
# Afficher les 5 premières lignes
print(df.head()) 
# Afficher les 5 dernières lignes
print(df.tail())
# Afficher les informations générales sur le DataFrame
print(df.info())
# Résumé statistique des colonnes numériques 
print(df.describe())

  Invoice StockCode                          Description  Quantity  \
0  489434     85048  15CM CHRISTMAS GLASS BALL 20 LIGHTS        12   
1  489434    79323P                   PINK CHERRY LIGHTS        12   
2  489434    79323W                  WHITE CHERRY LIGHTS        12   
3  489434     22041         RECORD FRAME 7" SINGLE SIZE         48   
4  489434     21232       STRAWBERRY CERAMIC TRINKET BOX        24   

          InvoiceDate  Price  CustomerID         Country  
0 2009-12-01 07:45:00   6.95     13085.0  United Kingdom  
1 2009-12-01 07:45:00   6.75     13085.0  United Kingdom  
2 2009-12-01 07:45:00   6.75     13085.0  United Kingdom  
3 2009-12-01 07:45:00   2.10     13085.0  United Kingdom  
4 2009-12-01 07:45:00   1.25     13085.0  United Kingdom  
       Invoice StockCode                     Description  Quantity  \
567937  539991     21618  4 WILDFLOWER BOTANICAL CANDLES         1   
567938  539991     72741           GRAND CHOCOLATECANDLE         4   
567939  539992 

In [24]:
# Exercice 2 : Identifier et traiter les valeurs manquantes
import pandas as pd
df = pd.read_excel('Dataset.xlsx')  
# Vérifier les valeurs manquantes dans chaque colonne
print(df.isna().sum())
# Remplacer les valeurs manquantes de CustomerID par 0 
df['CustomerID'] = df['CustomerID'].fillna(0)
# Supprimer les lignes avec des valeurs manquantes dans Description
df.dropna(subset=['Description'], inplace=True)
# Vérifier si les valeurs manquantes ont été traitées 
print(df.isna().sum())

Invoice             0
StockCode           0
Description      3053
Quantity            0
InvoiceDate         0
Price               0
CustomerID     123558
Country             0
dtype: int64
Invoice        0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
Price          0
CustomerID     0
Country        0
dtype: int64


In [10]:
# Exercice 3 : Gérer les données incohérentes
# Vérifier les valeurs négatives dans Quantity
neg_quantity = df[df['Quantity'] < 0] 
print(neg_quantity) 
# Remplacer les valeurs négatives de Quantity par 0 
df['Quantity'] = df['Quantity'].apply(lambda x: 0 if x < 0 else x)
# Vérifier les valeurs aberrantes dans Price (ex: Prix inférieur à 0) 
outliers = df[df['Price'] <= 0] 
print(outliers)
# Supprimer les lignes où Price est inférieur ou égal à 0 
df = df[df['Price'] > 0]

        Invoice StockCode                         Description  Quantity  \
178     C489449     22087            PAPER BUNTING WHITE LACE       -12   
179     C489449    85206A        CREAM FELT EASTER EGG BASKET        -6   
180     C489449     21895       POTTING SHED SOW 'N' GROW SET        -4   
181     C489449     21896                  POTTING SHED TWINE        -6   
182     C489449     22083          PAPER CHAIN KIT RETRO SPOT       -12   
...         ...       ...                                 ...       ...   
567083  C539950    85099C      JUMBO  BAG BAROQUE BLACK WHITE        -1   
567084  C539950    85099B             JUMBO BAG RED RETROSPOT       -10   
567085  C539950     22720   SET OF 3 CAKE TINS PANTRY DESIGN         -2   
567157  C539956    35004C     SET OF 3 COLOURED  FLYING DUCKS       -15   
567792  C539983     82483  WOOD 2 DRAWER CABINET WHITE FINISH        -6   

               InvoiceDate  Price  CustomerID         Country  
178    2009-12-01 10:33:00   2.95  

In [25]:
# Exercice 4 : Transformer les colonnes et formater les données
# Convertir CustomerID en int64 
df['CustomerID'] = df['CustomerID'].astype('int64')
# Extraire l'année de InvoiceDate et créer une nouvelle colonne Year
df['Year'] = pd.DatetimeIndex(df['InvoiceDate']).year
# Normaliser les données de Price en les divisant par 100
df['Price'] = df['Price'] / 100
# Vérifier le résultat
print(df[['InvoiceDate', 'Year', 'Price']].head())


          InvoiceDate  Year   Price
0 2009-12-01 07:45:00  2009  0.0695
1 2009-12-01 07:45:00  2009  0.0675
2 2009-12-01 07:45:00  2009  0.0675
3 2009-12-01 07:45:00  2009  0.0210
4 2009-12-01 07:45:00  2009  0.0125


In [28]:
# Exercice 5 : Créer des sous-ensembles de données
# Sous-ensemble des transactions provenant du United Kingdom 
df_uk = df[df['Country'] == 'United Kingdom']
print(df_uk.head())
# Sous-ensemble où Quantity > 10 et Price > 2 
df_filtered = df[(df['Quantity'] > 10) & (df['Price'] > 2)]
print(df_filtered.head())
# Sous-ensemble avec CustomerID valide 
df_valid_customers = df[df['CustomerID'] != 0] 
print(df_valid_customers.head())

  Invoice StockCode                          Description  Quantity  \
0  489434     85048  15CM CHRISTMAS GLASS BALL 20 LIGHTS        12   
1  489434    79323P                   PINK CHERRY LIGHTS        12   
2  489434    79323W                  WHITE CHERRY LIGHTS        12   
3  489434     22041         RECORD FRAME 7" SINGLE SIZE         48   
4  489434     21232       STRAWBERRY CERAMIC TRINKET BOX        24   

          InvoiceDate   Price  CustomerID         Country  Year  
0 2009-12-01 07:45:00  0.0695       13085  United Kingdom  2009  
1 2009-12-01 07:45:00  0.0675       13085  United Kingdom  2009  
2 2009-12-01 07:45:00  0.0675       13085  United Kingdom  2009  
3 2009-12-01 07:45:00  0.0210       13085  United Kingdom  2009  
4 2009-12-01 07:45:00  0.0125       13085  United Kingdom  2009  
Empty DataFrame
Columns: [Invoice, StockCode, Description, Quantity, InvoiceDate, Price, CustomerID, Country, Year]
Index: []
  Invoice StockCode                          Description 

In [30]:
# Exercice 6 : Détection des doublons et nettoyage
# Vérifier les doublons 
doublons = df.duplicated() 
print(f"Nombre de doublons : {doublons.sum()}")
# Supprimer les doublons
df_cleaned = df.drop_duplicates()
# Vérifier que les doublons ont été supprimés 
print(f"Nombre de lignes après suppression des doublons : {df_cleaned.shape[0]}")

Nombre de doublons : 29460
Nombre de lignes après suppression des doublons : 535429


In [None]:
# Exercice 7 : Détection et traitement des données nulles
# Charger le dataset (assumer que df contient déjà le DataFrame)
df = pd.read_excel('Dataset.xlsx')  

# 1. Identifier les colonnes contenant des valeurs nulles 
valeurs_nulles = df.isnull().sum() 
print("Nombre de valeurs nulles par colonne :") 
print(valeurs_nulles)

# 2. Calculer le pourcentage de valeurs manquantes pour chaque colonne
pourcentage_null = (df.isnull().sum() / df.shape[0]) * 100 
print("\nPourcentage de valeurs manquantes par colonne :")
print(pourcentage_null)

# 3. Remplacer les valeurs nulles de CustomerID par 0
df['CustomerID'] = df['CustomerID'].fillna(0)

# 4. Remplacer les valeurs nulles dans Description par "No Description"
df['Description'] = df['Description'].fillna('No Description')

# 5. Supprimer les lignes où plus de 2 colonnes contiennent des valeurs nulles 
df_cleaned = df.dropna(thresh=df.shape[1] - 2)

# Vérification après traitement 
print("\nValeurs nulles après traitement :") 
print(df_cleaned.isnull().sum())

# Sauvegarder le DataFrame nettoyé dans un nouveau fichier CSV 
df_cleaned.to_csv('dataset_cleaned.csv', index=False) 
print("Le fichier dataset_cleaned.csv a été enregistré avec succès.")


In [35]:
# Exercice 8 : Sauvegarder le DataFrame nettoyé
# Sauvegarder le DataFrame nettoyé dans un fichier CSV 
df_cleaned.to_csv('dataset_cleaned.csv', index=False)
# Vérifier que le fichier a été créé 
print("Le fichier dataset_cleaned.csv a été enregistré avec succès.")

Le fichier dataset_cleaned.csv a été enregistré avec succès.
