In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

Pré proc 

In [None]:
# 1. Chargement du fichier
df = pd.read_csv('../RAW_data/commandes.csv')

# 2. Aperçu des premières lignes
print("Aperçu du fichier :")
display(df.head())

# 3. Infos générales (types, NaNs...)
print("\nInfos sur les colonnes :")
display(df.info())

# 4. Suppression des doublons
df = df.drop_duplicates()

# 5. Affichage des valeurs manquantes par colonne
print("\nValeurs manquantes par colonne :")
display(df.isnull().sum())

# 6. Suppression ou remplissage des valeurs manquantes
# Exemple : on remplit les colonnes numériques avec la moyenne
for col in df.select_dtypes(include='number').columns:
    df[col].fillna(df[col].mean(), inplace=True)

# Exemple : on remplit les colonnes catégorielles avec la valeur la plus fréquente
for col in df.select_dtypes(include='object').columns:
    df[col].fillna(df[col].mode()[0], inplace=True)

# 7. Vérification du nettoyage
print("\nAperçu après nettoyage :")
display(df.head())



Aperçu du fichier :


Unnamed: 0,id_commande;date_commande;id_produit;quantite;entrepot;statut
0,O000001;22/07/2024;P00527;6;Marseille;Livre
1,O000002;18/02/2024;P00336;5;Lyon;Expedie
2,O000003;19/03/2024;P00084;6;Lyon;Annule
3,O000004;28/08/2024;P00887;8;Lyon;Livre
4,O000005;14/12/2024;P00778;1;Marseille;Annule



Infos sur les colonnes :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50000 entries, 0 to 49999
Data columns (total 1 columns):
 #   Column                                                         Non-Null Count  Dtype 
---  ------                                                         --------------  ----- 
 0   id_commande;date_commande;id_produit;quantite;entrepot;statut  50000 non-null  object
dtypes: object(1)
memory usage: 390.8+ KB


None


Valeurs manquantes par colonne :


id_commande;date_commande;id_produit;quantite;entrepot;statut    0
dtype: int64


Aperçu après nettoyage :


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].mode()[0], inplace=True)


Unnamed: 0,id_commande;date_commande;id_produit;quantite;entrepot;statut
0,O000001;22/07/2024;P00527;6;Marseille;Livre
1,O000002;18/02/2024;P00336;5;Lyon;Expedie
2,O000003;19/03/2024;P00084;6;Lyon;Annule
3,O000004;28/08/2024;P00887;8;Lyon;Livre
4,O000005;14/12/2024;P00778;1;Marseille;Annule


In [None]:

# Détection des valeurs aberrantes avec la méthode de l'IQR
outliers = {}

for col in df.select_dtypes(include='number').columns:
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR

    # On garde les lignes considérées comme aberrantes
    mask_outliers = (df[col] < lower_bound) | (df[col] > upper_bound)
    outliers_count = mask_outliers.sum()
    
    if outliers_count > 0:
        outliers[col] = df[mask_outliers]

# Affichage des résultats
if outliers:
    for col, data in outliers.items():
        print(f"\nValeurs aberrantes détectées dans la colonne '{col}' ({len(data)} valeurs) :")
        display(data[[col]])
else:
    print("✅ Aucune valeur aberrante détectée dans les colonnes numériques.")


✅ Aucune valeur aberrante détectée dans les colonnes numériques.


In [4]:
# Vérifie s'il y a des doublons (lignes identiques)
duplicated_rows = df[df.duplicated()]

# Affiche le nombre de doublons
print(f"Nombre de lignes dupliquées : {duplicated_rows.shape[0]}")

# Affiche les lignes dupliquées si elles existent
if not duplicated_rows.empty:
    print("Voici les doublons :")
    display(duplicated_rows)
else:
    print("✅ Aucun doublon détecté.")

Nombre de lignes dupliquées : 0
✅ Aucun doublon détecté.


In [5]:
# 1. Affiche les colonnes catégorielles (object ou category)
cat_cols = df.select_dtypes(include=['object', 'category']).columns
print("Colonnes catégorielles :")
print(list(cat_cols))

# 2. Affiche les valeurs uniques pour chaque colonne catégorielle
print("\nValeurs uniques par colonne catégorielle :")
for col in cat_cols:
    print(f"\n--- {col} ---")
    print(df[col].value_counts())
    print("-" * 30)

Colonnes catégorielles :
['id_commande;date_commande;id_produit;quantite;entrepot;statut']

Valeurs uniques par colonne catégorielle :

--- id_commande;date_commande;id_produit;quantite;entrepot;statut ---
id_commande;date_commande;id_produit;quantite;entrepot;statut
O049984;23/06/2024;P00247;5;Lyon;Expedie        1
O049983;23/03/2024;P00186;5;Lyon;Livre          1
O049982;17/05/2024;P00040;3;Lyon;Expedie        1
O049981;09/05/2024;P00312;7;Paris;Livre         1
O049980;22/07/2024;P00053;8;Paris;Annule        1
                                               ..
O000005;14/12/2024;P00778;1;Marseille;Annule    1
O000004;28/08/2024;P00887;8;Lyon;Livre          1
O000003;19/03/2024;P00084;6;Lyon;Annule         1
O000002;18/02/2024;P00336;5;Lyon;Expedie        1
O000001;22/07/2024;P00527;6;Marseille;Livre     1
Name: count, Length: 50000, dtype: int64
------------------------------


In [6]:


# Pour une belle mise en forme des graphiques
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 5)

# 1. Colonnes catégorielles
cat_cols = df.select_dtypes(include=['object', 'category']).columns
print("🎯 Colonnes catégorielles :", list(cat_cols))

# 2. Affichage des valeurs uniques et graphiques barres
for col in cat_cols:
    print(f"\n🔸 {col} - Top catégories")
    print(df[col].value_counts().head(10))
    

🎯 Colonnes catégorielles : ['id_commande;date_commande;id_produit;quantite;entrepot;statut']

🔸 id_commande;date_commande;id_produit;quantite;entrepot;statut - Top catégories
id_commande;date_commande;id_produit;quantite;entrepot;statut
O049984;23/06/2024;P00247;5;Lyon;Expedie     1
O049983;23/03/2024;P00186;5;Lyon;Livre       1
O049982;17/05/2024;P00040;3;Lyon;Expedie     1
O049981;09/05/2024;P00312;7;Paris;Livre      1
O049980;22/07/2024;P00053;8;Paris;Annule     1
O049979;23/03/2024;P00395;6;Paris;Livre      1
O049978;17/08/2024;P00266;2;Paris;Expedie    1
O049977;27/03/2024;P00770;9;Paris;Expedie    1
O049976;15/10/2024;P00911;1;Paris;Livre      1
O049975;13/02/2024;P00135;3;Lyon;Livre       1
Name: count, dtype: int64
