In [13]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [14]:
# 1. Chargement du fichier
df = pd.read_csv('../RAW_data/fournisseurs.csv')

# 2. Aperçu des premières lignes
print("Aperçu du fichier :")
display(df.head())

# 3. Infos générales (types, NaNs...)
print("\nInfos sur les colonnes :")
display(df.info())

# 4. Suppression des doublons
df = df.drop_duplicates()

# 5. Affichage des valeurs manquantes par colonne
print("\nValeurs manquantes par colonne :")
display(df.isnull().sum())

# 6. Suppression ou remplissage des valeurs manquantes
# Exemple : on remplit les colonnes numériques avec la moyenne
for col in df.select_dtypes(include='number').columns:
    df[col].fillna(df[col].mean(), inplace=True)

# Exemple : on remplit les colonnes catégorielles avec la valeur la plus fréquente
for col in df.select_dtypes(include='object').columns:
    df[col].fillna(df[col].mode()[0], inplace=True)

# 7. Vérification du nettoyage
print("\nAperçu après nettoyage :")
display(df.head())



Aperçu du fichier :


Unnamed: 0,id_fournisseur;nom_fournisseur;ville;pays;fiabilité;délai_moyen_jours
0,S001;Lecomte et Fils;Zurich;Suisse;0.84;10
1,S002;Morvan;Paris;France;0.86;9
2,S003;Germain et Fils;Amsterdam;Pays-Bas;0.85;10
3,S004;Philippe;Rome;Italie;0.57;9
4,S005;Blanc;Dublin;Irlande;0.65;13



Infos sur les colonnes :
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 1 columns):
 #   Column                                                                 Non-Null Count  Dtype 
---  ------                                                                 --------------  ----- 
 0   id_fournisseur;nom_fournisseur;ville;pays;fiabilité;délai_moyen_jours  50 non-null     object
dtypes: object(1)
memory usage: 528.0+ bytes


None


Valeurs manquantes par colonne :


id_fournisseur;nom_fournisseur;ville;pays;fiabilité;délai_moyen_jours    0
dtype: int64


Aperçu après nettoyage :


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(df[col].mode()[0], inplace=True)


Unnamed: 0,id_fournisseur;nom_fournisseur;ville;pays;fiabilité;délai_moyen_jours
0,S001;Lecomte et Fils;Zurich;Suisse;0.84;10
1,S002;Morvan;Paris;France;0.86;9
2,S003;Germain et Fils;Amsterdam;Pays-Bas;0.85;10
3,S004;Philippe;Rome;Italie;0.57;9
4,S005;Blanc;Dublin;Irlande;0.65;13


In [16]:
# Vérifie s'il y a des doublons (lignes identiques)
duplicated_rows = df[df.duplicated()]

# Affiche le nombre de doublons
print(f"Nombre de lignes dupliquées : {duplicated_rows.shape[0]}")

# Affiche les lignes dupliquées si elles existent
if not duplicated_rows.empty:
    print("Voici les doublons :")
    display(duplicated_rows)
else:
    print("✅ Aucun doublon détecté.")

Nombre de lignes dupliquées : 0
✅ Aucun doublon détecté.


In [17]:
# 1. Affiche les colonnes catégorielles (object ou category)
cat_cols = df.select_dtypes(include=['object', 'category']).columns
print("Colonnes catégorielles :")
print(list(cat_cols))

# 2. Affiche les valeurs uniques pour chaque colonne catégorielle
print("\nValeurs uniques par colonne catégorielle :")
for col in cat_cols:
    print(f"\n--- {col} ---")
    print(df[col].value_counts())
    print("-" * 30)

Colonnes catégorielles :
['id_fournisseur;nom_fournisseur;ville;pays;fiabilité;délai_moyen_jours']

Valeurs uniques par colonne catégorielle :

--- id_fournisseur;nom_fournisseur;ville;pays;fiabilité;délai_moyen_jours ---
id_fournisseur;nom_fournisseur;ville;pays;fiabilité;délai_moyen_jours
S001;Lecomte et Fils;Zurich;Suisse;0.84;10                1
S002;Morvan;Paris;France;0.86;9                           1
S003;Germain et Fils;Amsterdam;Pays-Bas;0.85;10           1
S004;Philippe;Rome;Italie;0.57;9                          1
S005;Blanc;Dublin;Irlande;0.65;13                         1
S006;Jean;Zurich;Suisse;0.68;8                            1
S007;Carlier;Prague;République tchèque;0.9;9              1
S008;Gaillard S.A.;Berlin;Allemagne;0.64;7                1
S009;Fischer;Lisbonne;Portugal;0.61;9                     1
S010;Pelletier;Paris;France;0.98;3                        1
S011;Leblanc;Rome;Italie;0.5;3                            1
S012;Lucas;Stockholm;Suède;1.0;11               

In [18]:
# Pour une belle mise en forme des graphiques
sns.set(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 5)

# 1. Colonnes catégorielles
cat_cols = df.select_dtypes(include=['object', 'category']).columns
print("🎯 Colonnes catégorielles :", list(cat_cols))

# 2. Affichage des valeurs uniques et graphiques barres
for col in cat_cols:
    print(f"\n🔸 {col} - Top catégories")
    print(df[col].value_counts().head(10))
    

🎯 Colonnes catégorielles : ['id_fournisseur;nom_fournisseur;ville;pays;fiabilité;délai_moyen_jours']

🔸 id_fournisseur;nom_fournisseur;ville;pays;fiabilité;délai_moyen_jours - Top catégories
id_fournisseur;nom_fournisseur;ville;pays;fiabilité;délai_moyen_jours
S001;Lecomte et Fils;Zurich;Suisse;0.84;10         1
S002;Morvan;Paris;France;0.86;9                    1
S003;Germain et Fils;Amsterdam;Pays-Bas;0.85;10    1
S004;Philippe;Rome;Italie;0.57;9                   1
S005;Blanc;Dublin;Irlande;0.65;13                  1
S006;Jean;Zurich;Suisse;0.68;8                     1
S007;Carlier;Prague;République tchèque;0.9;9       1
S008;Gaillard S.A.;Berlin;Allemagne;0.64;7         1
S009;Fischer;Lisbonne;Portugal;0.61;9              1
S010;Pelletier;Paris;France;0.98;3                 1
Name: count, dtype: int64
