In [1]:
import pandas as pd
import numpy as np

In [3]:
# Charger le fichier CSV
df = pd.read_csv('fournisseurs.csv', sep=';', header=None, skiprows=1, names=['id_fournisseur', 'nom_fournisseur', 'ville', 'pays', 'fiabilité', 'délai_moyen_jours'])

In [4]:
print(df.head())

  id_fournisseur  nom_fournisseur      ville      pays  fiabilité  \
0           S001  Lecomte et Fils     Zurich    Suisse       0.84   
1           S002           Morvan      Paris    France       0.86   
2           S003  Germain et Fils  Amsterdam  Pays-Bas       0.85   
3           S004         Philippe       Rome    Italie       0.57   
4           S005            Blanc     Dublin   Irlande       0.65   

   délai_moyen_jours  
0                 10  
1                  9  
2                 10  
3                  9  
4                 13  


In [5]:
print(df.head())

  id_fournisseur  nom_fournisseur      ville      pays  fiabilité  \
0           S001  Lecomte et Fils     Zurich    Suisse       0.84   
1           S002           Morvan      Paris    France       0.86   
2           S003  Germain et Fils  Amsterdam  Pays-Bas       0.85   
3           S004         Philippe       Rome    Italie       0.57   
4           S005            Blanc     Dublin   Irlande       0.65   

   délai_moyen_jours  
0                 10  
1                  9  
2                 10  
3                  9  
4                 13  


In [7]:
# Vérifier les valeurs manquantes
print(df.isnull().sum())

# Remplir les valeurs manquantes par des valeurs par défaut ou supprimer les lignes
# Exemple: Remplir les valeurs manquantes de 'fiabilité' par la moyenne
df['fiabilité'] = df['fiabilité'].fillna(df['fiabilité'].mean())

# Exemple: Supprimer les lignes où 'délai_moyen_jours' est manquant
df = df.dropna(subset=['délai_moyen_jours'])

id_fournisseur       0
nom_fournisseur      0
ville                0
pays                 0
fiabilité            0
délai_moyen_jours    0
dtype: int64


In [9]:
# Vérifier et supprimer les doublons
print(df.duplicated().sum())
df.drop_duplicates(inplace=True)

0


In [10]:
# Exemple: Détection et gestion des valeurs aberrantes pour 'fiabilité'
Q1 = df['fiabilité'].quantile(0.25)
Q3 = df['fiabilité'].quantile(0.75)
IQR = Q3 - Q1

# Définir les bornes pour les valeurs aberrantes
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filtrer les valeurs aberrantes
df = df[(df['fiabilité'] >= lower_bound) & (df['fiabilité'] <= upper_bound)]

In [12]:
# Normaliser les formats des colonnes (par exemple, les noms de villes en minuscules)
df['ville'] = df['ville'].str.lower()
df['pays'] = df['pays'].str.lower()

# Convertir les colonnes numériques en type approprié
df['fiabilité'] = pd.to_numeric(df['fiabilité'], errors='coerce')
df['délai_moyen_jours'] = pd.to_numeric(df['délai_moyen_jours'], errors='coerce')

In [13]:
# Afficher les premières lignes pour vérifier les changements
print(df.head())

# Vérifier les types des colonnes
print(df.dtypes)

  id_fournisseur  nom_fournisseur      ville      pays  fiabilité  \
0           S001  Lecomte et Fils     zurich    suisse       0.84   
1           S002           Morvan      paris    france       0.86   
2           S003  Germain et Fils  amsterdam  pays-bas       0.85   
3           S004         Philippe       rome    italie       0.57   
4           S005            Blanc     dublin   irlande       0.65   

   délai_moyen_jours  
0                 10  
1                  9  
2                 10  
3                  9  
4                 13  
id_fournisseur        object
nom_fournisseur       object
ville                 object
pays                  object
fiabilité            float64
délai_moyen_jours      int64
dtype: object


In [14]:
# Enregistrer le DataFrame nettoyé dans un nouveau fichier CSV
df.to_csv('fournisseurs_nettoyés.csv', index=False, sep=';')