# Nettoyage des données Camp_Market

Ce notebook présente les étapes de nettoyage du fichier Camp_Market.csv.


In [1]:

import pandas as pd

df = pd.read_csv('Camp_Market.csv', sep=';')
df.head()


Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,2012-09-04,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,2014-03-08,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,2013-08-21,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,2014-02-10,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,2014-01-19,94,173,...,5,0,0,0,0,0,0,3,11,0


In [2]:

df['Dt_Customer'] = pd.to_datetime(df['Dt_Customer'], errors='coerce')

num_cols = ['Year_Birth', 'Income', 'Kidhome', 'Teenhome', 'Recency', 'MntWines', 'MntFruits',
            'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts', 'MntGoldProds', 'NumDealsPurchases',
            'NumWebPurchases', 'NumCatalogPurchases', 'NumStorePurchases', 'NumWebVisitsMonth', 'AcceptedCmp3',
            'AcceptedCmp4', 'AcceptedCmp5', 'AcceptedCmp1', 'AcceptedCmp2', 'Complain', 'Z_CostContact', 'Z_Revenue', 'Response']

for c in num_cols:
    df[c] = pd.to_numeric(df[c], errors='coerce')

cat_cols = ['Education', 'Marital_Status']
for c in cat_cols:
    df[c] = df[c].astype('category')

print(df.dtypes)


ID                              int64
Year_Birth                      int64
Education                    category
Marital_Status               category
Income                        float64
Kidhome                         int64
Teenhome                        int64
Dt_Customer            datetime64[ns]
Recency                         int64
MntWines                        int64
MntFruits                       int64
MntMeatProducts                 int64
MntFishProducts                 int64
MntSweetProducts                int64
MntGoldProds                    int64
NumDealsPurchases               int64
NumWebPurchases                 int64
NumCatalogPurchases             int64
NumStorePurchases               int64
NumWebVisitsMonth               int64
AcceptedCmp3                    int64
AcceptedCmp4                    int64
AcceptedCmp5                    int64
AcceptedCmp1                    int64
AcceptedCmp2                    int64
Complain                        int64
Z_CostContac

In [3]:

ndf = df.drop_duplicates()

print('Valeurs manquantes par colonne :')
print(ndf.isna().sum())

ndf.head()


Valeurs manquantes par colonne :
ID                      0
Year_Birth              0
Education               0
Marital_Status          0
Income                 24
Kidhome                 0
Teenhome                0
Dt_Customer             0
Recency                 0
MntWines                0
MntFruits               0
MntMeatProducts         0
MntFishProducts         0
MntSweetProducts        0
MntGoldProds            0
NumDealsPurchases       0
NumWebPurchases         0
NumCatalogPurchases     0
NumStorePurchases       0
NumWebVisitsMonth       0
AcceptedCmp3            0
AcceptedCmp4            0
AcceptedCmp5            0
AcceptedCmp1            0
AcceptedCmp2            0
Complain                0
Z_CostContact           0
Z_Revenue               0
Response                0
dtype: int64


Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,2012-09-04,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,2014-03-08,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,2013-08-21,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,2014-02-10,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,2014-01-19,94,173,...,5,0,0,0,0,0,0,3,11,0


In [4]:
ndf.to_csv('Camp_Market_cleaned.csv', index=False)

# Explications du nettoyage des données

Dans ce notebook, nous avons réalisé plusieurs étapes de nettoyage et de préparation des données afin de garantir la qualité et la fiabilité de l'analyse ultérieure :

- **Chargement des données** : Lecture du fichier CSV avec délimiteur adapté.
- **Suppression des doublons** : Retrait des lignes identiques pour éviter les biais.
- **Gestion des valeurs manquantes** : Suppression des enregistrements contenant des données absentes, pour éviter les erreurs d’analyse.
- **Conversion des types de données** : 
  - Dates converties au format datetime pour pouvoir manipuler des dates correctement.
  - Colonnes numériques converties en types numériques pour effectuer des calculs précis.
  - Colonnes catégorielles converties en type 'category' pour une meilleure gestion mémoire et performance.
- **Sauvegarde des données propres** : Export des données nettoyées dans un nouveau fichier CSV pour utilisation future.

Ces étapes sont essentielles car elles permettent d’assurer l’intégrité des données, faciliter leur manipulation, et préparer le dataset pour des analyses statistiques ou de machine learning plus robustes.
