# Compréhension initiale des données Camp Market

Ce carnet prépare l'analyse exploratoire de la base `Camp_Market.csv`. Avant tout nettoyage, l'objectif est de comprendre la structure du fichier, la signification des variables et l'ampleur des données disponibles.

## Aperçu du jeu de données

Le fichier contient les informations clients d'une campagne marketing, avec des indicateurs socio-démographiques et la trace des interactions commerciales. Les colonnes principales sont :

- `ID` : identifiant unique du client.
- `Year_Birth` : année de naissance.
- `Education`, `Marital_Status` : niveau d'étude et situation familiale.
- `Income` : revenu annuel déclaré.
- `Kidhome`, `Teenhome` : nombre d'enfants et d'adolescents au foyer.
- `Dt_Customer` : date d'inscription dans le programme de fidélité.
- `Recency` : nombre de jours depuis le dernier achat.
- `Mnt...` : montants dépensés par famille de produits (vin, fruits, etc.).
- `Num...Purchases` : volume d'achats par canal (web, catalogue, magasin).
- `AcceptedCmp...`, `Response` : participation aux campagnes marketing.
- `Complain` : indicateur de réclamation récente.

Les variables `Z_CostContact` et `Z_Revenue` sont constantes et servent de références internes au dossier marketing.

In [1]:
import pandas as pd
import numpy as np

# Configuration d'affichage
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 2)

file_path = 'Camp_Market.csv'


In [2]:
# Chargement des données avec le séparateur ';' fourni
df = pd.read_csv(file_path, sep=';')

df.head()


Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,MntSweetProducts,MntGoldProds,NumDealsPurchases,NumWebPurchases,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,2012-09-04,58,635,88,546,172,88,88,3,8,10,4,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,2014-03-08,38,11,1,6,2,1,6,2,1,1,2,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,2013-08-21,26,426,49,127,111,21,42,1,8,2,10,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,2014-02-10,26,11,4,20,10,3,5,2,2,0,4,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,2014-01-19,94,173,43,118,46,27,15,5,5,3,6,5,0,0,0,0,0,0,3,11,0


In [3]:
# Dimensions globales et types de données
row_count, col_count = df.shape
print(f'Nombre de lignes : {row_count}')
print(f'Nombre de colonnes : {col_count}')

dtypes = df.dtypes.to_frame('dtype')
dtypes


Nombre de lignes : 2240
Nombre de colonnes : 29


Unnamed: 0,dtype
ID,int64
Year_Birth,int64
Education,object
Marital_Status,object
Income,float64
Kidhome,int64
Teenhome,int64
Dt_Customer,object
Recency,int64
MntWines,int64


In [4]:
# Statistiques descriptives pour les variables numériques
df.describe().T


Unnamed: 0,count,mean,std,min,25%,50%,75%,max
ID,2240.0,5590.0,3246.66,0.0,2828.25,5458.5,8427.75,11191.0
Year_Birth,2240.0,1970.0,11.98,1893.0,1959.0,1970.0,1977.0,1996.0
Income,2216.0,52200.0,25173.08,1730.0,35303.0,51381.5,68522.0,666666.0
Kidhome,2240.0,0.444,0.54,0.0,0.0,0.0,1.0,2.0
Teenhome,2240.0,0.506,0.54,0.0,0.0,0.0,1.0,2.0
Recency,2240.0,49.1,28.96,0.0,24.0,49.0,74.0,99.0
MntWines,2240.0,304.0,336.6,0.0,23.75,173.5,504.25,1493.0
MntFruits,2240.0,26.3,39.77,0.0,1.0,8.0,33.0,199.0
MntMeatProducts,2240.0,167.0,225.72,0.0,16.0,67.0,232.0,1725.0
MntFishProducts,2240.0,37.5,54.63,0.0,3.0,12.0,50.0,259.0


In [5]:
# Statistiques descriptives pour les variables catégorielles
categorical_summary = (
    df.select_dtypes(include='object')
      .nunique()
      .to_frame(name='modalites_uniques')
)
categorical_summary


Unnamed: 0,modalites_uniques
Education,5
Marital_Status,8
Dt_Customer,663


In [6]:
# Répartition des principales catégories
for column in ['Education', 'Marital_Status', 'Response']:
    print(f"\nRépartition pour {column} :")
    print(df[column].value_counts(dropna=False))



Répartition pour Education :
Education
Graduation    1127
PhD            486
Master         370
2n Cycle       203
Basic           54
Name: count, dtype: int64

Répartition pour Marital_Status :
Marital_Status
Married     864
Together    580
Single      480
Divorced    232
Widow        77
Alone         3
Absurd        2
YOLO          2
Name: count, dtype: int64

Répartition pour Response :
Response
0    1906
1     334
Name: count, dtype: int64


In [7]:
# Vérification rapide des valeurs manquantes
missing = df.isna().sum()
missing[missing > 0].sort_values(ascending=False)


Income    24
dtype: int64

## Points clés à retenir avant le nettoyage

- Le carnet précédent résume le volume de données et le type de chaque variable.
- Les montants dépensés (`Mnt...`) et les canaux d'achat (`Num...Purchases`) offrent un premier aperçu du comportement client.
- Les distributions des variables catégorielles permettront de repérer des modalités rares ou dominantes avant l'EDA.
- La dernière cellule liste les colonnes susceptibles de contenir des valeurs manquantes.