# Compréhension initiale des données Camp Market

Ce carnet prépare l'analyse exploratoire de la base `Camp_Market.csv`. Avant tout nettoyage, l'objectif est de comprendre la structure du fichier, la signification des variables et l'ampleur des données disponibles.

## Aperçu du jeu de données

Le fichier contient les informations clients d'une campagne marketing, avec des indicateurs socio-démographiques et la trace des interactions commerciales. Les colonnes principales sont :

- `ID` : identifiant unique du client.
- `Year_Birth` : année de naissance.
- `Education`, `Marital_Status` : niveau d'étude et situation familiale.
- `Income` : revenu annuel déclaré.
- `Kidhome`, `Teenhome` : nombre d'enfants et d'adolescents au foyer.
- `Dt_Customer` : date d'inscription dans le programme de fidélité.
- `Recency` : nombre de jours depuis le dernier achat.
- `Mnt...` : montants dépensés par famille de produits (vin, fruits, etc.).
- `Num...Purchases` : volume d'achats par canal (web, catalogue, magasin).
- `AcceptedCmp...`, `Response` : participation aux campagnes marketing.
- `Complain` : indicateur de réclamation récente.

Les variables `Z_CostContact` et `Z_Revenue` sont constantes et servent de références internes au dossier marketing.

In [None]:
import pandas as pd
import numpy as np

# Configuration d'affichage
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 2)

file_path = 'Camp_Market.csv'


In [None]:
# Chargement des données avec le séparateur ';' fourni
df = pd.read_csv(file_path, sep=';')

df.head()


In [None]:
# Dimensions globales et types de données
row_count, col_count = df.shape
print(f'Nombre de lignes : {row_count}')
print(f'Nombre de colonnes : {col_count}')

dtypes = df.dtypes.to_frame('dtype')
dtypes


In [None]:
# Statistiques descriptives pour les variables numériques
df.describe().T


In [None]:
# Statistiques descriptives pour les variables catégorielles
categorical_summary = (
    df.select_dtypes(include='object')
      .nunique()
      .to_frame(name='modalites_uniques')
)
categorical_summary


In [None]:
# Répartition des principales catégories
for column in ['Education', 'Marital_Status', 'Response']:
    print(f"\nRépartition pour {column} :")
    print(df[column].value_counts(dropna=False))


In [None]:
# Vérification rapide des valeurs manquantes
missing = df.isna().sum()
missing[missing > 0].sort_values(ascending=False)


## Points clés à retenir avant le nettoyage

- Le carnet précédent résume le volume de données et le type de chaque variable.
- Les montants dépensés (`Mnt...`) et les canaux d'achat (`Num...Purchases`) offrent un premier aperçu du comportement client.
- Les distributions des variables catégorielles permettront de repérer des modalités rares ou dominantes avant l'EDA.
- La dernière cellule liste les colonnes susceptibles de contenir des valeurs manquantes.