In [68]:
import pandas as pd
import numpy as np
import prince

import matplotlib.pyplot as plt
import seaborn as sns

📊 Contenu
🔹 Attributs des données
👤 Clients

    ID : Identifiant unique du client
    Year_Birth : Année de naissance du client
    Education : Niveau d’éducation
    Marital_Status : État matrimonial
    Income : Revenu annuel du ménage
    Kidhome : Nombre d’enfants dans le foyer
    Teenhome : Nombre d’adolescents dans le foyer
    Dt_Customer : Date d’adhésion du client à l’entreprise
    Recency : Nombre de jours depuis le dernier achat
    Complain : 1 si le client a fait une réclamation dans les 2 dernières années, 0 sinon

🛒 Produits

    MntWines : Dépenses en vin sur les 2 dernières années
    MntFruits : Dépenses en fruits sur les 2 dernières années
    MntMeatProducts : Dépenses en viande sur les 2 dernières années
    MntFishProducts : Dépenses en poisson sur les 2 dernières années
    MntSweetProducts : Dépenses en sucreries sur les 2 dernières années
    MntGoldProds : Dépenses en or sur les 2 dernières années

📢 Promotions

    NumDealsPurchases : Nombre d’achats réalisés avec une réduction
    AcceptedCmp1 : 1 si le client a accepté l’offre de la 1ʳᵉ campagne, 0 sinon
    AcceptedCmp2 : 1 si le client a accepté l’offre de la 2ᵉ campagne, 0 sinon
    AcceptedCmp3 : 1 si le client a accepté l’offre de la 3ᵉ campagne, 0 sinon
    AcceptedCmp4 : 1 si le client a accepté l’offre de la 4ᵉ campagne, 0 sinon
    AcceptedCmp5 : 1 si le client a accepté l’offre de la 5ᵉ campagne, 0 sinon
    Response : 1 si le client a accepté l’offre de la dernière campagne, 0 sinon

📍 Canaux d'achat

    NumWebPurchases : Nombre d’achats effectués sur le site web
    NumCatalogPurchases : Nombre d’achats réalisés via un catalogue
    NumStorePurchases : Nombre d’achats effectués en magasin
    NumWebVisitsMonth : Nombre de visites sur le site web de l’entreprise au cours du dernier mois

In [69]:
marketing = pd.read_csv("marketing_campaign.csv", encoding="utf-8", sep= "\t")

In [70]:
#On affiche les premières lignes pour se familiariser avec le jeu de données et identifier les données quali/quanti ...
marketing.head()

Unnamed: 0,ID,Year_Birth,Education,Marital_Status,Income,Kidhome,Teenhome,Dt_Customer,Recency,MntWines,...,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Z_CostContact,Z_Revenue,Response
0,5524,1957,Graduation,Single,58138.0,0,0,04-09-2012,58,635,...,7,0,0,0,0,0,0,3,11,1
1,2174,1954,Graduation,Single,46344.0,1,1,08-03-2014,38,11,...,5,0,0,0,0,0,0,3,11,0
2,4141,1965,Graduation,Together,71613.0,0,0,21-08-2013,26,426,...,4,0,0,0,0,0,0,3,11,0
3,6182,1984,Graduation,Together,26646.0,1,0,10-02-2014,26,11,...,6,0,0,0,0,0,0,3,11,0
4,5324,1981,PhD,Married,58293.0,1,0,19-01-2014,94,173,...,5,0,0,0,0,0,0,3,11,0


In [71]:
marketing.shape

(2240, 29)

In [72]:
#Affichage des colonnes: 
marketing.columns

Index(['ID', 'Year_Birth', 'Education', 'Marital_Status', 'Income', 'Kidhome',
       'Teenhome', 'Dt_Customer', 'Recency', 'MntWines', 'MntFruits',
       'MntMeatProducts', 'MntFishProducts', 'MntSweetProducts',
       'MntGoldProds', 'NumDealsPurchases', 'NumWebPurchases',
       'NumCatalogPurchases', 'NumStorePurchases', 'NumWebVisitsMonth',
       'AcceptedCmp3', 'AcceptedCmp4', 'AcceptedCmp5', 'AcceptedCmp1',
       'AcceptedCmp2', 'Complain', 'Z_CostContact', 'Z_Revenue', 'Response'],
      dtype='object')

In [73]:
#On remarque que les colonnes 'Z_CostContact' et 'Z_Revenue' contiennent les mêmes valeurs pour tous les individus et on 
#conclut que ces données nous ne seront pas utiles pour l'analyse que l'on veut effectuer dans le cadre de ce projet. On les retire donc de 
#notre dataset
marketing.drop(['Z_CostContact','Z_Revenue'], axis=1, inplace=True)

In [74]:
#On vérifie: 216
marketing.shape

(2240, 27)

In [75]:
#Obtenir des infos sur les types de données et valeurs manquantes
marketing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 27 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2216 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDealsPurchases    2240 non-null   i

Il manque des valeurs pour Income => 2 choix s'offrent à nous : 
1) Supprimer les lignes concernées
2) Faire une moyenne des autres valeurs de Income et on les associe aux valeurs manquantes.

Ici, le choix le plus pertinent semble le choix 2). En effet, on dispose de 2216 variables sur 2240 et donc de suffisamment de variable 
pour estimer la moyenne de façon précise (estimateur sans biais : la moyenne empirique).

In [76]:
print('Income - Nombre de valeurs manquantes:', marketing['Income'].isnull().sum())
#On ajoute la médiane pour les valeurs manquantes et non pas la moyenne car la médiane correspond à la valeur centrale de notre jeu de données
#On évite ainsi tout risque de fortes influences sur la moyenne par des valeurs extrêmes (outliers)
print('Income - Valeur médiane: ', marketing['Income'].median())
marketing.fillna({'Income': marketing['Income'].median()}, inplace=True)

Income - Nombre de valeurs manquantes: 24
Income - Valeur médiane:  51381.5


In [77]:
marketing.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2240 entries, 0 to 2239
Data columns (total 27 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID                   2240 non-null   int64  
 1   Year_Birth           2240 non-null   int64  
 2   Education            2240 non-null   object 
 3   Marital_Status       2240 non-null   object 
 4   Income               2240 non-null   float64
 5   Kidhome              2240 non-null   int64  
 6   Teenhome             2240 non-null   int64  
 7   Dt_Customer          2240 non-null   object 
 8   Recency              2240 non-null   int64  
 9   MntWines             2240 non-null   int64  
 10  MntFruits            2240 non-null   int64  
 11  MntMeatProducts      2240 non-null   int64  
 12  MntFishProducts      2240 non-null   int64  
 13  MntSweetProducts     2240 non-null   int64  
 14  MntGoldProds         2240 non-null   int64  
 15  NumDealsPurchases    2240 non-null   i

In [78]:
marketing.describe()

Unnamed: 0,ID,Year_Birth,Income,Kidhome,Teenhome,Recency,MntWines,MntFruits,MntMeatProducts,MntFishProducts,...,NumCatalogPurchases,NumStorePurchases,NumWebVisitsMonth,AcceptedCmp3,AcceptedCmp4,AcceptedCmp5,AcceptedCmp1,AcceptedCmp2,Complain,Response
count,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,...,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0,2240.0
mean,5592.159821,1968.805804,52237.975446,0.444196,0.50625,49.109375,303.935714,26.302232,166.95,37.525446,...,2.662054,5.790179,5.316518,0.072768,0.074554,0.072768,0.064286,0.013393,0.009375,0.149107
std,3246.662198,11.984069,25037.955891,0.538398,0.544538,28.962453,336.597393,39.773434,225.715373,54.628979,...,2.923101,3.250958,2.426645,0.259813,0.262728,0.259813,0.245316,0.114976,0.096391,0.356274
min,0.0,1893.0,1730.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2828.25,1959.0,35538.75,0.0,0.0,24.0,23.75,1.0,16.0,3.0,...,0.0,3.0,3.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,5458.5,1970.0,51381.5,0.0,0.0,49.0,173.5,8.0,67.0,12.0,...,2.0,5.0,6.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
75%,8427.75,1977.0,68289.75,1.0,1.0,74.0,504.25,33.0,232.0,50.0,...,4.0,8.0,7.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
max,11191.0,1996.0,666666.0,2.0,2.0,99.0,1493.0,199.0,1725.0,259.0,...,28.0,13.0,20.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
