# Bank Marketing - Analyse Exploratoire

## Contexte m√©tier

**Probl√®me** : Une banque portugaise m√®ne des campagnes de t√©l√©marketing pour vendre des **d√©p√¥ts √† terme** (placements s√©curis√©s avec taux fixe). L'objectif est de pr√©dire quels clients sont susceptibles de souscrire.

**Contexte √©conomique** : Les donn√©es couvrent **mai 2008 √† novembre 2010**, p√©riode marqu√©e par :
- La crise financi√®re mondiale de 2008
- La crise de la dette souveraine europ√©enne
- Une forte volatilit√© des march√©s

Dans ce contexte, les d√©p√¥ts √† terme sont attractifs car ils offrent une **s√©curit√©** face √† l'incertitude des march√©s.

**Enjeu business** : Optimiser les campagnes de t√©l√©marketing en ciblant les clients les plus susceptibles de souscrire, r√©duisant ainsi les co√ªts et augmentant le taux de conversion.

---

**Sources** :
- [UCI Bank Marketing Dataset](https://archive.ics.uci.edu/dataset/222/bank+marketing)
- Moro et al., 2014 - *A Data-Driven Approach to Predict the Success of Bank Telemarketing*

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (10, 6)
%matplotlib inline

## 1. Chargement des donn√©es

On utilise le dataset **bank-additional-full.csv** qui contient les indicateurs √©conomiques (vs bank-full.csv qui n'en a pas).

In [None]:
df = pd.read_csv('data/bank-additional/bank-additional-full.csv', sep=';')
print(f"Dimensions : {df.shape[0]:,} lignes, {df.shape[1]} colonnes")
df.head()

## 2. Comprendre les features par cat√©gorie m√©tier

Les 20 features se regroupent en **4 cat√©gories** :

| Cat√©gorie | Features | Description |
|-----------|----------|-------------|
| **Client** | age, job, marital, education, default, housing, loan | Profil socio-d√©mographique |
| **Contact** | contact, month, day_of_week, duration | D√©tails du dernier appel |
| **Historique** | campaign, pdays, previous, poutcome | Interactions pass√©es |
| **√âconomie** | emp.var.rate, cons.price.idx, cons.conf.idx, euribor3m, nr.employed | Contexte macro-√©conomique |

In [None]:
# Organisation des features par cat√©gorie m√©tier
features_client = ['age', 'job', 'marital', 'education', 'default', 'housing', 'loan']
features_contact = ['contact', 'month', 'day_of_week', 'duration']
features_historique = ['campaign', 'pdays', 'previous', 'poutcome']
features_economie = ['emp.var.rate', 'cons.price.idx', 'cons.conf.idx', 'euribor3m', 'nr.employed']

print("Aper√ßu des types de donn√©es :")
df.dtypes

## 3. Variable cible : D√©s√©quilibre des classes

Le t√©l√©marketing a un faible taux de conversion - c'est attendu dans ce domaine.

In [None]:
target_counts = df['y'].value_counts()
target_pct = df['y'].value_counts(normalize=True) * 100

print("Distribution de la variable cible :")
print(f"  - Non souscrit : {target_counts['no']:,} ({target_pct['no']:.1f}%)")
print(f"  - Souscrit     : {target_counts['yes']:,} ({target_pct['yes']:.1f}%)")
print(f"\nRatio de d√©s√©quilibre : 1:{target_counts['no']//target_counts['yes']}")

In [None]:
fig, ax = plt.subplots(figsize=(6, 4))
colors = ['#c0392b', '#27ae60']
bars = ax.bar(['Non', 'Oui'], [target_counts['no'], target_counts['yes']], color=colors)
ax.set_title('Souscription au d√©p√¥t √† terme', fontsize=14)
ax.set_ylabel('Nombre de clients')

# Ajouter les pourcentages sur les barres
for bar, pct in zip(bars, [target_pct['no'], target_pct['yes']]):
    ax.text(bar.get_x() + bar.get_width()/2, bar.get_height() + 500, 
            f'{pct:.1f}%', ha='center', fontsize=12, fontweight='bold')

plt.tight_layout()
plt.show()

print("\n‚ö†Ô∏è  IMPLICATION : Avec 88.7% de 'non', un mod√®le na√Øf qui pr√©dit toujours 'non'")
print("    aurait 88.7% d'accuracy. L'accuracy seule n'est pas une bonne m√©trique ici.")

## 4. ‚ö†Ô∏è ALERTE : La variable `duration` (Data Leakage)

**Probl√®me critique** : La dur√©e de l'appel (`duration`) est connue **apr√®s** l'appel, pas avant. Or, apr√®s l'appel, on conna√Æt d√©j√† si le client a souscrit ou non.

Selon la documentation UCI :
> *"This attribute highly affects the output target. Yet, the duration is not known before a call is performed. This input should only be included for benchmark purposes and should be discarded if the intention is to have a realistic predictive model."*

**D√©cision** : On analysera `duration` pour comprendre son impact, mais on l'exclura du mod√®le pr√©dictif final.

In [None]:
# D√©monstration du probl√®me de duration
fig, axes = plt.subplots(1, 2, figsize=(12, 4))

# Distribution par classe
df[df['y'] == 'no']['duration'].hist(bins=50, alpha=0.6, label='Non souscrit', ax=axes[0], color='#c0392b')
df[df['y'] == 'yes']['duration'].hist(bins=50, alpha=0.6, label='Souscrit', ax=axes[0], color='#27ae60')
axes[0].set_title('Distribution de la dur√©e par classe')
axes[0].set_xlabel('Dur√©e (secondes)')
axes[0].legend()
axes[0].set_xlim(0, 2000)

# Dur√©e moyenne par classe
duration_by_y = df.groupby('y')['duration'].mean()
axes[1].bar(['Non', 'Oui'], [duration_by_y['no'], duration_by_y['yes']], color=colors)
axes[1].set_title('Dur√©e moyenne par classe')
axes[1].set_ylabel('Dur√©e moyenne (secondes)')

plt.tight_layout()
plt.show()

print(f"Dur√©e moyenne - Non souscrit : {duration_by_y['no']:.0f}s ({duration_by_y['no']/60:.1f} min)")
print(f"Dur√©e moyenne - Souscrit     : {duration_by_y['yes']:.0f}s ({duration_by_y['yes']/60:.1f} min)")
print(f"\n‚Üí Les appels qui aboutissent √† une souscription durent ~2.5x plus longtemps.")
print("‚Üí C'est logique : convaincre quelqu'un prend du temps !")

## 5. Profil client : Qui souscrit ?

In [None]:
def taux_souscription(df, col):
    """Calcule le taux de souscription par cat√©gorie"""
    return df.groupby(col)['y'].apply(lambda x: (x == 'yes').mean() * 100).sort_values(ascending=False)

# Taux de souscription par job
job_rates = taux_souscription(df, 'job')

fig, ax = plt.subplots(figsize=(10, 5))
bars = job_rates.plot(kind='bar', ax=ax, color='steelblue')
ax.axhline(y=target_pct['yes'], color='red', linestyle='--', linewidth=2, label=f'Moyenne globale ({target_pct["yes"]:.1f}%)')
ax.set_title('Taux de souscription par profession', fontsize=14)
ax.set_xlabel('')
ax.set_ylabel('Taux de souscription (%)')
ax.legend()
plt.xticks(rotation=45, ha='right')
plt.tight_layout()
plt.show()

print("\nüéØ INSIGHTS M√âTIER :")
print(f"  - Les √âTUDIANTS ont le meilleur taux ({job_rates['student']:.1f}%) ‚Üí produit d'√©pargne attractif ?")
print(f"  - Les RETRAIT√âS sont seconds ({job_rates['retired']:.1f}%) ‚Üí recherche de placements s√ªrs")
print(f"  - Les OUVRIERS ont le plus faible taux ({job_rates['blue-collar']:.1f}%) ‚Üí moins d'√©pargne disponible ?")

In [None]:
# Analyse par √¢ge
df['age_group'] = pd.cut(df['age'], bins=[0, 25, 35, 45, 55, 65, 100], 
                         labels=['18-25', '26-35', '36-45', '46-55', '56-65', '65+'])

age_rates = taux_souscription(df, 'age_group')

fig, ax = plt.subplots(figsize=(8, 4))
age_rates.plot(kind='bar', ax=ax, color='teal')
ax.axhline(y=target_pct['yes'], color='red', linestyle='--', label=f'Moyenne ({target_pct["yes"]:.1f}%)')
ax.set_title("Taux de souscription par tranche d'√¢ge", fontsize=14)
ax.set_xlabel('')
ax.set_ylabel('Taux de souscription (%)')
ax.legend()
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

print("\nüéØ INSIGHT : Distribution en 'U' - les jeunes (<25) et les seniors (65+) souscrivent plus")
print("   ‚Üí Les 30-50 ans ont d'autres priorit√©s (immobilier, famille, etc.)")

In [None]:
# Situation financi√®re : pr√™ts en cours
fig, axes = plt.subplots(1, 3, figsize=(12, 4))

for ax, col, title in zip(axes, ['housing', 'loan', 'default'], 
                          ['Pr√™t immobilier', 'Pr√™t personnel', 'D√©faut de cr√©dit']):
    rates = taux_souscription(df, col)
    rates.plot(kind='bar', ax=ax, color=['#3498db', '#e74c3c', '#95a5a6'][:len(rates)])
    ax.set_title(title)
    ax.set_ylabel('Taux souscription (%)')
    ax.set_xticklabels(ax.get_xticklabels(), rotation=0)
    ax.axhline(y=target_pct['yes'], color='red', linestyle='--', alpha=0.7)

plt.tight_layout()
plt.show()

print("\nüéØ INSIGHTS :")
print("  - Les clients SANS pr√™t immobilier souscrivent plus ‚Üí plus de liquidit√©s disponibles")
print("  - Les clients SANS pr√™t personnel souscrivent l√©g√®rement plus")
print("  - Le d√©faut de cr√©dit a peu d'impact (mais tr√®s peu de cas 'yes')")

## 6. Historique des contacts : L'importance du timing

In [None]:
# Taux de souscription par mois
month_order = ['jan', 'feb', 'mar', 'apr', 'may', 'jun', 'jul', 'aug', 'sep', 'oct', 'nov', 'dec']
df['month'] = pd.Categorical(df['month'], categories=month_order, ordered=True)

month_rates = df.groupby('month')['y'].apply(lambda x: (x == 'yes').mean() * 100)
month_counts = df.groupby('month').size()

fig, axes = plt.subplots(1, 2, figsize=(14, 5))

# Taux de souscription
month_rates.plot(kind='bar', ax=axes[0], color='darkgreen')
axes[0].axhline(y=target_pct['yes'], color='red', linestyle='--', label=f'Moyenne ({target_pct["yes"]:.1f}%)')
axes[0].set_title('Taux de souscription par mois', fontsize=14)
axes[0].set_ylabel('Taux (%)')
axes[0].legend()
axes[0].set_xticklabels(axes[0].get_xticklabels(), rotation=45)

# Volume d'appels
month_counts.plot(kind='bar', ax=axes[1], color='navy')
axes[1].set_title("Volume d'appels par mois", fontsize=14)
axes[1].set_ylabel("Nombre d'appels")
axes[1].set_xticklabels(axes[1].get_xticklabels(), rotation=45)

plt.tight_layout()
plt.show()

print("\nüéØ INSIGHTS STRAT√âGIQUES :")
print("  - MARS, SEPTEMBRE, OCTOBRE, D√âCEMBRE ont les meilleurs taux (>40%)")
print("  - MAI a le plus d'appels mais un taux moyen ‚Üí campagne de masse peu efficace")
print("  - Recommandation : concentrer les efforts en automne et fin d'ann√©e")

In [None]:
# Impact du r√©sultat de la campagne pr√©c√©dente
poutcome_rates = taux_souscription(df, 'poutcome')

fig, ax = plt.subplots(figsize=(8, 4))
colors_poutcome = {'success': '#27ae60', 'failure': '#c0392b', 'nonexistent': '#7f8c8d'}
poutcome_rates.plot(kind='bar', ax=ax, color=[colors_poutcome.get(x, 'gray') for x in poutcome_rates.index])
ax.set_title('Taux de souscription selon le r√©sultat de la campagne pr√©c√©dente', fontsize=14)
ax.set_ylabel('Taux (%)')
ax.axhline(y=target_pct['yes'], color='red', linestyle='--')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

print(f"\nüéØ INSIGHT CL√â : Si la campagne pr√©c√©dente √©tait un SUCC√àS ‚Üí {poutcome_rates['success']:.0f}% de souscription !")
print("   ‚Üí La fid√©lisation est plus efficace que la prospection")
print(f"   ‚Üí 'nonexistent' (jamais contact√©) : seulement {poutcome_rates['nonexistent']:.1f}%")

In [None]:
# Nombre de contacts pendant la campagne
df['campaign_group'] = pd.cut(df['campaign'], bins=[0, 1, 2, 3, 5, 10, 100], 
                              labels=['1', '2', '3', '4-5', '6-10', '>10'])

campaign_rates = taux_souscription(df, 'campaign_group')

fig, ax = plt.subplots(figsize=(8, 4))
campaign_rates.plot(kind='bar', ax=ax, color='purple')
ax.set_title('Taux de souscription selon le nombre de contacts', fontsize=14)
ax.set_xlabel('Nombre de contacts pendant la campagne')
ax.set_ylabel('Taux (%)')
ax.axhline(y=target_pct['yes'], color='red', linestyle='--')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

print("\nüéØ INSIGHT : Le taux diminue avec le nombre de contacts")
print("   ‚Üí Insister ne sert √† rien apr√®s 3-4 appels")
print("   ‚Üí Co√ªt/b√©n√©fice : mieux vaut passer au client suivant")

## 7. Contexte √©conomique : L'impact de la crise

Les 5 indicateurs √©conomiques capturent le contexte macro de 2008-2010 :
- **emp.var.rate** : Variation du taux d'emploi (trimestriel)
- **cons.price.idx** : Indice des prix √† la consommation (inflation)
- **cons.conf.idx** : Indice de confiance des consommateurs
- **euribor3m** : Taux interbancaire √† 3 mois (co√ªt du cr√©dit)
- **nr.employed** : Nombre d'employ√©s (indicateur de sant√© √©conomique)

In [None]:
# Corr√©lation des indicateurs √©conomiques avec la souscription
df['y_numeric'] = (df['y'] == 'yes').astype(int)

correlations = df[features_economie + ['y_numeric']].corr()['y_numeric'].drop('y_numeric').sort_values()

fig, ax = plt.subplots(figsize=(8, 4))
colors_corr = ['#27ae60' if x > 0 else '#c0392b' for x in correlations]
correlations.plot(kind='barh', ax=ax, color=colors_corr)
ax.set_title('Corr√©lation des indicateurs √©conomiques avec la souscription', fontsize=14)
ax.set_xlabel('Corr√©lation')
ax.axvline(x=0, color='black', linewidth=0.5)
plt.tight_layout()
plt.show()

print("\nüéØ INTERPR√âTATION √âCONOMIQUE :")
print("  - euribor3m N√âGATIF : quand les taux sont bas, les d√©p√¥ts √† terme sont moins attractifs")
print("  - nr.employed N√âGATIF : en p√©riode de plein emploi, moins besoin d'√©pargne de pr√©caution")
print("  - emp.var.rate N√âGATIF : quand l'emploi augmente, les gens investissent ailleurs")
print("\n‚Üí Paradoxe : les clients souscrivent PLUS en p√©riode d'incertitude √©conomique")
print("‚Üí Le d√©p√¥t √† terme est un produit de 'refuge' en temps de crise")

In [None]:
# √âvolution de l'euribor3m et du taux de souscription
euribor_groups = pd.qcut(df['euribor3m'], q=5, labels=['Tr√®s bas', 'Bas', 'Moyen', '√âlev√©', 'Tr√®s √©lev√©'])
euribor_rates = df.groupby(euribor_groups)['y'].apply(lambda x: (x == 'yes').mean() * 100)

fig, ax = plt.subplots(figsize=(8, 4))
euribor_rates.plot(kind='bar', ax=ax, color='darkorange')
ax.set_title('Taux de souscription selon le niveau Euribor 3 mois', fontsize=14)
ax.set_ylabel('Taux (%)')
ax.set_xlabel('Niveau Euribor')
ax.axhline(y=target_pct['yes'], color='red', linestyle='--')
plt.xticks(rotation=0)
plt.tight_layout()
plt.show()

print("\nüéØ INSIGHT : Quand l'Euribor est BAS, le taux de souscription est √âLEV√â (>20%)")
print("   ‚Üí Semble contre-intuitif : taux bas = rendement du d√©p√¥t plus faible")
print("   ‚Üí Mais : taux bas = crise = recherche de s√©curit√© !")

## 8. Valeurs manquantes et 'unknown'

In [None]:
# Pas de NaN, mais des 'unknown'
print("Valeurs NaN :", df.isnull().sum().sum())
print("\nValeurs 'unknown' par colonne :")

for col in df.select_dtypes(include='object').columns:
    if 'unknown' in df[col].values:
        count = (df[col] == 'unknown').sum()
        pct = count / len(df) * 100
        print(f"  {col}: {count:,} ({pct:.1f}%)")

In [None]:
# Le taux de souscription des 'unknown' est-il diff√©rent ?
print("Taux de souscription pour les valeurs 'unknown' :")
for col in ['job', 'marital', 'education', 'default', 'housing', 'loan']:
    if 'unknown' in df[col].values:
        unknown_rate = (df[df[col] == 'unknown']['y'] == 'yes').mean() * 100
        known_rate = (df[df[col] != 'unknown']['y'] == 'yes').mean() * 100
        print(f"  {col}: unknown={unknown_rate:.1f}% vs known={known_rate:.1f}%")

print("\n‚Üí Les 'unknown' peuvent √™tre gard√©s comme cat√©gorie √† part (pas de suppression n√©cessaire)")

## 9. R√©sum√© des insights pour la mod√©lisation

### Features √† exclure
- **`duration`** : Data leakage (connue apr√®s l'appel)

### Features les plus pr√©dictives (hypoth√®ses √† valider)
1. **poutcome** : Succ√®s pr√©c√©dent ‚Üí fort pr√©dicteur
2. **Indicateurs √©conomiques** : euribor3m, nr.employed
3. **month** : Saisonnalit√© forte (mars, sept, oct, d√©c)
4. **age** : Jeunes et seniors plus r√©ceptifs
5. **job** : √âtudiants et retrait√©s
6. **campaign** : Effet n√©gatif apr√®s 3-4 contacts

### Recommandations m√©tier
1. Cibler en priorit√© les clients ayant d√©j√† souscrit
2. Concentrer les campagnes en automne (sept-oct-d√©c)
3. Limiter √† 3-4 tentatives par client
4. Cibler les √©tudiants et retrait√©s
5. Intensifier en p√©riode d'incertitude √©conomique

### D√©s√©quilibre des classes
- Ratio ~1:8 (11% vs 89%)
- M√©triques : F1-score, Precision, Recall, AUC-ROC
- Techniques : SMOTE, class weights, undersampling

In [None]:
# Nettoyage : supprimer les colonnes temporaires
df = df.drop(columns=['age_group', 'campaign_group', 'y_numeric'], errors='ignore')

print("‚úÖ Exploration termin√©e.")
print(f"\nDataset final : {df.shape[0]:,} lignes, {df.shape[1]} colonnes")
print(f"Features √† utiliser : {df.shape[1] - 1} (sans 'y')")
print(f"Feature √† exclure pour le mod√®le r√©aliste : 'duration'")