# Analyse du Marketing Bancaire avec PyCaret

## Introduction
Ce notebook présente une analyse complète des données de marketing bancaire, en utilisant des concepts d'apprentissage automatique et la bibliothèque PyCaret. L'objectif est de comprendre les facteurs qui influencent l'adhésion des clients aux dépôts à terme et de construire un modèle prédictif pour identifier les clients potentiels.

## Préparation et Exploration des Données

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Charger le dataset
# Assurez-vous que le fichier CSV est au bon endroit ou ajustez le chemin
# df = pd.read_csv("/home/ubuntu/bank_marketing_data/bank-additional-full.csv")
# Pour ce notebook, nous allons utiliser le fichier bank_preprocessed.csv qui a été généré précédemment.
# Si ce fichier n'existe pas, veuillez exécuter les étapes de prétraitement.

df = pd.read_csv("/home/ubuntu/bank_marketing_data/bank_preprocessed.csv")

print("Aperçu des données :")
print(df.head())

print("Informations sur les données :")
print(df.info())

print("Statistiques descriptives :")
print(df.describe())

## Visualisations des Données

In [None]:
# 1. Distribution de la variable cible 'y'
plt.figure(figsize=(6, 4))
sns.countplot(x='y', data=df)
plt.title('Distribution de la variable cible (y)')
plt.show()

# 2. Distribution de quelques caractéristiques numériques clés
numeric_features = ['age', 'balance', 'duration', 'campaign', 'pdays', 'previous']

for feature in numeric_features:
    plt.figure(figsize=(8, 5))
    sns.histplot(df[feature], kde=True)
    plt.title(f'Distribution de {feature}')
    plt.show()

# 3. Comptage des caractéristiques catégorielles clés (après encodage one-hot)
categorical_prefixes = {
    'job': [col for col in df.columns if col.startswith('job_')],
    'marital': [col for col in df.columns if col.startswith('marital_')],
    'education': [col for col in df.columns if col.startswith('education_')],
    'default': [col for col in df.columns if col.startswith('default_')],
    'housing': [col for col in df.columns if col.startswith('housing_')],
    'loan': [col for col in df.columns if col.startswith('loan_')],
    'contact': [col for col in df.columns if col.startswith('contact_')],
    'month': [col for col in df.columns if col.startswith('month_')],
    'poutcome': [col for col in df.columns if col.startswith('poutcome_')],
}

for original_feature, encoded_cols in categorical_prefixes.items():
    if encoded_cols:
        counts = df[encoded_cols].sum().sort_values(ascending=False)
        plt.figure(figsize=(10, 6))
        sns.barplot(x=counts.values, y=counts.index)
        plt.title(f'Comptage de {original_feature}')
        plt.tight_layout()
        plt.show()

# 4. Matrice de corrélation pour les caractéristiques numériques
plt.figure(figsize=(12, 10))
sns.heatmap(df[numeric_features].corr(), annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Matrice de corrélation des caractéristiques numériques')
plt.show()

## Modélisation Prédictive avec PyCaret

In [None]:
from pycaret.classification import setup, compare_models, pull, save_model

# Initialiser l'environnement PyCaret
# La variable cible est 'y'
exp = setup(data = df, target = 'y', session_id = 123, silent=True, verbose=False)

# Comparer tous les modèles
best_model = compare_models()

# Afficher les résultats de la comparaison
print("
Tableau de performances des modèles entraînés :
")
print(pull())

# Afficher le meilleur modèle
print("
Le meilleur modèle est :
")
print(best_model)

# Sauvegarder le meilleur modèle
save_model(best_model, 'best_pycaret_model')
print("
Meilleur modèle sauvegardé sous best_pycaret_model.pkl")

## Conclusion
Ce notebook a démontré les étapes d'analyse des données de marketing bancaire, de la préparation à la modélisation prédictive avec PyCaret. Le modèle LightGBM s'est avéré être le plus performant pour prédire l'adhésion aux dépôts à terme.