 # **AKADEMI EDUCATION**
# **Première cohorte (2025): Science des données et intelligence artificielle**
#### *Phase 5: PROJET DE SCIENCE DES DONNÉES*

**Noms des étudiants du groupe: Riché FLEURINORD et Micka LOUIS**   
**Rythme d’apprentissage: Autonome**  
**Date de soutenance: 27 octobre 2025**  
**Noms des instructeurs: Wedter JEROME et Geovany Batista Polo LAGUERRE**  
**Lien de l’article de blog (lien du dépôt GitHub): https://github.com/richefleuriord/Bank_Customer_Churn_Prediction.git**

# *2.4 Analyse Exploratoire des Données (EDA)*

## **2.4.1 Introduction et objectifs**

# Introduction et Objectifs de l’Analyse Exploratoire (EDA)

L’analyse exploratoire des données (**Exploratory Data Analysis – EDA**) constitue une étape essentielle dans tout projet de **Data Science**.  
Son objectif principal est de **comprendre la structure, les relations et les tendances du jeu de données** avant la construction d’un modèle prédictif.  

Dans le cadre du projet **Bank Customer Churn Prediction**, cette analyse vise à explorer le comportement des clients d’une institution financière afin de mieux comprendre les **facteurs influençant leur départ (variable cible : `Exited`)**.

Nous allons progressivement examiner les données sous différents angles (**univarié**, **bivarié** et **multivarié**) afin de répondre à plusieurs **questions analytiques et statistiques** clés.

---

## Objectifs généraux de l’EDA

1. **Identifier les tendances principales**: comprendre la distribution des variables numériques et catégorielles.  
2. **Comparer les comportements** entre les clients restés (`Exited = 0`) et ceux ayant quitté (`Exited = 1`).  
3. **Mettre en évidence les relations** entre les différentes variables (corrélations, associations, interactions).  
4. **Fournir des bases solides** pour la modélisation prédictive à venir (préparation du Machine Learning).

---

## 1. Analyse univariée: Comprendre chaque variable individuellement

Cette première phase consiste à étudier **chaque variable séparément**, afin de décrire les caractéristiques principales du jeu de données.

### Variables numériques
Variables concernées : `CreditScore`, `Age`, `Tenure`, `Balance`, `EstimatedSalary`, `Point Earned`.

Nous observons :
- Leur **distribution** (asymétrie, dispersion, valeurs extrêmes).  
- Les **écarts de tendance** entre les clients partis et restés.  
- Des **tests statistiques (t-test)** pour vérifier:

> Les moyennes de ces variables diffèrent-elles significativement entre les clients ayant quitté la banque et ceux restés ?  

### Variables catégorielles
Variables concernées: `Gender`, `Geography`, `NumOfProducts`, `HasCrCard`, `IsActiveMember`, `Complain`, `Satisfaction Score`, `Card Type`.

Nous analysons:
- La **répartition des catégories** via des countplots et diagrammes circulaires.  
- Les **tendances dominantes**, telles que:  
  > Quelle proportion d’hommes et de femmes quitte la banque?  
  > Quelle région géographique est la plus représentée?  
  > Quel type de carte bancaire est le plus utilisé?

Cette étape permet de **décrire la population** et d’identifier les premières pistes d’interprétation.

---

## 2. Analyse bivariée: Comprendre les relations entre deux variables

Nous étudions ici la **relation entre chaque variable indépendante et la variable cible (`Exited`)**, à l’aide de statistiques descriptives et de tests d’hypothèses.

### a) Variables numériques vs `Exited`
Pour chaque variable continue, nous appliquons un **test t de Student** afin d’évaluer:

> Existe-t-il une différence significative de moyenne entre les clients qui ont quitté et ceux restés?  
> Par exemple, les clients plus âgés ou ayant un solde plus élevé sont-ils plus susceptibles de partir?

### b) Variables catégorielles vs `Exited`
Nous utilisons le **test du Khi-deux (Chi-square)** pour mesurer l’association entre chaque variable catégorielle et le churn :

> Le genre, la région géographique ou le type de carte sont-ils associés à la probabilité de quitter la banque?  
> L’activation du compte ou la possession d’une carte de crédit influencent-elles la fidélité client?

---

## 3. Analyse des corrélations

Afin d’évaluer les interdépendances entre variables numériques, nous calculons:
- La **corrélation de Pearson**: mesure linéaire entre variables continues.  
- La **corrélation de Spearman**: mesure monotone, même si la relation n’est pas linéaire.

Les **heatmaps** permettent de visualiser:
> Quelles variables évoluent ensemble?  
> Y a-t-il des relations fortes (positives ou négatives) entre les indicateurs financiers?  
> Quelles variables semblent redondantes ou corrélées à la variable cible?

---

## 4. Analyse multivariée: Explorer les interactions globales

Cette phase finale combine plusieurs dimensions afin de mettre en évidence les **interactions complexes** entre les variables.

- Une **heatmap globale** des corrélations (incluant `Exited`) permet d’identifier les variables les plus influentes sur le churn.  
- Des **barplots groupés** explorent la relation entre plusieurs variables catégorielles et la variable cible:
  > Comment le taux de churn varie-t-il selon le genre et le type de carte?  
  > Certaines combinaisons (ex. femmes + carte Platinum) sont-elles plus susceptibles de partir?
- Un **pairplot** met en évidence les relations croisées entre variables numériques, colorées selon `Exited`, afin d’observer:
  > Les schémas comportementaux et regroupements visibles dans les données.

---

## Synthèse attendue

À l’issue de cette analyse exploratoire:
- Nous aurons une vision claire du **profil des clients** et des **facteurs liés au churn**.  
- Les **variables pertinentes** pour la modélisation prédictive seront identifiées.  
- Les **relations statistiques significatives** guideront la sélection des variables pour les modèles de Machine Learning.

---

> 🧩 **Étape suivante:** exécution du script complet `EDA_Complet.pdf`, qui génère toutes les visualisations, tests statistiques et résultats de l’analyse exploratoire, enregistrés dans un rapport PDF.


## **2.4.2 EDA complet**

In [9]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import ttest_ind, chi2_contingency
from matplotlib.backends.backend_pdf import PdfPages

# -----------------------------
# Charger le dataset
# -----------------------------
df = pd.read_csv("../Data/Customer-Churn-Records.csv")

numerical_vars = ['CreditScore', 'Age', 'Tenure', 'Balance', 'EstimatedSalary', 'Point Earned']
categorical_vars = ['Gender', 'Geography', 'NumOfProducts', 'HasCrCard', 
                    'IsActiveMember', 'Complain', 'Satisfaction Score', 'Card Type']

# -----------------------------
# Créer un PDF pour tout sauvegarder
# -----------------------------
with PdfPages('EDA_Complet.pdf') as pdf:

    # -----------------------------
    # 1. Analyse univariée - Variables numériques
    # -----------------------------
    for var in numerical_vars:
        # Stats descriptives
        desc_global = df[var].describe()
        desc_churn = df.groupby('Exited')[var].describe()

        # Test t pour différence de moyenne
        group0 = df[df['Exited']==0][var]
        group1 = df[df['Exited']==1][var]
        t_stat, p_val = ttest_ind(group0, group1, equal_var=False)

        # Affichage des résultats dans Jupyter
        print(f"T-test pour {var} : t = {t_stat:.3f}, p = {p_val:.4f}")
        if p_val < 0.05:
            print("Différence significative entre les deux groupes.\n")
        else:
            print("Pas de différence significative entre les deux groupes.\n")

        # Sauvegarde des stats et tests dans PDF
        fig, ax = plt.subplots(figsize=(8,6))
        ax.axis('off')
        textstr = f"Variable : {var}\n\nStatistiques globales :\n{desc_global}\n\nStatistiques par Exited :\n{desc_churn}\n\nT-test : t={t_stat:.3f}, p={p_val:.4f}"
        ax.text(0, 1, textstr, verticalalignment='top', fontsize=10, family='monospace')
        pdf.savefig(fig)
        plt.close(fig)

        # Boxplot
        fig, ax = plt.subplots(figsize=(8,4))
        sns.boxplot(x='Exited', y=var, data=df, palette=['green','red'], ax=ax)
        ax.set_title(f'Boxplot de {var} par Exited')
        pdf.savefig(fig)
        plt.close(fig)

        # Violin plot
        fig, ax = plt.subplots(figsize=(8,4))
        sns.violinplot(x='Exited', y=var, data=df, palette=['green','red'], ax=ax)
        ax.set_title(f'Violin plot de {var} par Exited')
        pdf.savefig(fig)
        plt.close(fig)

    # -----------------------------
    # 2. Analyse univariée - Variables catégorielles
    # -----------------------------
    for var in categorical_vars:
        counts = df[var].value_counts()
        # Affichage des résultats dans Jupyter
        print(f"\n--- Variable : {var} ---\n{counts}\n")

        # Countplot
        fig, ax = plt.subplots(figsize=(8,4))
        sns.countplot(x=var, data=df, palette='Set2', order=counts.index, ax=ax)
        ax.set_title(f'Répartition de {var}')
        pdf.savefig(fig)
        plt.close(fig)

        # Pie chart pour certaines variables (ex: Gender, Geography)
        if var in ['Gender','Geography']:
            fig, ax = plt.subplots(figsize=(6,6))
            counts.plot.pie(autopct='%1.1f%%', ax=ax)
            ax.set_ylabel('')
            ax.set_title(f'Diagramme circulaire de {var}')
            pdf.savefig(fig)
            plt.close(fig)

    # -----------------------------
    # 3. Corrélation entre variables numériques
    # -----------------------------
    corr_pearson = df[numerical_vars].corr(method='pearson')
    corr_spearman = df[numerical_vars].corr(method='spearman')

    print("\nMatrice de corrélation Pearson :")
    print(corr_pearson)
    print("\nMatrice de corrélation Spearman :")
    print(corr_spearman)

    for corr_matrix, title in zip([corr_pearson, corr_spearman], ['Pearson', 'Spearman']):
        fig, ax = plt.subplots(figsize=(8,6))
        sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap='coolwarm', ax=ax)
        ax.set_title(f"Corrélation {title} entre variables numériques")
        pdf.savefig(fig)
        plt.close(fig)

    # -----------------------------
    # 4. Corrélation entre variables catégorielles et Exited (Chi2)
    # -----------------------------
    for var in categorical_vars:
        contingency_table = pd.crosstab(df[var], df['Exited'])
        chi2, p, dof, ex = chi2_contingency(contingency_table)
        print(f"\n--- Test Khi-deux : {var} vs Exited ---")
        print(f"Chi2 = {chi2:.3f}, p-value = {p:.4f}")
        if p < 0.05:
            print(f"{var} est significativement associé à Exited.\n")
        else:
            print(f"{var} n'est pas significativement associé à Exited.\n")

        # Ajouter table de contingence et résultats au PDF
        fig, ax = plt.subplots(figsize=(8,6))
        ax.axis('off')
        textstr = f"Variable : {var} vs Exited\n\nTable de contingence :\n{contingency_table}\n\nChi2={chi2:.3f}, p-value={p:.4f}"
        ax.text(0, 1, textstr, verticalalignment='top', fontsize=10, family='monospace')
        pdf.savefig(fig)
        plt.close(fig)

    # -----------------------------
    # 5. Analyse multivariée
    # -----------------------------
    # Heatmap multivariée incluant Exited
    df_corr = df[numerical_vars + ['Exited']]
    corr_matrix = df_corr.corr()
    print("\nMatrice de corrélation multivariée :")
    print(corr_matrix)
    fig, ax = plt.subplots(figsize=(10,8))
    sns.heatmap(corr_matrix, annot=True, fmt=".2f", cmap='coolwarm', ax=ax)
    ax.set_title("Heatmap des corrélations entre variables numériques et Exited")
    pdf.savefig(fig)
    plt.close(fig)

    # Barplots groupés pour variables catégorielles vs Exited
    for var1 in ['Gender', 'Geography']:
        for var2 in ['NumOfProducts', 'Card Type']:
            fig, ax = plt.subplots(figsize=(10,5))
            sns.countplot(x=var2, hue=var1, data=df[df['Exited']==1], palette='Set2', ax=ax)
            ax.set_title(f'{var1} et {var2} pour les clients qui ont quitté')
            ax.set_xlabel(var2)
            ax.set_ylabel('Nombre de clients quittant')
            pdf.savefig(fig)
            plt.close(fig)

    # Pairplot des variables numériques
    sns.set(style="ticks")
    fig = sns.pairplot(df[numerical_vars + ['Exited']], hue='Exited', diag_kind='kde', palette=['green','red'])
    fig.fig.suptitle("Pairplot des variables numériques coloré par Exited", y=1.02)
    pdf.savefig(fig.fig)
    plt.close(fig.fig)

print("\nEDA complète terminée. Tout est sauvegardé dans 'EDA_Complet.pdf'.")

T-test pour CreditScore : t = 2.603, p = 0.0093
Différence significative entre les deux groupes.

T-test pour Age : t = -30.420, p = 0.0000
Différence significative entre les deux groupes.

T-test pour Tenure : t = 1.350, p = 0.1771
Pas de différence significative entre les deux groupes.

T-test pour Balance : t = -12.478, p = 0.0000
Différence significative entre les deux groupes.

T-test pour EstimatedSalary : t = -1.242, p = 0.2143
Pas de différence significative entre les deux groupes.

T-test pour Point Earned : t = 0.464, p = 0.6429
Pas de différence significative entre les deux groupes.


--- Variable : Gender ---
Gender
Male      5457
Female    4543
Name: count, dtype: int64


--- Variable : Geography ---
Geography
France     5014
Germany    2509
Spain      2477
Name: count, dtype: int64


--- Variable : NumOfProducts ---
NumOfProducts
1    5084
2    4590
3     266
4      60
Name: count, dtype: int64


--- Variable : HasCrCard ---
HasCrCard
1    7055
0    2945
Name: count, dtyp

---
L’Analyse Exploratoire des Données (EDA) a constitué une étape fondamentale du projet *Bank Customer Churn Prediction*.  
Elle visait à comprendre les dynamiques comportementales et financières expliquant le départ des clients (variable cible **Exited**) avant toute modélisation prédictive.  
Au-delà de la simple description statistique, cette phase a permis de révéler les relations significatives entre variables, d’identifier les profils à risque et d’établir des **fondations solides** pour la construction d’un modèle explicatif et prédictif fiable.  
L’étude a combiné une analyse univariée, bivariée et multivariée afin de cerner les facteurs déterminants du churn et d’en tirer des enseignements stratégiques pour la fidélisation de la clientèle.

---

## Analyse Univariée: Identification des Leviers Numériques du Churn

L’étude univariée, appuyée par des tests de Student, met en lumière plusieurs tendances majeures.  
Parmi les variables numériques, **l’Âge** et le **Solde (Balance)** apparaissent comme les principaux leviers du churn.  
Les clients ayant quitté la banque sont en moyenne **plus âgés (44,8 ans)** que ceux restés fidèles (**37,4 ans**), une différence hautement significative (*p < 0,001*).  
Cette observation suggère que les clients plus âgés, plus expérimentés financièrement, peuvent être plus sensibles à la qualité du service ou à la compétitivité des offres.

Le **Solde bancaire moyen** confirme cette tendance : les clients sortants détiennent un solde nettement plus élevé (**≈ 91 109**) que les clients fidèles (**≈ 72 743**), avec une différence significative (*p < 0,001*).  
Cette situation indique qu’une partie de la clientèle aisée pourrait être plus mobile, recherchant de meilleures conditions ou une relation plus personnalisée.  

Le **Score de Crédit (CreditScore)**, bien que significatif (*p ≈ 0,009*), a un effet modéré, traduisant une influence limitée sur la décision de départ.  
En revanche, l’**Ancienneté (Tenure)**, le **Salaire estimé (EstimatedSalary)** et les **Points gagnés (Point Earned)** n’affichent aucune différence significative (*p > 0,1*), suggérant que la fidélité ne dépend ni de l’ancienneté, ni du revenu, ni de la participation à des programmes de points.

---

## Le Rôle Déterminant des Facteurs Catégoriels: Engagement, Produits et Plaintes

L’analyse des variables catégorielles, à l’aide du test du Khi-deux, met en évidence des associations statistiquement fortes entre le churn et plusieurs facteurs comportementaux.  
La variable **Complain** se distingue comme un **prédicteur quasi-déterministe** (*χ² ≈ 9908, p = 0,0000*) : les clients ayant déposé une plainte ont, dans leur quasi-totalité, quitté la banque.  
Cela révèle l’importance stratégique de la gestion des réclamations dans la rétention client.

Le **Nombre de Produits (NumOfProducts)** constitue un autre facteur clé (*χ² ≈ 1501, p = 0,0000*).  
Les clients possédant **un seul produit** présentent un risque de churn élevé, probablement en raison d’une faible diversification ou d’un manque d’engagement, tandis que ceux ayant **trois ou quatre produits** affichent également une propension accrue à partir, peut-être en raison d’une complexité perçue ou d’un coût jugé excessif.  
L’**activité du compte (IsActiveMember)** est également déterminante : les membres inactifs quittent la banque beaucoup plus fréquemment que les actifs (*p < 0,001*), illustrant la nécessité de stimuler l’interaction et la participation des clients.

En revanche, les variables **HasCrCard**, **Card Type** et **Satisfaction Score** ne présentent pas d’impact significatif (*p > 0,1*), indiquant qu’elles ne discriminent pas clairement le comportement de départ.

---

## Disparités Démographiques et Géographiques

L’EDA met en lumière des disparités démographiques et géographiques marquées.  
Le **Genre (Gender)** révèle que les **femmes** sont proportionnellement plus nombreuses à quitter la banque que les hommes, différence hautement significative (*p = 0,0000*).  
Cette observation peut s’expliquer par une perception différenciée des services ou une sensibilité plus forte à la qualité de l’expérience client.

Sur le plan **géographique (Geography)**, la **région Allemagne (Germany)** se distingue par un taux de churn particulièrement élevé, contrairement à la **France** et à l’**Espagne**, où les clients se montrent plus fidèles.  
Cette différence territoriale suggère des facteurs externes tels qu’une concurrence bancaire accrue ou des offres moins adaptées au marché allemand.  
L’analyse multivariée croisant ces variables montre que les **clients allemands** détenant **trois ou quatre produits** constituent un **segment à haut risque**, combinant multiplicité de produits et volatilité géographique.

---

## Corrélations et Interactions Multivariées

Les corrélations calculées entre variables numériques (Pearson et Spearman) se révèlent globalement faibles, confirmant une **faible redondance** et une **bonne complémentarité informative** entre les indicateurs.  
Toutefois, certaines relations méritent d’être soulignées : **l’Âge** présente une corrélation positive modérée avec *Exited* (*r ≈ 0,29*), et **le Solde** affiche également une corrélation non négligeable (*r ≈ 0,12*).  
Ces résultats confirment leur poids explicatif dans le phénomène de churn.

L’analyse multivariée visuelle, notamment via les heatmaps et pairplots, renforce ces conclusions :  
les clients quittant la banque forment des regroupements distincts selon l’âge et le niveau de solde.  
Par ailleurs, les croisements entre **Genre** et **Type de carte**, ou entre **Géographie** et **Nombre de produits**, révèlent des schémas d’interactions complexes :  
par exemple, les **femmes détentrices d’une carte Platinum** ou les **clients allemands avec plusieurs produits** se montrent particulièrement enclins à quitter la banque.

---

## Synthèse et Conclusion pour la Modélisation Prédictive

Cette EDA dresse un portrait détaillé du **client à risque de churn** :  
une personne **plus âgée**, disposant d’un **solde bancaire élevé**, **résidant en Allemagne**, souvent de **genre féminin**, **peu active** dans sa relation avec la banque, et ayant **formulé une plainte**.  
Ces profils à risque constituent la cible prioritaire des stratégies de fidélisation et des futures modélisations prédictives.

Les variables jugées les plus pertinentes pour la phase de Machine Learning sont :  
**Age**, **Balance**, **CreditScore**, **Complain**, **NumOfProducts**, **IsActiveMember**, **Geography** et **Gender**.  
La faiblesse des corrélations entre ces variables assure la stabilité du futur modèle, sans risque majeur de multicolinéarité.  
Les variables non significatives telles que **EstimatedSalary**, **Point Earned**, **Card Type** et **Satisfaction Score** pourront être exclues du modèle ou testées à titre exploratoire.

En somme, cette Analyse Exploratoire des Données a permis de dégager les axes de compréhension clés du phénomène de churn et de fournir un cadre analytique solide pour le **feature engineering**, la **sélection des variables** et la **construction de modèles de classification**.  
Les enseignements tirés de cette phase guideront la conception d’algorithmes de prédiction performants et interprétables, favorisant une meilleure **anticipation du départ client** et une **optimisation des stratégies de rétention**.
