# Explication du projet

La société Prêt à Dépenser est une société financière  qui propose des crédits à la consommation. Dans une logique de gestion du risque, l’entreprise souhaite mettre en place un outil de scoring de crédits capable d’estimer la probabilité qu’un client rembourse son emprunt. Cet outil permettra de classer automatiquement les demandes en deux catégories : les demandes de prêts peu risquées qui seront acceptées ou les demandes de prêts risquées qui seront refusées. Pour dévloper ce modèle de classification, la société a fourni un large pannel de données provenant de différentes sources et inclus des informations comportementales et des données issues d'autres institutions financières.

Les différentes tables de données mises à disposition par la société Prêt à dépenser ont été explorées dans un premier notebook. La table principale des demandes de prêt a ensuite été enrichie par l’intégration de variables issues des autres sources de données, ainsi que par la création de nouvelles variables. Ce même notebook a permis d’analyser et de documenter cette table enrichie. L'outil de scoring de crédit a été mis en place dans le second notebook. Le présent notebook sera quand à lui dédié à l'analyse de la dérive des données. Cette étape permettra de vérifier que les distributions des variables utilisées dans le modèle de scoring restent stables dans le temps afin d’anticiper une éventuelle dégradation des performances et de garantir la fiabilité du modèle en production.

# Sommaire
- [1 Explication du projet](#Explication-du-projet)
- [2 Sommaire](#Sommaire)
- [3 Import](#Import-des-bibliothèques-et-des-données)
- [4 Analyse de la dérive des données](#Analyse-de-la-dérive-des-données)
- [5 Conclusions](#Conclusions)

# Import des bibliothèques et des données

**Librairies**

In [1]:
# Manipulation et analyse de données
import pandas as pd

# Affichage
from IPython.display import IFrame

# Evidently
from evidently import Report
from evidently.presets import DataDriftPreset

**Données**

In [2]:
# Chargement des tables de données
App_train_final = pd.read_csv("../Output/Data_clients/App_train_final.csv")
App_test_final = pd.read_csv("../Output/Data_clients/App_test_final.csv")
App_drit_final = pd.read_csv('../Output/Data_clients/App_drift_final.csv')

# Analyse de la dérive des données

L'analyse du data drift sera effectuée grâce à la librairie Evidently qui permet d’analyser la stabilité et la qualité des données au cours du temps. Cette librairie est particulièrement utile dans un contexte de suivi de modèles de machine learning, car elle permet de détecter des dérives ou des ruptures de distribution des variables utilisées par le le modèle entre différentes périodes.

Dans le contexte du présent projet, l’objectif est de comparer deux ensembles de données :
 - les données, utilisées initialement pour l’entraînement et la validation du modèle,
 - les nouvelles données, correspondant aux profils des nouveaux clients

Dans un premier temps on comparera la distribution de toutes les variables passées en entrée de la pipeline puis on étudira celles correspondant aux variables qui ont le plus contribué aux décisions prise par le modèle développé dans la partie précédente. Cette analyse comparative permettra de vérifier si les caractéristiques des nouveaux clients restent cohérentes avec celles sur lesquelles le modèle a été construit. En cas de différence notable (par exemple, une variable dont la distribution change fortement), cela peut indiquer un risque de baisse de performance du modèle ou la nécessité de mettre à jour le modèle.

In [3]:
# Définition des variables à garder
features = [feat for feat in App_train_final.columns if feat != 'TARGET' and feat!='SK_ID_CURR']

# Jeu de données de référence (train)
reference_data = App_train_final[features]

# Jeu de données des nouveaux clients
production_data = App_drit_final[features]

# Initialisation d'un rapport sur la dérive des données
report = Report([
    DataDriftPreset(method="psi")
], include_tests="True")

# Génération du rapport
EVAL_all= report.run(reference_data=reference_data, current_data=production_data)

# Sauvegarde du rapport pour pouvoir l'afficher de manière permanente
EVAL_all.save_html("../Output/Data_Drift/Rapport_Data_Drift.html")

# Affichage de la figure de manière permanente
IFrame("../Output/Data_Drift/Rapport_Data_Drift.html", width=900, height=1200)

Les variables ont été examinées à l’aide du Population Stability Index (PSI), une métrique couramment utilisée pour détecter des dérives entre deux ensembles de données. Le PSI mesure en effet les différences de distribution d’une variable entre une population de référence (ici les données utilisées pour la modélisation) et une population courante (les données des nouveaux clients). Pour cela, le PSI compare la proportion d’observations tombant dans des intervalles prédéfinis pour les deux populations, puis calcule un score agrégé. Ce score s'interprète de la manière suivante:

- PSI < 0,1 : les distributions sont considérées comme stables (pas de dérive notable).
- 0,1 ≤ PSI < 0,25 : il existe une légère dérive qui est à surveiller.
- PSI ≥ 0,25 : il existe une dérive importante, indiquant un changement significatif dans la distribution de la variable.

Les résultats du rapport indiquent qu'une dérive des données a été constatée pour seulement 6% des variables dont trois dététecté avec un PSI < 0.25. Cela montre que les distributions des variables restent globalement stables et que les nouveaux clients conservent des caractéristiques similaires à celles observées lors de la phase de modélisation. Le modèle peut donc être appliqué sur les nouvelles données sans trop de risque de perte de pertinence liée à un changement de structure des données. Le rapport fournit également des représentation graphiques des distributions de chacune des variables testées sur les deux ensembles de données. Ces graphiques confirment les résultats des tests statistiques. 
Il est toutefois important de noter qu'une des variables présentatant une dérive de ces données figure dans les 10 variables ayant le plus contribuée aux décisions de ce modèle. Une attention particulière devra donc être portée au suivi de cette variable dans le futur.

# Conclusions

L’analyse de dérive réalisée à l’aide de la librairie Evidently et du calcul du Population Stability Index (PSI) a permis de comparer les distributions des variables utilisées par l'outil de scoring développé dans le précédent notebook entre la population de référence et les nouvelles données issues des profils de nouveaux clients.

Les résultats indiquent que les données ont globalement peu dérivé au cours du temps avec 94 % des variables analysées présentant des distributions stables, et des valeurs de PSI inférieures au seuil critique. Les représentations graphiques confirment cette stabilité et montrent que les caractéristiques des nouveaux clients restent cohérentes avec celles observées lors de la phase de modélisation.

Ces observations suggèrent que le modèle de scoring de crédit peut être appliqué sur les nouvelles demandes de prêt sans risque immédiat de perte de performance lié à un changement dans la structure des données. Néanmoins, la mise en place d’un suivi régulier de la stabilité des données reste essentielle afin d’anticiper toute dérive future et de garantir la robustesse du système de scoring dans le temps.