In [8]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Mise en place de l'environnement de travail

## Importation des librairies

In [2]:
!pip install evidently

Collecting evidently
  Downloading evidently-0.5.1-py3-none-any.whl.metadata (11 kB)
Collecting scikit-learn<1.6.0,>=1.0.1 (from evidently)
  Downloading scikit_learn-1.5.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (13 kB)
Collecting litestar>=2.8.3 (from evidently)
  Downloading litestar-2.13.0-py3-none-any.whl.metadata (107 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m107.2/107.2 kB[0m [31m2.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting typing-inspect>=0.9.0 (from evidently)
  Downloading typing_inspect-0.9.0-py3-none-any.whl.metadata (1.5 kB)
Collecting uvicorn>=0.22.0 (from uvicorn[standard]>=0.22.0->evidently)
  Downloading uvicorn-0.34.0-py3-none-any.whl.metadata (6.5 kB)
Collecting watchdog>=3.0.0 (from evidently)
  Downloading watchdog-6.0.0-py3-none-manylinux2014_x86_64.whl.metadata (44 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m44.3/44.3 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
Collecting iter

In [3]:
import pandas as pd


from evidently.test_suite import TestSuite
from evidently.test_preset import DataStabilityTestPreset
from evidently.test_preset import DataQualityTestPreset
from evidently.report import Report
from evidently.metric_preset import DataDriftPreset

## importation des bases

In [9]:
# Définir le path pour les fichiers
path = '/content/drive/My Drive/Projets Master/Projet 7/Projet+Mise+en+prod+-+home-credit-default-risk/'

# Importer X_train_join6 et X_test_join6 depuis le path
X_train = pd.read_csv(path + 'application_train.csv')
X_test = pd.read_csv(path + 'application_test.csv')

# Afficher les dimensions pour vérifier l'importation
print("X_train shape:", X_train.shape)
print("X_test shape:", X_test.shape)

X_train shape: (307511, 122)
X_test shape: (48744, 121)


In [15]:
X_train.drop(labels=['SK_ID_CURR','TARGET'], axis=1, inplace=True)
X_test.drop(labels='SK_ID_CURR', axis=1, inplace=True)

KeyError: "['SK_ID_CURR', 'TARGET'] not found in axis"

In [18]:

# Afficher les dimensions pour vérifier l'importation
print("X_train shape:", X_train.shape)
print("X_test shape:", X_test.shape)

X_train shape: (307511, 120)
X_test shape: (48744, 120)


# Data Drift données originales

In [23]:
data_drift_report = Report(metrics=[
    DataDriftPreset(),
])

data_drift_report.run(current_data=X_test, reference_data=X_train, column_mapping=None)
data_drift_report

Output hidden; open in https://colab.research.google.com to view.

In [25]:
# Spécifier le chemin complet pour sauvegarder le fichier
output_path = '/content/drive/My Drive/Projets Master/Projet 7/Rendu final P7/Data_drift/data_drift_report_1.html'

# Sauvegarder le rapport HTML à l'emplacement spécifié
data_drift_report.save_html(output_path)

print(f"Rapport sauvegardé dans : {output_path}")

Rapport sauvegardé dans : /content/drive/My Drive/Projets Master/Projet 7/Rendu final P7/Data_drift/data_drift_report_1.html


# Data drift données apres nettoyage

In [21]:
# Définir le path pour les fichiers
path_2 = '/content/drive/My Drive/Projets Master/Projet 7/X_test_x_train/'

# Importer X_train_join6 et X_test_join6 depuis le path
X_test_2 = pd.read_csv(path_2 + 'X_test_feautres.csv')
X_train_2 = pd.read_csv(path_2 + 'X_train_feautres.csv')

# Afficher les dimensions pour vérifier l'importation
print("X_train shape:", X_train_2.shape)
print("X_test shape:", X_test_2.shape)

X_train shape: (307511, 22)
X_test shape: (48744, 22)


In [27]:
data_drift_report_2 = Report(metrics=[
    DataDriftPreset(),
])

data_drift_report_2.run(current_data=X_test_2, reference_data=X_train_2, column_mapping=None)
data_drift_report_2

Output hidden; open in https://colab.research.google.com to view.

In [28]:
# Sauvegarder le rapport HTML à l'emplacement spécifié
output_path = '/content/drive/My Drive/Projets Master/Projet 7/Rendu final P7/Data_drift/data_drift_report_2.html'
data_drift_report_2.save_html(output_path)

print(f"Rapport sauvegardé dans : {output_path}")

Rapport sauvegardé dans : /content/drive/My Drive/Projets Master/Projet 7/Rendu final P7/Data_drift/data_drift_report_2.html


# Analyse du Data Drift avec la librairie Evidently

Dans le cadre de notre projet, nous avons réalisé une analyse approfondie du **Data Drift** entre les datasets `application_train` (utilisé pour entraîner le modèle) et `application_test` (simulant les données en production). Cette analyse vise à évaluer la stabilité des distributions des principales variables explicatives entre ces deux jeux de données, afin d'assurer la robustesse et la pertinence de notre modèle en production.

## Hypothèses de l'analyse
- Le dataset `application_train` représente les données historiques utilisées pour la modélisation.
- Le dataset `application_test` reflète les données des nouveaux clients, simulant un scénario de production.
- Un drift est détecté lorsqu'une différence significative apparaît entre les distributions des deux datasets. Nous avons utilisé :
  - La **distance de Wasserstein** pour les variables numériques.
  - La **distance de Jensen-Shannon** pour les variables catégoriques.
- Le seuil de détection est fixé à **0.5**, au-delà duquel un drift critique est considéré.

---

## Résumé des résultats
- **Nombre total de colonnes analysées :** 120
- **Colonnes présentant un Data Drift :** 9 (soit 7.5 % des variables)
- **Métriques de détection :** Distance de Wasserstein et Distance de Jensen-Shannon.
- **Drift détecté dans les colonnes suivantes :**

1. **AMT_REQ_CREDIT_BUREAU_QRT** *(Distance de Wasserstein : 0.359)*  
   - Différence dans les demandes trimestrielles de crédit, ce qui peut indiquer un changement dans les habitudes ou les besoins des nouveaux clients.

2. **AMT_REQ_CREDIT_BUREAU_MON** *(Distance de Wasserstein : 0.281)*  
   - Variation dans les demandes mensuelles de crédit entre les deux jeux de données.

3. **AMT_GOODS_PRICE** *(Distance de Wasserstein : 0.210)*  
   - Déviation dans les prix des biens liés aux crédits, ce qui peut refléter des changements dans les comportements d'achat ou les types de crédits demandés.

4. **AMT_CREDIT** *(Distance de Wasserstein : 0.207)*  
   - Variation dans les montants de crédit, probablement due à un changement dans les politiques d'attribution de crédit ou dans les besoins des clients.

5. **AMT_ANNUITY** *(Distance de Wasserstein : 0.161)*  
   - Légère variation dans les annuités, qui pourrait indiquer un changement dans la durée ou les modalités des crédits.

6. **AMT_REQ_CREDIT_BUREAU_WEEK** *(Distance de Wasserstein : 0.154)*  
   - Drift modéré dans les demandes hebdomadaires de crédit.

7. **NAME_CONTRACT_TYPE** *(Distance de Jensen-Shannon : 0.148)*  
   - Une différence dans la proportion de types de contrats (prêts à la consommation vs prêts revolving).

8. **DAYS_LAST_PHONE_CHANGE** *(Distance de Wasserstein : 0.139)*  
   - Différence dans le nombre de jours depuis le dernier changement de téléphone, ce qui peut refléter un changement démographique.

9. **FLAG_EMAIL** *(Distance de Jensen-Shannon : 0.122)*  
   - Variation dans la proportion de clients ayant une adresse e-mail enregistrée.

---

## Interprétation des résultats

1. **Globalement, pas de drift critique :**
   - Bien que certaines variables présentent un drift modéré, aucun score n'a dépassé le seuil critique de 0.5, ce qui est rassurant pour la stabilité globale du modèle.

2. **Impact potentiel des drifts modérés :**
   - Les colonnes comme **AMT_REQ_CREDIT_BUREAU_QRT** et **AMT_CREDIT** présentent un drift qui, bien que modéré, pourrait influencer les prédictions si leur importance dans le modèle est élevée.
   - Ces colonnes méritent une attention particulière dans les futures analyses de performances.

3. **Analyse des causes possibles :**
   - Les variations observées peuvent être dues à des changements dans les comportements des clients, les politiques d'octroi de crédit ou encore les tendances économiques entre les périodes des datasets.

---

## Actions recommandées

1. **Surveillance continue :**
   - Mettre en place un système de monitoring automatique avec Evidently pour surveiller ces variables critiques en production.
   - Définir des seuils d'alerte spécifiques pour détecter des drifts significatifs dans le futur.

2. **Réévaluation de l'importance des variables :**
   - Réaliser une analyse de l'importance des features (Feature Importance) pour vérifier si ces variables influencent fortement les prédictions.
   - Si leur impact est faible, le drift détecté aura un impact limité sur les performances globales.

3. **Test en production :**
   - Valider les performances actuelles du modèle sur les données `application_test` pour confirmer qu'il n'y a pas de dégradation des prédictions.
   - En cas de dégradation, envisager un réentraînement en incluant les données de production.

4. **Exploration des variables driftées :**
   - Examiner les colonnes concernées (par exemple, `AMT_CREDIT`, `NAME_CONTRACT_TYPE`) pour identifier des tendances spécifiques et ajuster, si nécessaire, le preprocessing ou le modèle.

---

## Conclusion
L'analyse du Data Drift avec Evidently montre une stabilité générale des données, avec seulement 7.5 % des colonnes affectées par un drift modéré. Les variables présentant un drift doivent être surveillées pour garantir la robustesse et la fiabilité du modèle en production. Cette étape met en place les bases pour un système de monitoring régulier, essentiel pour détecter et anticiper les dérives futures.

