In [10]:
import pandas as pd
from evidently import ColumnMapping
from evidently.report import Report
from evidently.metric_preset import DataDriftPreset  # Utilisation du preset DataDrift

# Charger les ensembles de données (train et test)
application_test = pd.read_csv('data/test_df_2.csv', sep=',')
application_train = pd.read_csv('data/train_df_2.csv', sep=',')

# Supprimer la colonne TARGET dans les deux datasets, car elle n'est pas pertinente pour le Data Drift
if 'TARGET' in application_train.columns:
    application_train = application_train.drop(columns=['TARGET'])

# Définir la correspondance des colonnes, sans la variable cible
column_mapping = ColumnMapping(
    target=None,  # On ne spécifie pas de cible ici pour la dérive des données
    prediction=None,  # Pas de prédiction ici
    numerical_features=[col for col in application_train.select_dtypes(include=[int, float]).columns],
    categorical_features=[col for col in application_train.select_dtypes(include=[object]).columns]
)

# Initialiser le rapport Evidently avec le preset DataDriftPreset
report = Report(metrics=[DataDriftPreset()])

# Générer le rapport de dérive entre les données d'entraînement (référence) et de test (current)
report.run(reference_data=application_train, current_data=application_test, column_mapping=column_mapping)

# Sauvegarder le rapport au format HTML
report.save_html("/Users/amira/Documents/OPC/Projet7/projet7/evidently_data_drift_report.html")

print("Le rapport de dérive des données a été généré et sauvegardé")


Le rapport de dérive des données a été généré et sauvegardé


Le drift score est une valeur numérique qui indique à quel point la distribution des caractéristiques d'un ensemble de données (par exemple, l'ensemble de test) diffère de celle d'un autre ensemble (par exemple, l'ensemble d'entraînement). Un score plus élevé indique une plus grande dérive, ce qui peut signifier que le modèle pourrait être moins performant sur l'ensemble de test.

Dérive Modérée à Élevée : Un score de dérive élevé peut affecter la performance du modèle. Par exemple, si le modèle a été entraîné sur des données qui ne reflètent plus la réalité des données en production, il pourrait faire des prédictions moins précises.
Validation de Modèle : Si le drift score est élevé, il est souvent recommandé de valider à nouveau le modèle sur les données récentes, voire de le réentraîner avec des données plus représentatives.

Actions à Envisager
- Surveiller la Dérive : Une surveillance continue des scores de dérive est essentielle pour détecter rapidement les changements dans les données et pour prendre des mesures proactives.
- Réentraînement : Si la dérive est significative et continue, envisage de réentraîner le modèle avec de nouvelles données qui reflètent mieux les conditions actuelles.
- Analyse des Caractéristiques : Identifie quelles caractéristiques contribuent le plus à la dérive. Cela peut fournir des informations précieuses sur les facteurs qui changent dans le domaine.