In [None]:
import pandas as pd
import sys
import os
import pickle
import warnings

# On ignore les warnings "invalid value encountered in divide" qui polluent tes logs
warnings.filterwarnings("ignore")

from evidently.report import Report
from evidently.metric_preset import DataDriftPreset, DataQualityPreset
from evidently.test_suite import TestSuite
from evidently.tests import TestNumberOfColumnsWithMissingValues, TestShareOfDriftedColumns
from evidently.ui.workspace.remote import RemoteWorkspace

# ==========================================
# 1. CONFIGURATION & NETTOYAGE (LE FIX EST ICI)
# ==========================================
EVIDENTLY_TOKEN = os.environ.get("EVIDENTLY_TOKEN")
raw_project_id = os.environ.get("EVIDENTLY_PROJECT_ID", "")

# üßπ NETTOYAGE : On enl√®ve les guillemets (" ou ') et les espaces vides
EVIDENTLY_PROJECT_ID = str(raw_project_id).strip().replace('"', '').replace("'", "")

print(f"‚ÑπÔ∏è Project ID utilis√© (nettoy√©) : {EVIDENTLY_PROJECT_ID}")

ARTIFACTS_PATH = "../backend/src/processors" 

if not EVIDENTLY_TOKEN or not EVIDENTLY_PROJECT_ID:
    print("‚ùå ERREUR : Token ou Project ID manquant.")
    sys.exit(1)

# ==========================================
# 2. CHARGEMENT DES DONN√âES
# ==========================================
print("üìÇ Chargement des donn√©es...")

try:
    # Adapte ce chemin si n√©cessaire (ex: ../../backend/src/processors)
    # selon o√π tu lances le script
    with open(os.path.join(ARTIFACTS_PATH, "preprocessed_data.pkl"), "rb") as f:
        data = pickle.load(f)
    
    with open(os.path.join(ARTIFACTS_PATH, "features_config.pkl"), "rb") as f:
        config = pickle.load(f)
    
    columns = config['final_feature_order']
    
    reference_data = pd.DataFrame(data['X_train_scaled'], columns=columns)
    reference_data['target'] = data['y_train'] 
    
    current_data = pd.DataFrame(data['X_test_scaled'], columns=columns)
    current_data['target'] = data['y_test']
    
    print(f"   ‚úÖ Reference: {reference_data.shape}")
    print(f"   ‚úÖ Current: {current_data.shape}")

except Exception as e:
    print(f"‚ùå Erreur chargement donn√©es : {e}")
    # En local pour tester, tu peux commenter sys.exit(1) si tu veux juste tester la connexion cloud
    sys.exit(1)

# ==========================================
# 3. DASHBOARD CLOUD
# ==========================================
print("‚òÅÔ∏è Connexion √† Evidently Cloud...")

try:
    ws = RemoteWorkspace("https://app.evidently.cloud", EVIDENTLY_TOKEN)
    
    # On v√©rifie que l'ID est valide pour Evidently
    # ws.search_project(EVIDENTLY_PROJECT_ID) # Optionnel
    
    print("üìä G√©n√©ration du rapport...")
    report = Report(metrics=[
        DataDriftPreset(),
        DataQualityPreset()
    ])
    
    report.run(reference_data=reference_data, current_data=current_data)
    
    print("‚¨ÜÔ∏è Envoi vers le Cloud...")
    ws.add_report(EVIDENTLY_PROJECT_ID, report)
    print("‚úÖ Rapport envoy√© avec succ√®s !")

except ValueError as ve:
    print(f"‚ùå ERREUR UUID : L'ID du projet est toujours invalide : {EVIDENTLY_PROJECT_ID}")
    print("üëâ V√©rifie ta variable d'environnement, elle ne doit contenir que des chiffres et des lettres (a-f).")
    print(f"D√©tail : {ve}")
except Exception as e:
    print(f"‚ö†Ô∏è Erreur Cloud (Autre) : {e}")

# ==========================================
# 4. QUALITY GATE
# ==========================================
print("üõ°Ô∏è Ex√©cution des Tests...")

tests = TestSuite(tests=[
    TestShareOfDriftedColumns(lt=0.5), 
    TestNumberOfColumnsWithMissingValues(eq=0) 
])

tests.run(reference_data=reference_data, current_data=current_data)
test_results = tests.as_dict()

if not test_results['summary']['all_passed']:
    print("‚ùå ECHEC : Data Drift critique !")
    sys.exit(1)
else:
    print("‚úÖ SUCC√àS : Donn√©es stables.")
    sys.exit(0)

‚ÑπÔ∏è Project ID utilis√© (nettoy√©) : 01f16019b2950-f65e-7167-a3f4-67232238fbfd
üìÇ Chargement des donn√©es...
   ‚úÖ Reference: (319110, 18)
   ‚úÖ Current: (79778, 18)
‚òÅÔ∏è Connexion √† Evidently Cloud...
üìä G√©n√©ration du rapport...


In [26]:
import sys
import os
import pickle
import pandas as pd
import numpy as np

from evidently.report import Report
from evidently.metric_preset import DataDriftPreset
from evidently.test_suite import TestSuite
from evidently.tests import TestShareOfDriftedColumns

# ==========================================
# 1. CONFIGURATION ET CHEMINS
# ==========================================
current_dir = os.getcwd()  # R√©pertoire courant

# Chemin vers backend/src pour importer feature_store.py
BACKEND_SRC_PATH = os.path.abspath(os.path.join(current_dir, '..', 'backend', 'src'))
sys.path.insert(0, BACKEND_SRC_PATH)

# Chemin vers les processeurs (.pkl)
ARTIFACTS_PATH = os.path.abspath(os.path.join(BACKEND_SRC_PATH, 'processors'))

# Chemin vers les nouvelles donn√©es brutes (Simulation de prod)
# On suppose que le fichier est dans data/crime_v1.csv √† la racine du projet
NEW_DATA_PATH = os.path.abspath(os.path.join(current_dir,'..', 'data', 'last_rows.csv'))

# Import du Feature Store (La m√™me logique que l'API !)
try:
    from feature_store import CrimeFeatureStore
except ImportError:
    print("‚ùå Impossible d'importer CrimeFeatureStore. V√©rifiez que backend/src/feature_store.py existe.")
    sys.exit(1)

def get_reference_data():
    """Charge les donn√©es d'entra√Ænement (Reference) depuis le pickle"""
    print("üì¶ Chargement des donn√©es de r√©f√©rence (Train)...")
    data_path = os.path.join(ARTIFACTS_PATH, "preprocessed_data.pkl")
    
    if not os.path.exists(data_path):
        print(f"‚ùå Fichier manquant : {data_path}")
        sys.exit(1)

    with open(data_path, "rb") as f:
        data = pickle.load(f)
    
    # On a besoin des noms de colonnes pour Evidently
    # On peut les r√©cup√©rer via le Feature Store ou le config pickle
    with open(os.path.join(ARTIFACTS_PATH, "features_config.pkl"), "rb") as f:
        config = pickle.load(f)
        
    cols = config['final_feature_order']
    
    # Reconstruction du DataFrame Reference
    ref_df = pd.DataFrame(data['X_train_scaled'], columns=cols)
    # Optionnel : Ajouter la target si on veut monitorer le Concept Drift
    # ref_df['target'] = data['y_train'] 
    
    return ref_df

def process_current_data_with_store(df_raw, store):
    """
    Transforme les nouvelles donn√©es brutes en utilisant le Feature Store.
    Simule ce qui se passe dans l'API.
    """
    print("‚öôÔ∏è Transformation des nouvelles donn√©es via Feature Store...")
    
    processed_rows = []
    
    # On it√®re sur chaque ligne comme si c'√©tait une requ√™te API unique
    # C'est un peu plus lent que du batch, mais √ßa garantit 100% de coh√©rence avec l'API
    input_records = df_raw.to_dict(orient='records')
    
    for record in input_records:
        # get_online_features renvoie un tableau numpy (1, N)
        vector = store.get_online_features(record)
        processed_rows.append(vector[0]) # On prend la premi√®re ligne (le vecteur plat)
    
    # On recr√©e un DataFrame avec les bonnes colonnes
    current_df = pd.DataFrame(processed_rows, columns=store.required_features)
    
    return current_df

def run_production_monitoring():
    try:
        # 1. Initialisation du Feature Store
        store = CrimeFeatureStore(processors_path=ARTIFACTS_PATH)
        store.load_artifacts()
        
        # 2. R√©cup√©ration de la R√©f√©rence
        reference_data = get_reference_data()
        
        # 3. R√©cup√©ration et Traitement du Current (Nouveau)
        if not os.path.exists(NEW_DATA_PATH):
            print(f"‚ö†Ô∏è Fichier de nouvelles donn√©es introuvable : {NEW_DATA_PATH}")
            print("   -> Cr√©ation d'un dataset factice pour le test...")
            # Si pas de fichier, on prend un √©chantillon du train pour tester le script
            current_data = reference_data.sample(100)
        else:
            print(f"üìÇ Lecture des nouvelles donn√©es : {NEW_DATA_PATH}")
            # On prend un √©chantillon al√©atoire de 500 lignes
            df_new_raw = pd.read_csv(NEW_DATA_PATH).sample(500)
            
            # Transformation via le Store
            current_data = process_current_data_with_store(df_new_raw, store)
        
        print(f"üìä Comparaison : Ref {reference_data.shape} vs New {current_data.shape}")

        # 4. Analyse du Drift avec Evidently
        print("üöÄ Analyse du Drift en cours...")
        
        drift_suite = TestSuite(tests=[
            TestShareOfDriftedColumns(lt=0.3) # Alerte si > 30% des colonnes d√©vient
        ])
        
        drift_suite.run(reference_data=reference_data, current_data=current_data)
        
        # Sauvegarde
        report_path = "production_drift_report.html"
        drift_suite.save_html(report_path)
        print(f"‚úÖ Rapport g√©n√©r√© : {os.path.abspath(report_path)}")
        
        # 5. Verdict
        results = drift_suite.as_dict()
        if not results['summary']['all_passed']:
            print("üö® ALERTE : Le mod√®le d√©rive ! (Data Drift detected)")
            sys.exit(1)
        else:
            print("‚úÖ Tout va bien. Pas de d√©rive significative.")
            sys.exit(0)

    except Exception as e:
        print(f"‚ùå Erreur critique : {e}")
        import traceback
        traceback.print_exc()
        sys.exit(1)

if __name__ == "__main__":
    run_production_monitoring()


‚úÖ Feature Store: Artifacts loaded.
üì¶ Chargement des donn√©es de r√©f√©rence (Train)...
‚ö†Ô∏è Fichier de nouvelles donn√©es introuvable : c:\Users\asus\Desktop\mlops\MLOPS\data\last_rows.csv
   -> Cr√©ation d'un dataset factice pour le test...
üìä Comparaison : Ref (319110, 17) vs New (100, 17)
üöÄ Analyse du Drift en cours...



invalid value encountered in divide


invalid value encountered in divide


invalid value encountered in divide


invalid value encountered in divide



‚úÖ Rapport g√©n√©r√© : c:\Users\asus\Desktop\mlops\MLOPS\monitoring\production_drift_report.html
‚úÖ Tout va bien. Pas de d√©rive significative.


SystemExit: 0


To exit: use 'exit', 'quit', or Ctrl-D.



Pourquoi cela a-t-il √©chou√© ?
C'est tout √† fait normal dans votre contexte de test :
Vous avez utilis√© un petit √©chantillon (probablement 100 ou 500 lignes).
Sur un petit √©chantillon, les statistiques bougent beaucoup par rapport au gros fichier d'entra√Ænement (300k lignes).
Evidently a d√©tect√© ces diff√©rences statistiques l√©gitimes.

In [28]:
import pandas as pd

# Chemin du fichier source
input_file = r"C:\Users\asus\Desktop\mlops\data\data.csv"

# Charger le CSV
data = pd.read_csv(input_file)

# Prendre les 5 derni√®res lignes
last_rows1 = data.tail(400)

# Chemin du fichier de sortie
output_file = r"C:\Users\asus\Desktop\mlops\data\crime_last5.csv"

# Sauvegarder dans un nouveau CSV
last_rows1.to_csv(output_file, index=False)

print(f"‚úÖ Les 300 derni√®res lignes ont √©t√© enregistr√©es dans {output_file}")


‚úÖ Les 300 derni√®res lignes ont √©t√© enregistr√©es dans C:\Users\asus\Desktop\mlops\data\crime_last5.csv
