# Test de Migration - Nouvelle Structure Modulaire

Ce notebook teste la nouvelle structure modulaire du projet STA211.

## 1. Test de la configuration

In [1]:
# Import de la configuration
import sys
sys.path.append('..')

from modules.config import cfg

print("✅ Configuration chargée")
print(f"📁 Racine du projet: {cfg.root}")
print(f"🏷️ Nom du projet: {cfg.project.project_name}")
print(f"👤 Auteur: {cfg.project.author}")
print(f"📊 Random state: {cfg.project.random_state}")

print("\n📂 Chemins configurés:")
for attr_name in ['data', 'raw', 'processed', 'outputs', 'figures', 'models', 'imputers', 'transformers']:
    path = getattr(cfg.paths, attr_name)
    exists = "✅" if path.exists() else "❌"
    print(f"  {exists} {attr_name}: {path}")

2025-08-14 13:52:57,602 - modules.config - INFO - ✅ Configuration chargée depuis config.py
2025-08-14 13:52:57,602 - modules.config - INFO - 📁 Racine du projet: c:\sta211-project


✅ Configuration chargée
📁 Racine du projet: c:\sta211-project
🏷️ Nom du projet: STA211 Ads
👤 Auteur: Maoulida Abdoullatuf
📊 Random state: 42

📂 Chemins configurés:
  ✅ data: c:\sta211-project\data
  ❌ raw: c:\sta211-project\data\raw
  ✅ processed: c:\sta211-project\data\processed
  ✅ outputs: c:\sta211-project\outputs
  ✅ figures: c:\sta211-project\outputs\figures
  ✅ models: c:\sta211-project\artifacts\models
  ✅ imputers: c:\sta211-project\artifacts\imputers
  ✅ transformers: c:\sta211-project\artifacts\transformers


## 2. Test des utilitaires de stockage

In [2]:
from modules.utils import save_artifact, load_artifact, artifact_exists
import numpy as np

print("✅ Utilitaires de stockage importés")

# Test de sauvegarde/rechargement
test_data = {'test': 'data', 'array': np.array([1, 2, 3])}
test_filename = "test_artifact.pkl"

# Sauvegarder
saved_path = save_artifact(test_data, test_filename, cfg.paths.models)
print(f"💾 Données sauvegardées: {saved_path}")

# Vérifier existence
exists = artifact_exists(test_filename, cfg.paths.models)
print(f"🔍 Artefact existe: {exists}")

# Recharger
loaded_data = load_artifact(test_filename, cfg.paths.models)
print(f"📂 Données rechargées: {loaded_data}")

# Vérifier intégrité
integrity_check = (
    loaded_data['test'] == test_data['test'] and 
    np.array_equal(loaded_data['array'], test_data['array'])
)
print(f"✅ Intégrité des données: {integrity_check}")

2025-08-14 13:52:57,618 - modules.utils.storage - INFO - ✅ Sauvegarde de c:\sta211-project\artifacts\models\test_artifact.pkl


✅ Utilitaires de stockage importés
💾 Données sauvegardées: c:\sta211-project\artifacts\models\test_artifact.pkl
🔍 Artefact existe: True
📂 Données rechargées: {'test': 'data', 'array': array([1, 2, 3])}
✅ Intégrité des données: True


## 3. Test du module de prétraitement

In [3]:
from modules.notebook1_preprocessing import (
    load_and_clean_data,
    perform_knn_imputation,
    apply_optimal_transformations,
    detect_and_cap_outliers
)

print("✅ Module de prétraitement importé")
print("📦 Fonctions disponibles:")
print("  - load_and_clean_data")
print("  - perform_knn_imputation")
print("  - apply_optimal_transformations")
print("  - detect_and_cap_outliers")

# Test avec des données factices
import pandas as pd
np.random.seed(42)

# Créer des données de test
n_samples = 100
test_df = pd.DataFrame({
    'feature1': np.random.normal(0, 1, n_samples),
    'feature2': np.random.normal(5, 2, n_samples),
    'target': np.random.binomial(1, 0.3, n_samples)
})

# Introduire quelques valeurs manquantes
missing_idx = np.random.choice(n_samples, 10, replace=False)
test_df.loc[missing_idx, 'feature1'] = np.nan

print(f"\n📊 Données de test créées: {test_df.shape}")
print(f"🕳️ Valeurs manquantes: {test_df.isnull().sum().sum()}")

# Test KNN imputation
df_imputed, imputer = perform_knn_imputation(
    test_df, ['feature1'], n_neighbors=5, save_imputer=False
)

remaining_missing = df_imputed.isnull().sum().sum()
print(f"✅ Imputation KNN: {remaining_missing} valeurs manquantes restantes")

✅ Module de prétraitement importé
📦 Fonctions disponibles:
  - load_and_clean_data
  - perform_knn_imputation
  - apply_optimal_transformations
  - detect_and_cap_outliers

📊 Données de test créées: (100, 3)
🕳️ Valeurs manquantes: 10
🔧 IMPUTATION KNN (k=5)
  • feature1: 10 valeurs manquantes (10.0%)
✅ Imputation terminée en 0.01s
🎯 Colonnes imputées: 1
✅ Toutes les valeurs manquantes ont été imputées
✅ Imputation KNN: 0 valeurs manquantes restantes


## 4. Test du module de modélisation

In [4]:
from modules.notebook2_modeling import (
    get_default_param_grids,
    create_model_estimators,
    optimize_classification_threshold
)

print("✅ Module de modélisation importé")

# Test des grilles de paramètres
param_grids = get_default_param_grids()
print(f"\n📋 Grilles de paramètres disponibles: {list(param_grids.keys())}")

# Test des estimateurs
estimators = create_model_estimators()
print(f"🤖 Estimateurs disponibles: {list(estimators.keys())}")

# Test d'optimisation de seuil avec des données factices
y_true = np.random.binomial(1, 0.3, 1000)
y_proba = np.random.beta(2, 5, 1000)  # Probabilités factices

threshold_results = optimize_classification_threshold(
    y_true, y_proba, metric='f1', verbose=False
)

print(f"\n🎯 Seuil optimal: {threshold_results['best_threshold']:.3f}")
print(f"📈 Score F1 optimal: {threshold_results['best_score']:.3f}")

✅ Module de modélisation importé

📋 Grilles de paramètres disponibles: ['randforest', 'xgboost', 'gradboost', 'svm', 'mlp']
🤖 Estimateurs disponibles: ['randforest', 'xgboost', 'gradboost', 'svm', 'mlp']

🎯 Seuil optimal: 0.100
📈 Score F1 optimal: 0.451


## 5. Test du module d'ensembles

In [5]:
from modules.modeling import (
    create_voting_ensemble,
    create_stacking_ensemble,
    get_ensemble_feature_importance
)
from sklearn.ensemble import RandomForestClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression

print("✅ Module d'ensembles importé")

# Créer des modèles de base pour test
base_models = {
    'rf': RandomForestClassifier(n_estimators=10, random_state=42),
    'svm': SVC(probability=True, random_state=42),
    'lr': LogisticRegression(random_state=42)
}

# Test Voting Ensemble
voting_ensemble = create_voting_ensemble(base_models, voting='soft')
print(f"🗳️ Voting Ensemble créé: {type(voting_ensemble).__name__}")

# Test Stacking Ensemble
stacking_ensemble = create_stacking_ensemble(base_models)
print(f"🥞 Stacking Ensemble créé: {type(stacking_ensemble).__name__}")

print("\n📦 Fonctions d'ensemble disponibles:")
print("  - create_voting_ensemble")
print("  - create_bagging_ensemble")
print("  - create_stacking_ensemble")
print("  - optimize_ensemble")
print("  - train_all_ensembles")

2025-08-14 13:53:00,548 - modules.modeling.ensembles - INFO - 🗳️ Création d'un ensemble Voting (soft)


✅ Module d'ensembles importé


2025-08-14 13:53:00,548 - modules.modeling.ensembles - INFO - 📊 Modèles de base: ['rf', 'svm', 'lr']
2025-08-14 13:53:00,548 - modules.modeling.ensembles - INFO - 🥞 Création d'un ensemble Stacking
2025-08-14 13:53:00,548 - modules.modeling.ensembles - INFO - 📊 Modèles de base: ['rf', 'svm', 'lr']
2025-08-14 13:53:00,548 - modules.modeling.ensembles - INFO - 🧠 Méta-classificateur: LogisticRegression


🗳️ Voting Ensemble créé: VotingClassifier
🥞 Stacking Ensemble créé: StackingClassifier

📦 Fonctions d'ensemble disponibles:
  - create_voting_ensemble
  - create_bagging_ensemble
  - create_stacking_ensemble
  - optimize_ensemble
  - train_all_ensembles


## 6. Test du module d'évaluation

In [6]:
from modules.evaluation import (
    calculate_basic_metrics,
    calculate_detailed_metrics,
    optimize_threshold,
    generate_evaluation_report
)

print("✅ Module d'évaluation importé")

# Test avec des prédictions factices
y_true = np.random.binomial(1, 0.4, 200)
y_pred = np.random.binomial(1, 0.4, 200)
y_proba = np.random.beta(2, 3, 200)

# Test des métriques de base
basic_metrics = calculate_basic_metrics(y_true, y_pred, y_proba)
print(f"\n📊 Métriques de base calculées: {list(basic_metrics.keys())}")
print(f"   F1-Score: {basic_metrics['f1']:.3f}")
print(f"   AUC-ROC: {basic_metrics.get('auc_roc', 'N/A')}")

# Test des métriques détaillées
detailed_metrics = calculate_detailed_metrics(y_true, y_pred, y_proba)
print(f"\n📈 Métriques détaillées disponibles: {list(detailed_metrics.keys())}")

# Test d'optimisation de seuil
threshold_opt = optimize_threshold(y_true, y_proba, metric='f1')
print(f"\n🎯 Optimisation de seuil:")
print(f"   Seuil optimal: {threshold_opt['best_threshold']:.3f}")
print(f"   Score optimal: {threshold_opt['best_score']:.3f}")

print("\n📋 Fonctions d'évaluation disponibles:")
print("  - calculate_basic_metrics")
print("  - calculate_detailed_metrics") 
print("  - optimize_threshold")
print("  - analyze_threshold_sensitivity")
print("  - plot_evaluation_dashboard")
print("  - generate_evaluation_report")

2025-08-14 13:53:00,598 - modules.evaluation.metrics - INFO - 🎯 Optimisation du seuil pour f1
2025-08-14 13:53:00,732 - modules.evaluation.metrics - INFO - 🏆 Seuil optimal: 0.210 (score: 0.5225)


✅ Module d'évaluation importé

📊 Métriques de base calculées: ['accuracy', 'precision', 'recall', 'f1', 'specificity', 'npv', 'auc_roc', 'auc_pr']
   F1-Score: 0.413
   AUC-ROC: 0.5300797030243476

📈 Métriques détaillées disponibles: ['basic_metrics', 'classification_report', 'confusion_matrix', 'confusion_matrix_normalized']

🎯 Optimisation de seuil:
   Seuil optimal: 0.210
   Score optimal: 0.523

📋 Fonctions d'évaluation disponibles:
  - calculate_basic_metrics
  - calculate_detailed_metrics
  - optimize_threshold
  - analyze_threshold_sensitivity
  - plot_evaluation_dashboard
  - generate_evaluation_report


## 7. Test de génération de rapport

In [7]:
# Simulation des résultats d'un modèle
model_results = {
    'basic_metrics': basic_metrics,
    'classification_report': detailed_metrics['classification_report'],
    'confusion_matrix': detailed_metrics['confusion_matrix'],
    'optimal_threshold': threshold_opt,
    'training_time': 45.2,
    'best_cv_score': 0.742
}

# Générer un rapport
report = generate_evaluation_report(
    model_results, 
    model_name="TestModel", 
    save_report=False
)

print("📝 Rapport d'évaluation généré:")
print("=" * 50)
print(report[:500] + "..." if len(report) > 500 else report)

2025-08-14 13:53:00,757 - modules.evaluation.metrics - INFO - 📝 Génération du rapport pour TestModel


📝 Rapport d'évaluation généré:
RAPPORT D'ÉVALUATION - TESTMODEL

MÉTRIQUES PRINCIPALES:
------------------------------
ACCURACY       : 0.5600
PRECISION      : 0.3924
RECALL         : 0.4366
F1             : 0.4133
SPECIFICITY    : 0.6279
NPV            : 0.6694
AUC_ROC        : 0.5301
AUC_PR         : 0.3874

RAPPORT DE CLASSIFICATION:
------------------------------...


## 8. Résumé des tests

In [8]:
print("🎉 RÉSUMÉ DES TESTS DE MIGRATION")
print("=" * 50)
print("✅ Configuration centralisée")
print("✅ Utilitaires de stockage")
print("✅ Module de prétraitement (Notebook 1)")
print("✅ Module de modélisation (Notebook 2)")
print("✅ Module d'ensembles (Notebook 3)")
print("✅ Module d'évaluation")
print("✅ Génération de rapports")
print("\n🚀 La migration vers la nouvelle structure modulaire est RÉUSSIE !")
print("\n📖 Consultez MIGRATION_GUIDE.md pour les détails d'utilisation.")

🎉 RÉSUMÉ DES TESTS DE MIGRATION
✅ Configuration centralisée
✅ Utilitaires de stockage
✅ Module de prétraitement (Notebook 1)
✅ Module de modélisation (Notebook 2)
✅ Module d'ensembles (Notebook 3)
✅ Module d'évaluation
✅ Génération de rapports

🚀 La migration vers la nouvelle structure modulaire est RÉUSSIE !

📖 Consultez MIGRATION_GUIDE.md pour les détails d'utilisation.
