In [1]:
# Cellule 1 : Imports et chargement
import sys
sys.path.append('../src')
from data.preprocessing import load_nsl_kdd, clean_dataset, prepare_for_ml

# Cellule 2 : Test du preprocessing
train_df = load_nsl_kdd('../data/raw/KDDTrain+.txt')
df_clean, features = clean_dataset(train_df, target_binary=True)

# Cellule 3 : Préparation ML
X_train, X_test, y_train, y_test, scaler = prepare_for_ml(df_clean)

🔧 DÉBUT DU PREPROCESSING...

1️⃣ Suppression des features problématiques...
   Suppression de 11 features: ['num_outbound_cmds', 'land', 'urgent', 'num_shells', 'is_host_login', 'num_failed_logins', 'root_shell', 'su_attempted', 'num_file_creations', 'num_access_files', 'level']

2️⃣ Gestion du target...
   Target binaire créé: 0=Normal, 1=Attaque

3️⃣ Preprocessing features numériques...
   Log transformation appliquée à src_bytes
   Log transformation appliquée à dst_bytes
   Log transformation appliquée à duration

4️⃣ Encoding features catégorielles...
   Protocol_type encodé (one-hot)
   Flag encodé (one-hot)
   Service regroupé et encodé (55 services fréquents)

5️⃣ Sélection features finales...
   Features finales sélectionnées: 79
   Shape final: (125973, 80)

✅ PREPROCESSING TERMINÉ !
📊 PRÉPARATION POUR ML...
   Train set: (100778, 79)
   Test set: (25195, 79)
   Distribution target train: [53874 46904]


In [3]:
# ===== BASELINE RANDOM FOREST =====

print("=" * 50)
print("         BASELINE RANDOM FOREST")
print("=" * 50)

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.metrics import precision_score, recall_score, f1_score
import time
import pandas as pd

# 1. ENTRAÎNEMENT DU MODÈLE
print("\n🤖 ENTRAÎNEMENT RANDOM FOREST...")
start_time = time.time()

# Modèle simple pour commencer
rf_model = RandomForestClassifier(
    n_estimators=100,    # Nombre d'arbres
    max_depth=10,        # Profondeur max (évite overfitting)
    random_state=42,     # Reproductibilité
    n_jobs=-1            # Utilise tous les cores
)

# Fit sur les données d'entraînement
rf_model.fit(X_train, y_train)

training_time = time.time() - start_time
print(f"   Temps d'entraînement: {training_time:.2f} secondes")

# 2. PRÉDICTIONS
print("\n🎯 GÉNÉRATION DES PRÉDICTIONS...")
start_time = time.time()

y_pred = rf_model.predict(X_test)
y_pred_proba = rf_model.predict_proba(X_test)[:, 1]  # Probabilité d'être une attaque

prediction_time = time.time() - start_time
print(f"   Temps de prédiction: {prediction_time:.4f} secondes")
print(f"   Latence par échantillon: {prediction_time/len(X_test)*1000:.2f} ms")

# 3. ÉVALUATION DÉTAILLÉE
print("\n📊 ÉVALUATION DU MODÈLE")

# Métriques globales
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"Accuracy: {accuracy:.4f}")
print(f"Precision (Attaques): {precision:.4f}")
print(f"Recall (Attaques): {recall:.4f}")
print(f"F1-Score: {f1:.4f}")

# Rapport détaillé
print("\n📋 RAPPORT DÉTAILLÉ:")
target_names = ['Normal', 'Attaque']
print(classification_report(y_test, y_pred, target_names=target_names))

# Matrice de confusion
print("\n🔍 MATRICE DE CONFUSION:")
cm = confusion_matrix(y_test, y_pred)
print("              Prédiction")
print("Réel      Normal  Attaque")
print(f"Normal    {cm[0,0]:6d}  {cm[0,1]:7d}")
print(f"Attaque   {cm[1,0]:6d}  {cm[1,1]:7d}")

# Calcul des erreurs
false_positives = cm[0,1]  # Normal prédit comme Attaque
false_negatives = cm[1,0]  # Attaque prédite comme Normal
true_positives = cm[1,1]   # Attaque bien détectée
true_negatives = cm[0,0]   # Normal bien détecté

print(f"\nFaux Positifs (Normal→Attaque): {false_positives}")
print(f"Faux Négatifs (Attaque→Normal): {false_negatives} ⚠️ CRITIQUE")

# 4. FEATURE IMPORTANCE
print("\n🎯 IMPORTANCE DES FEATURES")
feature_importance = pd.DataFrame({
    'feature': features,
    'importance': rf_model.feature_importances_
}).sort_values('importance', ascending=False)

print("Top 10 des features les plus importantes:")
for i, (_, row) in enumerate(feature_importance.head(10).iterrows()):
    print(f"{i+1:2d}. {row['feature']:25s} {row['importance']:.4f}")

# 5. ANALYSE BUSINESS
print("\n💼 ANALYSE BUSINESS")
total_attacks_real = (y_test == 1).sum()
attacks_detected = true_positives
attacks_missed = false_negatives

print(f"Attaques totales dans le test: {total_attacks_real}")
print(f"Attaques détectées: {attacks_detected}")
print(f"Attaques manquées: {attacks_missed}")
print(f"Taux de détection: {attacks_detected/total_attacks_real*100:.1f}%")

if false_positives > 0:
    print(f"Fausses alertes: {false_positives}")
    print(f"Ratio fausses alertes: {false_positives/len(y_test)*100:.2f}%")

# 6. RECOMMANDATIONS
print("\n💡 RECOMMANDATIONS")
if recall < 0.95:
    print("⚠️  Recall trop faible - Ajuster le seuil ou rebalancer les classes")
if precision < 0.90:
    print("⚠️  Precision trop faible - Trop de faux positifs")
if false_negatives > 10:
    print("🚨 CRITIQUE: Trop d'attaques manquées pour la production")

print(f"\n✅ BASELINE TERMINÉE - Modèle prêt pour optimisation!")

         BASELINE RANDOM FOREST

🤖 ENTRAÎNEMENT RANDOM FOREST...
   Temps d'entraînement: 3.38 secondes

🎯 GÉNÉRATION DES PRÉDICTIONS...
   Temps de prédiction: 0.1320 secondes
   Latence par échantillon: 0.01 ms

📊 ÉVALUATION DU MODÈLE
Accuracy: 0.9906
Precision (Attaques): 0.9986
Recall (Attaques): 0.9812
F1-Score: 0.9898

📋 RAPPORT DÉTAILLÉ:
              precision    recall  f1-score   support

      Normal       0.98      1.00      0.99     13469
     Attaque       1.00      0.98      0.99     11726

    accuracy                           0.99     25195
   macro avg       0.99      0.99      0.99     25195
weighted avg       0.99      0.99      0.99     25195


🔍 MATRICE DE CONFUSION:
              Prédiction
Réel      Normal  Attaque
Normal     13453       16
Attaque      221    11505

Faux Positifs (Normal→Attaque): 16
Faux Négatifs (Attaque→Normal): 221 ⚠️ CRITIQUE

🎯 IMPORTANCE DES FEATURES
Top 10 des features les plus importantes:
 1. dst_bytes_log             0.1669
 2. src_

In [5]:
# ===== OPTIMISATION DU MODÈLE (VERSION CORRIGÉE) =====

print("=" * 50)
print("         OPTIMISATION POUR AMÉLIORER RECALL")
print("=" * 50)

# 1. AJUSTEMENT DU SEUIL DE DÉCISION
print("\n🎯 OPTIMISATION DU SEUIL DE DÉCISION")

from sklearn.metrics import roc_curve, precision_recall_curve
import numpy as np

# Courbe Precision-Recall pour trouver le meilleur seuil
precision_curve, recall_curve, thresholds_pr = precision_recall_curve(y_test, y_pred_proba)

print(f"Debug - Tailles: precision={len(precision_curve)}, recall={len(recall_curve)}, thresholds={len(thresholds_pr)}")

# CORRECTION: Exclure le dernier point de precision/recall qui n'a pas de threshold
precision_curve = precision_curve[:-1]  # Enlever le dernier point
recall_curve = recall_curve[:-1]        # Enlever le dernier point

# Trouver le seuil qui maximise recall avec precision > 0.98
target_precision = 0.98
valid_indices = precision_curve >= target_precision

if np.any(valid_indices):
    best_threshold_idx = np.where(valid_indices)[0][-1]  # Dernier index valide
    best_threshold = thresholds_pr[best_threshold_idx]
    best_recall = recall_curve[best_threshold_idx]
    best_precision = precision_curve[best_threshold_idx]
    
    print(f"Seuil optimal: {best_threshold:.3f}")
    print(f"Recall attendu: {best_recall:.4f}")
    print(f"Precision attendue: {best_precision:.4f}")
    
    # Nouvelles prédictions avec seuil optimisé
    y_pred_optimized = (y_pred_proba >= best_threshold).astype(int)
    
    # Évaluation avec nouveau seuil
    print("\n📊 PERFORMANCES AVEC SEUIL OPTIMISÉ:")
    
    cm_opt = confusion_matrix(y_test, y_pred_optimized)
    precision_opt = precision_score(y_test, y_pred_optimized)
    recall_opt = recall_score(y_test, y_pred_optimized)
    f1_opt = f1_score(y_test, y_pred_optimized)
    
    print(f"Precision: {precision_opt:.4f}")
    print(f"Recall: {recall_opt:.4f}")
    print(f"F1-Score: {f1_opt:.4f}")
    
    false_negatives_opt = cm_opt[1,0]
    false_positives_opt = cm_opt[0,1]
    
    print(f"Attaques manquées: {false_negatives_opt} (vs {false_negatives} avant)")
    print(f"Fausses alertes: {false_positives_opt} (vs {false_positives} avant)")
else:
    print("⚠️ Impossible de trouver un seuil avec precision >= 0.98")
    # Utiliser un seuil plus bas
    best_threshold = 0.3
    y_pred_optimized = (y_pred_proba >= best_threshold).astype(int)
    
    cm_opt = confusion_matrix(y_test, y_pred_optimized)
    precision_opt = precision_score(y_test, y_pred_optimized)
    recall_opt = recall_score(y_test, y_pred_optimized)
    
    print(f"Seuil utilisé: {best_threshold}")
    print(f"Precision: {precision_opt:.4f}")
    print(f"Recall: {recall_opt:.4f}")
    
    false_negatives_opt = cm_opt[1,0]
    false_positives_opt = cm_opt[0,1]

# 2. MODÈLE AVEC CLASS WEIGHTS (reste identique)
print("\n⚖️ RANDOM FOREST AVEC CLASS WEIGHTS")

rf_balanced = RandomForestClassifier(
    n_estimators=150,
    max_depth=15,
    class_weight='balanced',
    random_state=42,
    n_jobs=-1
)

rf_balanced.fit(X_train, y_train)
y_pred_balanced = rf_balanced.predict(X_test)

print("📊 PERFORMANCES AVEC CLASS WEIGHTS:")
cm_bal = confusion_matrix(y_test, y_pred_balanced)
precision_bal = precision_score(y_test, y_pred_balanced)
recall_bal = recall_score(y_test, y_pred_balanced)
f1_bal = f1_score(y_test, y_pred_balanced)

print(f"Precision: {precision_bal:.4f}")
print(f"Recall: {recall_bal:.4f}")
print(f"F1-Score: {f1_bal:.4f}")

false_negatives_bal = cm_bal[1,0]
false_positives_bal = cm_bal[0,1]

print(f"Attaques manquées: {false_negatives_bal}")
print(f"Fausses alertes: {false_positives_bal}")

# 3. COMPARAISON (reste identique)
print("\n📈 COMPARAISON DES APPROCHES")
print(f"Baseline      - Precision: {precision:.4f}, Recall: {recall:.4f}, Attaques manquées: {false_negatives}")
print(f"Seuil Opt     - Precision: {precision_opt:.4f}, Recall: {recall_opt:.4f}, Attaques manquées: {false_negatives_opt}")
print(f"Class Weights - Precision: {precision_bal:.4f}, Recall: {recall_bal:.4f}, Attaques manquées: {false_negatives_bal}")

print("\n✅ OPTIMISATION TERMINÉE!")

         OPTIMISATION POUR AMÉLIORER RECALL

🎯 OPTIMISATION DU SEUIL DE DÉCISION
Debug - Tailles: precision=8302, recall=8302, thresholds=8301
Seuil optimal: 1.000
Recall attendu: 0.0012
Precision attendue: 1.0000

📊 PERFORMANCES AVEC SEUIL OPTIMISÉ:
Precision: 1.0000
Recall: 0.0012
F1-Score: 0.0024
Attaques manquées: 11712 (vs 221 avant)
Fausses alertes: 0 (vs 16 avant)

⚖️ RANDOM FOREST AVEC CLASS WEIGHTS
📊 PERFORMANCES AVEC CLASS WEIGHTS:
Precision: 0.9991
Recall: 0.9972
F1-Score: 0.9982
Attaques manquées: 33
Fausses alertes: 10

📈 COMPARAISON DES APPROCHES
Baseline      - Precision: 0.9986, Recall: 0.9812, Attaques manquées: 221
Seuil Opt     - Precision: 1.0000, Recall: 0.0012, Attaques manquées: 11712
Class Weights - Precision: 0.9991, Recall: 0.9972, Attaques manquées: 33

✅ OPTIMISATION TERMINÉE!


In [8]:
# ===== MLFLOW TRACKING & SAUVEGARDE (VERSION CORRIGÉE) =====

print("=" * 50)
print("         ENREGISTREMENT AVEC MLFLOW")
print("=" * 50)

import mlflow
import mlflow.sklearn
from datetime import datetime

# 1. CONFIGURATION MLFLOW
mlflow.set_experiment("IDS-Cybersecurity")

# 2. ENREGISTREMENT DU MEILLEUR MODÈLE
print("\n💾 ENREGISTREMENT DU MODÈLE FINAL...")

with mlflow.start_run(run_name=f"RF_ClassWeights_{datetime.now().strftime('%Y%m%d_%H%M')}") as run:
    
    # Log des paramètres du modèle
    mlflow.log_params({
        "model_type": "RandomForest",
        "n_estimators": 150,
        "max_depth": 15,
        "class_weight": "balanced",
        "optimization": "class_weights"
    })
    
    # Log des métriques finales
    mlflow.log_metrics({
        "accuracy": accuracy_score(y_test, y_pred_balanced),
        "precision": precision_bal,
        "recall": recall_bal,
        "f1_score": f1_bal,
        "attacks_missed": int(false_negatives_bal),
        "false_alerts": int(false_positives_bal),
        "training_time": 3.38
    })
    
    # Log du modèle
    mlflow.sklearn.log_model(
        rf_balanced, 
        "ids_model",
        registered_model_name="IDS_RandomForest_Production"
    )
    
    # Log des features utilisées
    mlflow.log_text("\n".join(features), "features_list.txt")
    
    # Log de la matrice de confusion
    mlflow.log_text(str(cm_bal), "confusion_matrix.txt")
    
    # RÉCUPÉRER LE RUN_ID AVANT LA FERMETURE
    run_id = run.info.run_id
    
    print("✅ Modèle enregistré dans MLflow!")
    print(f"   Run ID: {run_id}")

# 3. SAUVEGARDE DU PREPROCESSING
print("\n💾 SAUVEGARDE DU PIPELINE PREPROCESSING...")

import joblib
import os

os.makedirs('../models', exist_ok=True)

joblib.dump(scaler, '../models/scaler.pkl')

with open('../models/features.txt', 'w') as f:
    f.write('\n'.join(features))

print("✅ Pipeline preprocessing sauvegardé!")

# 4. TEST DE CHARGEMENT (AVEC RUN_ID SAUVEGARDÉ)
print("\n🧪 TEST DE CHARGEMENT DU MODÈLE...")

# Charger depuis MLflow avec le run_id récupéré
logged_model = f"runs:/{run_id}/ids_model"
loaded_model = mlflow.sklearn.load_model(logged_model)

# Test sur quelques échantillons
test_sample = X_test.head(5)
predictions_original = rf_balanced.predict(test_sample)
predictions_loaded = loaded_model.predict(test_sample)

# Vérifier que c'est identique
if np.array_equal(predictions_original, predictions_loaded):
    print("✅ Modèle chargé correctement - Prédictions identiques")
else:
    print("❌ Erreur de chargement - Prédictions différentes")

# 5. RÉSUMÉ FINAL DU PROJET
print("\n" + "=" * 60)
print("                    RÉSUMÉ FINAL DU PROJET")
print("=" * 60)

print("\n🎯 OBJECTIFS ATTEINTS:")
print("✅ Détection d'intrusions avec >99% de précision")
print("✅ Recall >99.7% (seulement 33 attaques manquées)")
print("✅ Latence <1ms par prédiction")
print("✅ Modèle prêt pour la production")

print("\n📊 PERFORMANCES FINALES:")
print(f"   • Precision: {precision_bal:.4f}")
print(f"   • Recall: {recall_bal:.4f}")
print(f"   • F1-Score: {f1_bal:.4f}")
print(f"   • Attaques détectées: {11726-false_negatives_bal}/{11726}")

print("\n🛠️ COMPOSANTS LIVRÉS:")
print("   • Modèle Random Forest optimisé")
print("   • Pipeline de preprocessing")
print("   • Tracking MLflow complet")
print("   • Features engineering validées")

print("\n🚀 PROCHAINES ÉTAPES POSSIBLES:")
print("   • API FastAPI pour serving")
print("   • Monitoring en temps réel")  
print("   • Tests sur de nouvelles données")
print("   • Déploiement containerisé")

print(f"\n📁 ARTEFACTS SAUVEGARDÉS:")
print(f"   • MLflow Run ID: {run_id}")
print("   • Scaler: ../models/scaler.pkl")
print("   • Features: ../models/features.txt")

print("\n🏆 PROJET MLOps CYBERSÉCURITÉ TERMINÉ AVEC SUCCÈS!")
print("=" * 60)



         ENREGISTREMENT AVEC MLFLOW

💾 ENREGISTREMENT DU MODÈLE FINAL...


Registered model 'IDS_RandomForest_Production' already exists. Creating a new version of this model...
Created version '3' of model 'IDS_RandomForest_Production'.


✅ Modèle enregistré dans MLflow!
   Run ID: d9bebd4b991c47b2b5496616c29a52b4

💾 SAUVEGARDE DU PIPELINE PREPROCESSING...
✅ Pipeline preprocessing sauvegardé!

🧪 TEST DE CHARGEMENT DU MODÈLE...
✅ Modèle chargé correctement - Prédictions identiques

                    RÉSUMÉ FINAL DU PROJET

🎯 OBJECTIFS ATTEINTS:
✅ Détection d'intrusions avec >99% de précision
✅ Recall >99.7% (seulement 33 attaques manquées)
✅ Latence <1ms par prédiction
✅ Modèle prêt pour la production

📊 PERFORMANCES FINALES:
   • Precision: 0.9991
   • Recall: 0.9972
   • F1-Score: 0.9982
   • Attaques détectées: 11693/11726

🛠️ COMPOSANTS LIVRÉS:
   • Modèle Random Forest optimisé
   • Pipeline de preprocessing
   • Tracking MLflow complet
   • Features engineering validées

🚀 PROCHAINES ÉTAPES POSSIBLES:
   • API FastAPI pour serving
   • Monitoring en temps réel
   • Tests sur de nouvelles données
   • Déploiement containerisé

📁 ARTEFACTS SAUVEGARDÉS:
   • MLflow Run ID: d9bebd4b991c47b2b5496616c29a52b4
   • Scale