In [None]:
import os 
import pandas as pd 
import numpy as np 
import joblib 
from typing import Dict, Tuple 
import warnings 
warnings.filterwarnings('ignore')

import matplotlib 
matplotlib.use('Agg') 
# Backend non-interactif 
import matplotlib.pyplot as plt 
import seaborn as sns

import plotly.graph_objects as go 
import plotly.express as px 
import plotly.figure_factory as ff 
import plotly.io as pio 
pio.renderers.default = "notebook"

print("Imports chargés avec succès")

In [None]:
dataset_path = 'data.csv' 
test_column = 'prediction' 
model_path = 'model.joblib' 
threshold = 0.5

print(f"Paramètres chargés:") 
print(f" - Dataset: {dataset_path}") 
print(f" - Colonne cible: {test_column}") 
print(f" - Modèle: {model_path}") 
print(f" - Seuil: {threshold}")

In [None]:
COLONNES_NECESSAIRES = [ 'same_srv_rate', 'logged_in', 'dst_host_serror_rate', 'dst_host_same_srv_rate', 'dst_host_srv_count', 'dst_host_srv_serror_rate', 'flag', 'srv_serror_rate', 'protocol_type', 'last_flag', 'serror_rate' ]

PROTO_MAP = {'tcp': 0, 'udp': 1, 'icmp': 2} 
FLAG_MAP = {'SF': 0, 'S0': 1, 'REJ': 2, 'RSTR': 3, 'RSTO': 4}

print(f"Colonnes attendues: {len(COLONNES_NECESSAIRES)}")

In [None]:
print(f"\nChargement du fichier: {dataset_path}")
try:
    df = pd.read_csv(dataset_path)
    print(f"Données chargées: {df.shape[0]} lignes  {df.shape[1]} colonnes")
 # Aperçu des données
    print("\nAperçu des 5 premières lignes:")
    display(df.head())

except FileNotFoundError:
    print(f"Erreur: Le fichier {dataset_path} n'a pas été trouvé.")
    raise
except Exception as e:
    print(f"Erreur lors du chargement: {e}")
    raise

In [None]:
print("\nSTATISTIQUES DESCRIPTIVES")
print("=" * 50)

stats = df.describe()
display(stats)

# Informations sur les types de données
print("\nTypes de données:")
print(df.dtypes)

# Valeurs manquantes
missing = df.isnull().sum()
if missing.sum() > 0:
    print("\nValeurs manquantes détectées:")
    print(missing[missing > 0])
else:
    print("\nAucune valeur manquante")

In [None]:
def encodage_et_aligne(df: pd.DataFrame) -> pd.DataFrame:
    """Prépare les données pour la prédiction"""
    df = df.copy()

    # Encodage des variables catégorielles
    if 'protocol_type' in df.columns:
        df['protocol_type'] = df['protocol_type'].map(PROTO_MAP).fillna(0).astype(int)

    if 'flag' in df.columns:
        df['flag'] = df['flag'].map(FLAG_MAP).fillna(0).astype(int)

    # Ajouter colonnes manquantes avec 0
    manquantes = [c for c in COLONNES_NECESSAIRES if c not in df.columns]
    for c in manquantes:
        df[c] = 0

     # Ordonner les colonnes
    df = df[COLONNES_NECESSAIRES].copy()

    # Conversion des types
    int_cols = ['logged_in', 'dst_host_srv_count', 'flag', 'protocol_type', 'last_flag']
    for c in int_cols:
        df[c] = pd.to_numeric(df[c], errors='coerce').fillna(0).astype(int)

    float_cols = [c for c in COLONNES_NECESSAIRES if c not in int_cols]
    for c in float_cols:
        df[c] = pd.to_numeric(df[c], errors='coerce').fillna(0.0).astype(float)

    return df

print("\nPrétraitement des données...")
df_processed = encodage_et_aligne(df)
print(f"Données prétraitées: {df_processed.shape}")

In [None]:
print("\nVISUALISATION: Distribution des caractéristiques numériques")

# Sélectionner les colonnes numériques
numeric_cols = df_processed.select_dtypes(include=[np.number]).columns.tolist()[:6]

fig, axes = plt.subplots(2, 3, figsize=(15, 10))
axes = axes.flatten()

for idx, col in enumerate(numeric_cols):
    if idx < len(axes):
        axes[idx].hist(df_processed[col], bins=30, edgecolor='black', color='skyblue', alpha=0.7)
        axes[idx].set_title(f'Distribution: {col}', fontsize=12, fontweight='bold')
        axes[idx].set_xlabel(col, fontsize=10)
        axes[idx].set_ylabel('Fréquence', fontsize=10)
        axes[idx].grid(True, alpha=0.3)

plt.tight_layout()
fig # Capture automatique de la figure

In [None]:
print("\nPRÉDICTIONS")
print("=" * 50)

try:
    # Charger le modèle si fourni
    if os.path.exists(model_path):
        print(f"Chargement du modèle: {model_path}")
        model = joblib.load(model_path)

        # Prédictions
        if hasattr(model, 'predict_proba'):
            predictions_proba = model.predict_proba(df_processed)[:, 1]
            predictions = (predictions_proba >= threshold).astype(int)
        else:
            predictions = model.predict(df_processed)
            predictions_proba = predictions.astype(float)

        # Ajouter les prédictions au dataframe
        df['prediction'] = predictions
        df['proba'] = predictions_proba

        # Statistiques des prédictions
        n_attacks = int(predictions.sum())
        n_normal = len(predictions) - n_attacks
        attack_rate = (n_attacks / len(predictions)) * 100

        print(f"\nRésultats:")
        print(f"  • Connexions normales: {n_normal} ({100-attack_rate:.1f}%)")
        print(f"  • Attaques détectées: {n_attacks} ({attack_rate:.1f}%)")
    
    else:
        print(f"Modèle non trouvé: {model_path}")
        # Créer des prédictions factices pour la démo
        df['prediction'] = np.random.choice([0, 1], size=len(df), p=[0.7, 0.3])
        df['proba'] = np.random.random(len(df))
        print("Utilisation de prédictions aléatoires pour la démonstration")

        n_attacks = int(df['prediction'].sum())
        n_normal = len(df) - n_attacks
        attack_rate = (n_attacks / len(df)) * 100

except Exception as e:
    print(f"Erreur lors de la prédiction: {e}")
    raise

In [None]:
print("\nVISUALISATION: Répartition des prédictions")

fig, ax = plt.subplots(figsize=(10, 6))

categories = ['Normal', 'Attaque']
values = [n_normal, n_attacks]
colors = ['#2ecc71', '#e74c3c']

bars = ax.bar(categories, values, color=colors, edgecolor='black', linewidth=2, alpha=0.8)

# Ajouter les valeurs sur les barres
for bar, value in zip(bars, values):
    height = bar.get_height()
    ax.text(bar.get_x() + bar.get_width()/2., height,
            f'{int(value)}\n({value/len(df)*100:.1f}%)',
            ha='center', va='bottom', fontsize=12, fontweight='bold')

ax.set_title('Distribution des Prédictions', fontsize=16, fontweight='bold', pad=20)
ax.set_ylabel('Nombre de connexions', fontsize=12)
ax.set_ylim(0, max(values) * 1.15)
ax.grid(True, alpha=0.3, axis='y')

plt.tight_layout()
fig # Capture automatique

In [None]:
print("\nVISUALISATION INTERACTIVE: Matrice de corrélation")

# Calculer la matrice de corrélation
corr_matrix = df_processed.corr()

# Créer la heatmap avec Plotly
fig = ff.create_annotated_heatmap(
    z=corr_matrix.values,
    x=corr_matrix.columns.tolist(),
    y=corr_matrix.columns.tolist(),
    colorscale='RdBu',
    showscale=True,
    reversescale=True
)

fig.update_layout(
    title='Matrice de Corrélation des Features',
    title_font_size=18,
    width=900,
    height=800,
    xaxis_showgrid=False,
    yaxis_showgrid=False,
    xaxis_side='bottom'
)

fig # Capture automatique

In [None]:
print("\nTABLEAU RÉCAPITULATIF")
print("=" * 50)

summary_data = {
    'Métrique': [
     'Total connexions',
     'Connexions normales',
        'Attaques détectées',
        'Taux d\'attaques (%)',
        'Probabilité moyenne (attaques)',
        'Probabilité moyenne (normal)'
    ],
    'Valeur': [
        len(df),
        n_normal,
        n_attacks,
        f"{attack_rate:.2f}%",
        f"{df[df['prediction']==1]['proba'].mean():.3f}" if n_attacks > 0 else "N/A",
        f"{df[df['prediction']==0]['proba'].mean():.3f}" if n_normal > 0 else "N/A"
    ]
}

summary_df = pd.DataFrame(summary_data)
display(summary_df)

In [None]:
print("\nAperçu des résultats avec prédictions (10 premières lignes):")

result_df = df.head(10)[['prediction', 'proba']].copy()
result_df['label'] = result_df['prediction'].map({0: 'Normal', 1: 'Attaque'})

display(result_df)

print("\nAnalyse terminée avec succès!")
print("=" * 50)