In [7]:
import pandas as pd
from sklearn.ensemble import IsolationForest
from sklearn.preprocessing import StandardScaler, LabelEncoder
import joblib

# Charger les données KDD Cup 99
df = pd.read_csv("artifacts/KDDCup99.csv", header=None)

# Sélection de colonnes pertinentes
df = df.iloc[:, [0, 1, 4, 5]]
df.columns = ["duration", "protocol_type", "src_bytes", "dst_bytes"]

# Vérifier et convertir les colonnes en numérique
df["duration"] = pd.to_numeric(df["duration"], errors="coerce")
df["src_bytes"] = pd.to_numeric(df["src_bytes"], errors="coerce")
df["dst_bytes"] = pd.to_numeric(df["dst_bytes"], errors="coerce")

# Remplacer les NaN par 0
df.fillna(0, inplace=True)

# Encodage de "protocol_type"
label_encoder = LabelEncoder()
df["protocol_type"] = label_encoder.fit_transform(df["protocol_type"])

# Normalisation des données
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)

# Entraîner Isolation Forest
model = IsolationForest(contamination=0.1, random_state=42)
model.fit(df_scaled)

# Prédire les anomalies
df["anomaly"] = model.predict(df_scaled)
df["anomaly"] = df["anomaly"].map({1: "Normal", -1: "Anomalie"})

# Sauvegarde du modèle et des objets de transformation
joblib.dump(model, "models/isolation_forest.pkl")


# Affichage des résultats
print("🎯 Modèle entraîné et sauvegardé avec succès !")
print(df["anomaly"].value_counts())


  df = pd.read_csv("artifacts/KDDCup99.csv", header=None)


🎯 Modèle entraîné et sauvegardé avec succès !
anomaly
Normal      444619
Anomalie     49402
Name: count, dtype: int64
