In [21]:
from sklearn.svm import OneClassSVM
from sklearn.metrics import classification_report, confusion_matrix

# Entraînement du modèle One-Class SVM
svm_model = OneClassSVM(kernel='rbf', gamma='auto', nu=0.05)
svm_model.fit(X_scaled)

# Prédictions
y_pred_svm = svm_model.predict(X_scaled)

# Conversion en étiquettes compatibles (1=normal, -1=anomalie vers 0=normal, 1=anomalie)
df['anomaly_svm'] = y_pred_svm
df['anomaly_svm'] = df['anomaly_svm'].map({1: 0, -1: 1}) # 0=normal, 1=anomalie

# Évaluation : attention, on compare avec anomaly_type != NaN (existe seulement pour les anomalies injectées)
true_labels = df['anomaly_type'].notna().astype(int)

print("📊 Rapport de classification pour One-Class SVM :")
print(classification_report(true_labels, df['anomaly_svm'], target_names=["Normal", "Anomalie"]))

# Matrice de confusion
print("📊 Matrice de confusion :")
print(confusion_matrix(true_labels, df['anomaly_svm']))

📊 Rapport de classification pour One-Class SVM :
              precision    recall  f1-score   support

      Normal       0.97      0.88      0.92       955
    Anomalie       0.14      0.42      0.21        45

    accuracy                           0.86      1000
   macro avg       0.56      0.65      0.57      1000
weighted avg       0.93      0.86      0.89      1000

📊 Matrice de confusion :
[[841 114]
 [ 26  19]]


In [31]:
import pandas as pd

# ... (votre code de chargement, preprocessing, entraînement One-Class SVM et évaluation) ...

# Récupérer les prédictions de la colonne 'anomaly_svm' du DataFrame
svm_predictions = df['anomaly_svm'].values

# Convertir les vraies étiquettes originales (df['log_type']) en numérique (0=normal, 1=anomalie)
true_labels_numeric = [1 if label == 'anomaly' else 0 for label in df['log_type']]

# Créer un DataFrame pour les résultats du One-Class SVM
svm_results_df = pd.DataFrame({'prediction': svm_predictions, 'true_label': true_labels_numeric})
import os
print("Répertoire de travail actuel :", os.getcwd())

# Sauvegarder les résultats dans un fichier CSV dans le dossier 'results'
svm_results_df.to_csv("results/oneclasssvm_predictions.csv", index=False)
print("Les prédictions du One-Class SVM ont été sauvegardées dans 'results/oneclasssvm_predictions.csv'")

Répertoire de travail actuel : C:\Users\Cash\Downloads\anomaly-detection-project
Les prédictions du One-Class SVM ont été sauvegardées dans 'results/oneclasssvm_predictions.csv'


In [23]:
svm_model.fit(X_scaled)

In [24]:
from sklearn.svm import OneClassSVM

# Entraînement du modèle One-Class SVM
svm_model = OneClassSVM(kernel='rbf', gamma='auto', nu=0.05)
svm_model.fit(X_scaled)

# Le reste de votre code pour les prédictions et l'évaluation suivra.

In [25]:
scaler = StandardScaler(with_mean=False)
X_scaled = scaler.fit_transform(X_processed)

In [28]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

preprocessor = ColumnTransformer(
    transformers=[
        ("num", StandardScaler(), numeric_features),
        ("cat", OneHotEncoder(handle_unknown="ignore", sparse_output=True), categorical_features)
    ],
    remainder='drop'
)

df_model = df.copy()
X = df_model.drop(columns=["timestamp", "ip", "user", "log_type", "anomaly_type"])
X_processed = preprocessor.fit_transform(X)
# ... (votre code de création du ColumnTransformer et application sur X pour le One-Class SVM) ...

X_processed_svm = preprocessor.fit_transform(X) # Assurez-vous d'utiliser les bonnes variables
# **Sauvegarde du modèle One-Class SVM**
model_dir = "model"
if not os.path.exists(model_dir):
    os.makedirs(model_dir)
    print(f"Le dossier '{model_dir}' a été créé.")

svm_filename = "one_class_svm.pkl"
svm_filepath = os.path.join(model_dir, svm_filename)

with open(svm_filepath, "wb") as f:
    pickle.dump(svm_model, f)

print(f"Le modèle One-Class SVM a été sauvegardé dans '{svm_filepath}'")

# Sauvegarde du pipeline complet
import joblib
joblib.dump(preprocessor, "model/preprocessing_pipeline_svm.pkl") # Vous pouvez utiliser un nom de fichier légèrement différent si vous le souhaitez

print("Le pipeline de prétraitement pour le One-Class SVM a été sauvegardé dans 'model/preprocessing_pipeline_svm.pkl'")

# ... (le reste de votre code d'entraînement du modèle One-Class SVM) ...

Le modèle One-Class SVM a été sauvegardé dans 'model\one_class_svm.pkl'
Le pipeline de prétraitement pour le One-Class SVM a été sauvegardé dans 'model/preprocessing_pipeline_svm.pkl'


In [19]:
# Sélection des colonnes pour le préprocesseur
categorical_features = ["method", "endpoint", "time_period", "ip_type", "status_class", "day_of_week"]
numeric_features = ["hour"]

In [27]:
# Conversion de timestamp en datetime
df["timestamp"] = pd.to_datetime(df["timestamp"])

# Extraction de nouvelles features temporelles
df["hour"] = df["timestamp"].dt.hour
df["day_of_week"] = df["timestamp"].dt.day_name()

# Création de tranches horaires
def get_time_period(hour):
    if 5 <= hour < 12:
        return "morning"
    elif 12 <= hour < 17:
        return "afternoon"
    elif 17 <= hour < 21:
        return "evening"
    else:
        
        return "night"

df["time_period"] = df["hour"].apply(get_time_period)

# Classification des IP (locale / publique)
def classify_ip(ip):
    if ip.startswith("192.") or ip.startswith("10.") or ip.startswith("172."):
        return "local"
    else:
        return "public"

df["ip_type"] = df["ip"].apply(classify_ip)

# Catégorisation des codes de statut HTTP
def classify_status(status):
    if 200 <= status < 300:
        return "2xx_success"
    elif 400 <= status < 500:
        return "4xx_client_error"
    elif 500 <= status < 600:
        return "5xx_server_error"
    else:
        return "other"

df["status_class"] = df["status"].apply(classify_status)

# Vérification du résultat
df.head()


Unnamed: 0,timestamp,ip,user,method,endpoint,status,log_type,anomaly_type,hour,day_of_week,anomaly_svm,time_period,ip_type,status_class
0,2025-03-28 12:57:09,20.51.40.36,olsonparker,POST,/products,200,normal,,12,Friday,0,afternoon,public,2xx_success
1,2025-03-31 12:14:12,11.210.53.146,amanda52,GET,/admin,404,normal,,12,Monday,0,afternoon,public,4xx_client_error
2,2025-04-05 00:14:05,103.231.88.32,randolphandrew,GET,/admin,200,normal,,0,Saturday,0,night,public,2xx_success
3,2025-04-01 17:03:44,31.53.113.235,karenschmidt,GET,/login,200,normal,,17,Tuesday,0,evening,public,2xx_success
4,2025-03-22 10:49:01,192.168.0.100,jacobmorris,GET,/api/data,429,anomaly,ip_flood,10,Saturday,0,morning,local,4xx_client_error


In [17]:
import pandas as pd
import pickle  # Ajoutez cette ligne
import matplotlib.pyplot as plt
import seaborn as sns
import os
# Définissez le chemin vers votre fichier CSV
log_file_path = os.path.join("notebooks", "data", "generated_logs.csv")
df = pd.read_csv(log_file_path)

# Si vous avez les étapes de création des features temporelles/IP/statut, exécutez-les aussi
df["timestamp"] = pd.to_datetime(df["timestamp"])
df["hour"] = df["timestamp"].dt.hour
df["day_of_week"] = df["timestamp"].dt.day_name()
# ... et ainsi de suite pour les autres features