In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Étape 1 : Charger et fusionner les fichiers
train_df = pd.read_csv("kdd_train.csv")
test_df = pd.read_csv("kdd_test.csv")
df = pd.concat([train_df, test_df], ignore_index=True)
print(f"✅ Fusion terminée : {df.shape[0]} lignes")

# Étape 2 : Encodage des colonnes catégoriques
cat_cols = ['protocol_type', 'service', 'flag']
for col in cat_cols:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
print("✅ Colonnes catégoriques encodées :", cat_cols)

# Étape 3 : Transformation de la colonne 'labels' → 'target' (0 = normal, 1 = attaque)
df['target'] = df['labels'].apply(lambda x: 0 if x == 'normal' else 1)

# Étape 4 : Nettoyage final
df.drop(columns=['labels'], inplace=True)

# Étape 5 : Sauvegarde
df.to_csv("kdd_full_clean.csv", index=False)
print("✅ Fichier final sauvegardé sous : kdd_full_clean.csv")


In [2]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Étape 1 : Charger et fusionner les fichiers
train_df = pd.read_csv("kdd_train.csv")
test_df = pd.read_csv("kdd_test.csv")
df = pd.concat([train_df, test_df], ignore_index=True)
print(f"✅ Fusion terminée : {df.shape[0]} lignes")

# Étape 2 : Encodage des colonnes catégoriques
cat_cols = ['protocol_type', 'service', 'flag']
for col in cat_cols:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
print("✅ Colonnes catégoriques encodées :", cat_cols)

# Étape 3 : Regroupement des labels en 5 super-catégories
dos = ['back', 'land', 'neptune', 'pod', 'smurf', 'teardrop', 'apache2', 'udpstorm', 'processtable', 'worm']
probe = ['ipsweep', 'nmap', 'portsweep', 'satan', 'mscan', 'saint']
u2r = ['buffer_overflow', 'loadmodule', 'perl', 'rootkit', 'xterm', 'ps', 'sqlattack']
r2l = ['ftp_write', 'guess_passwd', 'imap', 'multihop', 'phf', 'spy', 'warezclient', 'warezmaster',
       'sendmail', 'named', 'snmpgetattack', 'snmpguess', 'xlock', 'xsnoop']

def map_attack_type(label):
    if label == 'normal':
        return 'normal'
    elif label in dos:
        return 'dos'
    elif label in probe:
        return 'probe'
    elif label in u2r:
        return 'u2r'
    elif label in r2l:
        return 'r2l'
    else:
        return 'other'  # pour couverture complète

df['attack_class'] = df['labels'].apply(map_attack_type)

# Encodage numérique final
label_encoder = LabelEncoder()
df['target'] = label_encoder.fit_transform(df['attack_class'])

# Affichage du mapping final
print("✅ Mapping final :")
for label, idx in zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_)):
    print(f"  {idx} → {label}")

# Étape 4 : Nettoyage
df.drop(columns=['labels', 'attack_class'], inplace=True)

# Étape 5 : Sauvegarde
df.to_csv("kdd_full_clean_5classes.csv", index=False)
print("✅ Fichier sauvegardé sous : kdd_full_clean_5classes.csv (classes DOS, PROBE, U2R, R2L, NORMAL)")


✅ Fusion terminée : 148517 lignes
✅ Colonnes catégoriques encodées : ['protocol_type', 'service', 'flag']
✅ Mapping final :
  0 → dos
  1 → normal
  2 → other
  3 → probe
  4 → r2l
  5 → u2r
✅ Fichier sauvegardé sous : kdd_full_clean_5classes.csv (classes DOS, PROBE, U2R, R2L, NORMAL)


In [1]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder

# Étape 1 : Charger et fusionner les fichiers
train_df = pd.read_csv("kdd_train.csv")
test_df = pd.read_csv("kdd_test.csv")
df = pd.concat([train_df, test_df], ignore_index=True)
print(f"✅ Fusion terminée : {df.shape[0]} lignes")

# Étape 2 : Encodage des colonnes catégoriques
cat_cols = ['protocol_type', 'service', 'flag']
for col in cat_cols:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col])
print("✅ Colonnes catégoriques encodées :", cat_cols)

# Étape 3 : Transformation de la colonne 'labels' → 'target' multiclasse
label_encoder = LabelEncoder()
df['target'] = label_encoder.fit_transform(df['labels'])

# Sauvegarder le mapping label → classe numérique
label_map = dict(zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_)))
print("✅ Mapping des classes :")
for label, idx in label_map.items():
    print(f"  {idx} → {label}")

# Étape 4 : Nettoyage final
df.drop(columns=['labels'], inplace=True)

# Étape 5 : Sauvegarde
df.to_csv("kdd_full_clean_multiclass.csv", index=False)
print("✅ Fichier final multiclasse sauvegardé sous : kdd_full_clean_multiclass.csv")


✅ Fusion terminée : 148517 lignes
✅ Colonnes catégoriques encodées : ['protocol_type', 'service', 'flag']
✅ Mapping des classes :
  0 → apache2
  1 → back
  2 → buffer_overflow
  3 → ftp_write
  4 → guess_passwd
  5 → httptunnel
  6 → imap
  7 → ipsweep
  8 → land
  9 → loadmodule
  10 → mailbomb
  11 → mscan
  12 → multihop
  13 → named
  14 → neptune
  15 → nmap
  16 → normal
  17 → perl
  18 → phf
  19 → pod
  20 → portsweep
  21 → processtable
  22 → ps
  23 → rootkit
  24 → saint
  25 → satan
  26 → sendmail
  27 → smurf
  28 → snmpgetattack
  29 → snmpguess
  30 → spy
  31 → teardrop
  32 → warezclient
  33 → warezmaster
  34 → xlock
  35 → xsnoop
  36 → xterm
✅ Fichier final multiclasse sauvegardé sous : kdd_full_clean_multiclass.csv


In [None]:
import pandas as pd
from typed_data_transformer_gmm import TypedDataTransformer
import joblib

# Load NSL-KDD dataset (Encoded and Important Features only)
data = pd.read_csv('kdd_full_clean.csv')

# Display the first few rows of the dataset to understand its structure
print('originail shape:', data.shape)
data.head()

# Split the data into features and target
X = data.drop(columns=['target'])
y = data['target']

tdt = TypedDataTransformer(X)
X_encoded = tdt.fit_transform(X)

# Sauvegarder dans un fichier .pkl
joblib.dump(tdt, "typed_nslkdd_all_features.pkl")
print('originail shape:', X_encoded.shape)

In [None]:
import pandas as pd
import os
from sklearn.preprocessing import LabelEncoder
import numpy as np
# === Étape 1 : Chargement sécurisé et fusion ===
folder = './cicids2017_csv_files'
csv_files = [f for f in os.listdir(folder) if f.endswith('.csv')]
dataframes = []

print("📂 Chargement des fichiers :")
for f in csv_files:
    path = os.path.join(folder, f)
    try:
        df_temp = pd.read_csv(path)
        dataframes.append(df_temp)
        print(f"  ✅ {f} : {df_temp.shape[0]} lignes")
    except Exception as e:
        print(f"  ❌ Erreur dans {f} : {e}")

# Fusion
df = pd.concat(dataframes, ignore_index=True)
print(f"\n✅ Fusion totale : {df.shape[0]} lignes")

# === Étape 2 : Nettoyage des noms de colonnes ===
df.columns = df.columns.str.strip()

# === Étape 3 : Encodage des colonnes catégoriques ===
cat_cols = ['Protocol', 'Flow ID', 'Source IP', 'Destination IP', 'Timestamp']
cols_to_drop = ['Flow ID', 'Source IP', 'Destination IP', 'Timestamp']

cat_cols = [col for col in cat_cols if col in df.columns]
for col in cat_cols:
    le = LabelEncoder()
    df[col] = le.fit_transform(df[col].astype(str))

print(f"✅ Colonnes catégoriques encodées : {cat_cols}")

# Suppression des colonnes inutiles
df.drop(columns=[col for col in cols_to_drop if col in df.columns], inplace=True)

# === Étape 4 : Encodage des labels ===
if 'Label' in df.columns:
    label_encoder = LabelEncoder()
    df['target'] = label_encoder.fit_transform(df['Label'])

    print("\n✅ Mapping complet (Label → target) :")
    for label, idx in zip(label_encoder.classes_, label_encoder.transform(label_encoder.classes_)):
        print(f"  {idx:2d} → {label}")

    print("\n✅ Répartition des classes :")
    print(df['Label'].value_counts())

    df.drop(columns=['Label'], inplace=True)
else:
    print("❌ La colonne 'Label' est absente du DataFrame après fusion !")
# === Supprimer les lignes contenant des NaN et inf ===
df = df.dropna()
df.replace([np.inf, -np.inf], np.nan, inplace=True)
data.dropna(inplace=True)

# === Étape 5 : Sauvegarde ===
df.to_csv("cicids2017_clean_all_labels.csv", index=False)
print("\n✅ Fichier sauvegardé sous : cicids2017_clean_all_labels.csv")


📂 Chargement des fichiers :
  ✅ Thursday-WorkingHours-Morning-WebAttacks.pcap_ISCX.csv : 170366 lignes
  ✅ Monday-WorkingHours.pcap_ISCX.csv : 529918 lignes
  ✅ Friday-WorkingHours-Afternoon-PortScan.pcap_ISCX.csv : 286467 lignes
  ✅ Tuesday-WorkingHours.pcap_ISCX.csv : 445909 lignes
  ✅ Friday-WorkingHours-Morning.pcap_ISCX.csv : 191033 lignes
  ✅ Friday-WorkingHours-Afternoon-DDos.pcap_ISCX.csv : 225745 lignes
  ✅ Wednesday-workingHours.pcap_ISCX.csv : 692703 lignes
  ✅ Thursday-WorkingHours-Afternoon-Infilteration.pcap_ISCX.csv : 288602 lignes

✅ Fusion totale : 2830743 lignes
✅ Colonnes catégoriques encodées : []

✅ Mapping complet (Label → target) :
   0 → BENIGN
   1 → Bot
   2 → DDoS
   3 → DoS GoldenEye
   4 → DoS Hulk
   5 → DoS Slowhttptest
   6 → DoS slowloris
   7 → FTP-Patator
   8 → Heartbleed
   9 → Infiltration
  10 → PortScan
  11 → SSH-Patator
  12 → Web Attack � Brute Force
  13 → Web Attack � Sql Injection
  14 → Web Attack � XSS

✅ Répartition des classes :
Label
B

In [None]:
import pandas as pd
from typed_data_transformer_gmm import TypedDataTransformer
import joblib

# === Étape 1 : Charger les données nettoyées (avec classes indépendantes) ===
data = pd.read_csv('./cicids2017_clean_all_labels.csv')

print('✅ Données chargées avec succès')
print('Original shape:', data.shape)

# === Étape 2 : Séparation features / target ===
X = data.drop(columns=['target'])
y = data['target']

# === Étape 3 : Encodage intelligent avec TypedDataTransformer ===
tdt = TypedDataTransformer(X)
X_encoded = tdt.fit_transform(X)

print('✅ Transformation typée réalisée')
print('Encoded shape:', X_encoded.shape)

# === Étape 4 : Sauvegarde du transformeur ===
joblib.dump(tdt, "typed_cicids2017_all_features.pkl")
print('✅ Transformeur sauvegardé sous : typed_cicids2017_all_features.pkl')


✅ Données chargées avec succès
Original shape: (2827876, 79)


: 