In [2]:
### ----------------------------------------------------------------------
### SCRIPT COMPLET POUR PERSONNE 1: EXPLORATEUR & PRÉPARATEUR
### Fichier: notebooks/data_preprocessing.ipynb
### ----------------------------------------------------------------------

import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler
import warnings

# Ignorer les avertissements pour une sortie plus propre
warnings.filterwarnings('ignore')

print("--- Début du script de prétraitement (Personne 1) ---")

# --- ÉTAPE 1 : CHARGER LE DATASET ---
file_path = '../data/dataset.csv' 
try:
    df = pd.read_csv(file_path)
    print(f"Dataset chargé avec succès depuis : {file_path}")
    print(f"Taille originale du dataset : {df.shape}")
except FileNotFoundError:
    print(f"ERREUR: Fichier non trouvé à l'emplacement : {file_path}")
    print("Veuillez vous assurer que 'UNSW_NB15_training-set.csv' est téléchargé,")
    print("placé dans le dossier 'data/', et renommé en 'dataset.csv'.")
    # L'exécution s'arrêtera ici si le fichier n'est pas trouvé
    raise

# --- ÉTAPE 2 : NETTOYER LES DONNÉES ---
print("\n--- Étape 2 : Nettoyage des données ---")

# 1. Supprimer la colonne 'id' (inutile pour l'IA)
if 'id' in df.columns:
    df = df.drop(columns=['id'])
    print("Colonne 'id' supprimée.")

# 2. Supprimer les lignes doublons
rows_before = len(df)
df = df.drop_duplicates()
rows_after = len(df)
print(f"{rows_before - rows_after} lignes doublons supprimées.")

# 3. Gérer les valeurs manquantes (basé sur l'aperçu)
# Remplacer '-' dans 'service' par 'unknown'
if 'service' in df.columns:
    df['service'] = df['service'].replace('-', 'unknown')
    print("Valeurs '-' dans 'service' remplacées par 'unknown'.")

# 4. Supprimer toute autre ligne avec des valeurs NaN
rows_before = len(df)
df = df.dropna()
rows_after = len(df)
print(f"{rows_before - rows_after} lignes avec des valeurs NaN supprimées.")
print(f"Taille après nettoyage : {df.shape}")


# --- ÉTAPE 3 : ENCODER ET NORMALISER ---
print("\n--- Étape 3 : Transformation des données ---")

# 1. Identifier les types de colonnes
cols_categorielles = ['proto', 'service', 'state']
cols_cibles = ['attack_cat', 'label']
cols_numeriques = [col for col in df.columns if col not in cols_categorielles + cols_cibles]

print(f"Colonnes catégorielles à encoder : {cols_categorielles}")

# 2. ENCODER (Texte -> Chiffres)

print("Encodage des colonnes catégorielles...")
encoder = LabelEncoder()
for col in cols_categorielles:
    df[col] = encoder.fit_transform(df[col])

# 3. NORMALISER (Chiffres -> Échelle 0-1)

print("Normalisation des colonnes numériques...")
scaler = MinMaxScaler()
df[cols_numeriques] = scaler.fit_transform(df[cols_numeriques])

print("Transformation terminée.")


# --- ÉTAPE 4 : SAUVEGARDER LE RÉSULTAT ---
print("\n--- Étape 4 : Sauvegarde du fichier propre ---")

output_path = '../data/clean_data.csv'
df.to_csv(output_path, index=False)

print("\n FÉLICITATIONS, MISSION ACCOMPLIE ! ")
print(f"Le fichier 'clean_data.csv' est sauvegardé et prêt pour la Personne 2.")
print("--- Fin du script ---")

--- Début du script de prétraitement (Personne 1) ---
Dataset chargé avec succès depuis : ../data/dataset.csv
Taille originale du dataset : (82332, 45)

--- Étape 2 : Nettoyage des données ---
Colonne 'id' supprimée.
26387 lignes doublons supprimées.
Valeurs '-' dans 'service' remplacées par 'unknown'.
0 lignes avec des valeurs NaN supprimées.
Taille après nettoyage : (55945, 44)

--- Étape 3 : Transformation des données ---
Colonnes catégorielles à encoder : ['proto', 'service', 'state']
Encodage des colonnes catégorielles...
Normalisation des colonnes numériques...
Transformation terminée.

--- Étape 4 : Sauvegarde du fichier propre ---

 FÉLICITATIONS, MISSION ACCOMPLIE ! 
Le fichier 'clean_data.csv' est sauvegardé et prêt pour la Personne 2.
--- Fin du script ---
