# 2. Rapport individuel
Chaque étudiant doit rédiger un rapport individuel (10 à 20 pages maximum), structuré comme suit :

## a. Définition du problème :
- Identifiez la problématique métier à résoudre.
- Précisez les objectifs et les exigences du projet.

## b. Collecte des données :
- Choisissez un dataset pertinent pour votre projet.
- Évaluez la qualité et la quantité des données disponibles.



---  

```md
# 📊 Analyse Exploratoire d'un Dataset CSV avec Pandas, NumPy, Seaborn et Matplotlib

Ce script Python permet d'effectuer une **analyse exploratoire des données (EDA)** sur un fichier **CSV** en utilisant les bibliothèques **Pandas, NumPy, Seaborn et Matplotlib**. Il fournit un aperçu des données, identifie les valeurs manquantes et dupliquées, affiche des statistiques descriptives et génère des visualisations utiles pour comprendre la distribution des données et leur corrélation.

## 📌 Prérequis

Avant d'exécuter ce script, assurez-vous d'avoir installé les bibliothèques nécessaires avec la commande suivante :

```bash
pip install pandas numpy seaborn matplotlib
```

## 📂 Chargement du Dataset

Le script commence par charger un fichier CSV nommé **"02-14-2018-2.csv"** dans un DataFrame Pandas :

```python
file_path = "02-14-2018-2.csv"
df = pd.read_csv(file_path)
```

Si le fichier n'est pas dans le même répertoire que le script, vous devrez ajuster le chemin du fichier.

## 🔍 1. Aperçu des Données

Les premières lignes du dataset sont affichées pour donner un premier aperçu du contenu :

```python
print(df.head())
```

Cela permet d'identifier rapidement les colonnes et le type de données présentes.

## 📃 2. Informations Générales sur le Dataset

Le script affiche des informations détaillées sur le dataset, y compris le **nombre total de lignes et de colonnes**, ainsi que les **types de données** :

```python
print(df.info())
```

Ce rapport permet de détecter si certaines colonnes contiennent des valeurs **nulles** ou des **types de données incohérents**.

## 🔢 3. Nombre de Lignes et Colonnes

Le nombre total de **lignes** et **colonnes** du dataset est affiché :

```python
print(f"Nombre de lignes : {df.shape[0]}  |  Nombre de colonnes : {df.shape[1]}")
```

Cela donne une idée générale de la **taille du dataset**.

## ⚠️ 4. Vérification des Valeurs Manquantes

Les valeurs manquantes sont identifiées en calculant le nombre de **valeurs nulles par colonne** :

```python
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0]
print(missing_values)
```

Seules les colonnes contenant **des valeurs manquantes** sont affichées. Cela permet d'évaluer si un **nettoyage des données** est nécessaire.

## 📊 5. Distribution des Classes (Trafic Normal vs Attaques)

Une **visualisation** de la répartition des labels dans le dataset est générée avec Seaborn :

```python
plt.figure(figsize=(10, 5))
sns.countplot(y=df['Label'], order=df['Label'].value_counts().index)
plt.title("📊 Distribution des attaques et du trafic normal")
plt.show()
```

- La colonne `Label` est supposée contenir des **catégories de trafic** (par ex. "normal" vs. "attaque").
- Un **graphique en barres** est utilisé pour montrer le **nombre d'occurrences** de chaque type de trafic.

## 📈 6. Statistiques Descriptives des Variables Numériques

Le script affiche un **résumé statistique** des colonnes numériques :

```python
print(df.describe())
```

Cela inclut :
- **Moyenne (mean)**
- **Écart-type (std)**
- **Valeurs minimales et maximales**
- **Quartiles (25%, 50%, 75%)**

Ces informations sont essentielles pour détecter **d'éventuelles anomalies** ou valeurs aberrantes.

## 🔄 7. Vérification des Valeurs Dupliquées

Le script détecte et affiche le nombre de **lignes dupliquées** dans le dataset :

```python
duplicates = df.duplicated().sum()
print(f"Nombre de lignes dupliquées : {duplicates}")
```

Si des doublons sont détectés, il peut être utile de les supprimer pour éviter des biais dans l'analyse.

## 🔬 8. Matrice de Corrélation des 10 Premières Variables

Une **matrice de corrélation** est générée pour analyser la **relation entre les variables numériques** :

```python
plt.figure(figsize=(12, 8))
corr_matrix = df.select_dtypes(include=[np.number]).corr()
sns.heatmap(corr_matrix.iloc[:10, :10], annot=True, cmap='coolwarm', fmt=".2f")
plt.title("🔍 Matrice de Corrélation (10 premières variables)")
plt.show()
```

- Seules les **10 premières colonnes** numériques sont affichées.
- Une **carte thermique (heatmap)** est utilisée pour mieux visualiser les corrélations.
- Une **forte corrélation** (valeurs proches de **+1** ou **-1**) peut indiquer une **redondance** entre certaines variables.

## ✅ Conclusion

À la fin du script, un message de confirmation est affiché :

```python
print("\n✅ Évaluation des données terminée !")
```

Ce script fournit une **analyse rapide et efficace** d'un dataset CSV, facilitant la **préparation des données** avant une analyse plus approfondie ou un entraînement de modèle machine learning.



In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.preprocessing import LabelEncoder, StandardScaler
import matplotlib.font_manager as fm
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix, roc_curve, auc, precision_recall_curve
from sklearn.metrics import precision_score, recall_score, f1_score



# ✅ Define a compatible font to avoid display errors
plt.rcParams['font.family'] = 'DejaVu Sans'  # Replaces Noto Sans

# ✅ Adjust display parameters to avoid truncation
pd.options.display.max_rows = 50  # Adjust as needed
pd.options.display.max_columns = 20

# 📌 Load a CSV file (adjust path according to file location)
file_path = "02-14-2018-2.csv"
df = pd.read_csv(file_path)

# ✅ Checking and replacing infinite values
df.replace([np.inf, -np.inf], np.nan, inplace=True)

# 🔹 1. Dataset overview
print("\nAperçu des premières lignes du dataset :")
print(df.head())

# 🔹 2. General dataset information
print("\nInformations générales :")
print(df.info())

# 🔹 3. Number of rows and columns
print(f"\nNombre de lignes : {df.shape[0]}  |  Nombre de colonnes : {df.shape[1]}")

# 🔹 4. Checking for missing values
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0]  # Keep only columns with zero values
if not missing_values.empty:
    print("\nColonnes avec valeurs manquantes :")
    print(missing_values)
else:
    print("\nAucune valeur manquante détectée.")

# 🔹 5. Class distribution (normal traffic vs. attacks)
plt.figure(figsize=(10, 5))
sns.countplot(y=df['Label'], order=df['Label'].value_counts().index)
plt.title("Distribution des attaques et du trafic normal")
plt.show()

# 🔹 6. Descriptive statistics for numerical variables
print("\nCalcul des statistiques descriptives en cours...")
stats_desc = df.describe()

# ✅ Save to file to avoid truncated display
stats_desc.to_csv("statistiques_descriptives.csv")
print("\nStatistiques descriptives enregistrées dans 'statistiques_descriptives.csv'. Ouvrez ce fichier pour voir toutes les valeurs.")

# ✅ Partial display to avoid truncation in the console
print(stats_desc.iloc[:, :10])  # Display first 10 columns only

# 🔹 7. Checking duplicate values
duplicates = df.duplicated().sum()
print(f"\nNombre de lignes dupliquées : {duplicates}")

# 🔹 8. Correlation matrix for the first 10 variables
plt.figure(figsize=(12, 8))
corr_matrix = df.select_dtypes(include=[np.number]).corr()
sns.heatmap(corr_matrix.iloc[:10, :10], annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Matrice de Corrélation (10 premières variables)")
plt.show()

print("\nÉvaluation des données terminée !")


## c. Nettoyage et préparation des données :
- Effectuez le nettoyage des données (gestion des doublons, traitement des valeurs manquantes, etc.).
- Transformez et formatez les données si nécessaire.
- Fusionnez différentes sources de données, le cas échéant.


---

# 🛠️ Prétraitement des Données avec Pandas, NumPy et Scikit-Learn

Ce script effectue un **prétraitement avancé des données** sur un dataset chargé avec **Pandas**. Il supprime les doublons, gère les valeurs manquantes et aberrantes, convertit les types de données, encode les labels et normalise les features avant de sauvegarder le dataset nettoyé.

---

## 📌 Prérequis

Assurez-vous d'avoir installé les bibliothèques nécessaires avec la commande :

```bash
pip install pandas numpy seaborn matplotlib scikit-learn
```

## 🗂️ Chargement des Données

Le script suppose que les données sont déjà chargées dans un DataFrame `df`. Si ce n'est pas le cas, vous pouvez ajouter :

```python
df = pd.read_csv("02-14-2018-2.csv")  
```

---

## 🔹 1. Suppression des Doublons

Les doublons sont détectés et supprimés pour éviter la **redondance des données** :

```python
print(f"Nombre de doublons avant suppression : {df.duplicated().sum()}")
df.drop_duplicates(inplace=True)
print(f"Nombre de doublons après suppression : {df.duplicated().sum()}")
```

- **Avant suppression**, on affiche le **nombre de lignes dupliquées**.
- **Après suppression**, on vérifie qu'il ne reste plus de doublons.

---

## 🔹 2. Traitement des Valeurs Manquantes

Le script identifie et corrige les **valeurs nulles** dans le dataset.

```python
print("Valeurs manquantes avant traitement :")
print(df.isnull().sum()[df.isnull().sum() > 0])
```

Deux méthodes sont utilisées :
1. **Remplacement par la médiane** pour les colonnes numériques :
   ```python
   for col in df.select_dtypes(include=[np.number]).columns:
       df[col].fillna(df[col].median(), inplace=True)
   ```
   → Cela évite de **biaiser les distributions** en conservant une tendance centrale.

2. **Suppression des lignes restantes contenant des valeurs manquantes** :
   ```python
   df.dropna(inplace=True)
   ```
   → Utile si certaines valeurs manquantes ne peuvent être remplacées.

Enfin, on vérifie que **toutes les valeurs nulles ont été supprimées** :

```python
print(f"Valeurs manquantes après traitement : {df.isnull().sum().sum()}")
```

---

## 🔹 3. Gestion des Valeurs Infinies et Aberrantes

Le script identifie les **valeurs infinies** qui peuvent perturber les analyses.

```python
print("Vérification des valeurs infinies avant traitement :")
print(df.replace([np.inf, -np.inf], np.nan).isnull().sum()[df.replace([np.inf, -np.inf], np.nan).isnull().sum() > 0])
```

- Les valeurs **infinies** (`np.inf`, `-np.inf`) sont remplacées par **NaN** :
  ```python
  df.replace([np.inf, -np.inf], np.nan, inplace=True)
  ```
  → Cela évite des erreurs lors des calculs et visualisations.

- On vérifie ensuite les **valeurs extrêmes** :
  ```python
  max_value = df.select_dtypes(include=[np.number]).max().max()
  if max_value > 1e15:
      df[df > 1e15] = np.nan
      print("⚠️ Certaines valeurs étaient trop grandes et ont été remplacées par NaN.")
  ```
  → Un seuil de **10¹⁵** est fixé pour identifier les valeurs anormalement élevées.

- Après cela, toutes les valeurs `NaN` restantes sont supprimées :

  ```python
  df.dropna(inplace=True)
  ```

---

## 🔹 4. Vérification et Correction des Types de Données

Le script affiche les types de données avant correction :

```python
print("Types de données avant transformation :")
print(df.dtypes)
```

- Il tente de **convertir les colonnes de type "object" en float** si possible :
  ```python
  for col in df.select_dtypes(include=['object']).columns:
      try:
          df[col] = df[col].astype(float)
      except:
          pass  # Certaines colonnes resteront du texte (ex: 'Label')
  ```
  → Cela est utile pour garantir que les **colonnes numériques sont bien exploitables**.

---

## 🔹 5. Encodage de la Colonne `Label` (Attaque vs Normal)

Si le dataset contient une colonne `Label` indiquant **le type de trafic**, celle-ci est transformée en **valeurs numériques** (`0` pour normal et `1` pour attaque).

```python
if 'Label' in df.columns:
    le = LabelEncoder()
    df['Label'] = le.fit_transform(df['Label'])
```

Après encodage, on affiche la distribution des labels :

```python
print("Distribution des labels après encodage :")
print(df['Label'].value_counts())
```

- Cette étape est cruciale pour **les modèles de Machine Learning**, qui ne traitent pas directement les catégories textuelles.

---

## 🔹 6. Normalisation des Features Numériques (Standardisation)

Toutes les **features numériques** sont normalisées à l'aide de la **standardisation** :

```python
scaler = StandardScaler()
numerical_cols = df.select_dtypes(include=[np.number]).columns
df[numerical_cols] = scaler.fit_transform(df[numerical_cols])
```

- Cela transforme chaque **variable** pour qu'elle ait une **moyenne de 0** et un **écart-type de 1**.
- Utile pour améliorer la **performance des modèles de classification**.

Une confirmation est affichée :

```python
print("✅ Normalisation des features terminée.")
```

---

## 🔹 7. Sauvegarde des Données Nettoyées

Les données nettoyées sont enregistrées dans un **nouveau fichier CSV** :

```python
df.to_csv("cleaned_02-14-2018-2.csv", index=False)
```

Une confirmation est affichée :

```python
print("✅ Fichier cleaned_02-14-2018-2.csv enregistré avec succès !")
```

---

## ✅ Conclusion

Ce script effectue un **nettoyage avancé** des données, essentiel avant toute analyse ou modélisation. Il permet de :

✔️ **Supprimer les doublons**  
✔️ **Gérer les valeurs manquantes et infinies**  
✔️ **Corriger les types de données**  
✔️ **Encoder les labels**  
✔️ **Standardiser les données numériques**  

---

### 🚀 Améliorations Possibles

Voici quelques pistes d'amélioration pour ce script :
- **Ajouter une détection automatique des valeurs aberrantes** avec des méthodes comme **IQR (Interquartile Range)**.
- **Générer des visualisations** pour identifier les **distributions** avant et après le traitement.
- **Créer une pipeline de prétraitement** avec `sklearn.pipeline`.

---

### 🎯 Résumé des Étapes en Code

```python
# 1. Suppression des doublons
df.drop_duplicates(inplace=True)

# 2. Traitement des valeurs manquantes
df.fillna(df.median(), inplace=True)
df.dropna(inplace=True)

# 3. Gestion des valeurs infinies et aberrantes
df.replace([np.inf, -np.inf], np.nan, inplace=True)
df.dropna(inplace=True)

# 4. Correction des types de données
for col in df.select_dtypes(include=['object']).columns:
    try:
        df[col] = df[col].astype(float)
    except:
        pass

# 5. Encodage des labels
if 'Label' in df.columns:
    df['Label'] = LabelEncoder().fit_transform(df['Label'])

# 6. Normalisation
df[df.select_dtypes(include=[np.number]).columns] = StandardScaler().fit_transform(df.select_dtypes(include=[np.number]))

# 7. Sauvegarde des données nettoyées
df.to_csv("cleaned_02-14-2018-2.csvsv", index=False)
```


In [None]:
# ✅ 9. Deleting duplicates
print(f"\n🔍 Nombre de doublons avant suppression : {df.duplicated().sum()}")
df = df.drop_duplicates()  # ✅ Suppression correcte sans inplace=True
print(f"✅ Nombre de doublons après suppression : {df.duplicated().sum()}")

# ✅ 10. Handling missing values
print("\n🔍 Valeurs manquantes avant traitement :")
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0]
print(missing_values)

# Replacement of missing values by the median for numerical columns
for col in df.select_dtypes(include=[np.number]).columns:
    df.loc[:, col] = df[col].fillna(df[col].median())  # ✅ Use .loc[] to avoid chained copies

# Deletion of remaining lines with zero values
df = df.dropna()
print("\n✅ Valeurs manquantes après traitement :", df.isnull().sum().sum())

# ✅ 11. Handling infinite values and outliers
print("\n🔍 Vérification des valeurs infinies avant traitement :")
infinite_values = df.replace([np.inf, -np.inf], np.nan).isnull().sum()
infinite_values = infinite_values[infinite_values > 0]
print(infinite_values)

# Replacing infinite values with NaN
df = df.replace([np.inf, -np.inf], np.nan)
print("\n✅ Valeurs infinies remplacées par NaN.")

# Verify and remove extreme values (too large for dtype float64)
max_value = df.select_dtypes(include=[np.number]).max().max()  # Find the largest numerical value
if max_value > 1e15:  # Safety threshold to avoid extreme values
    df.loc[:, df > 1e15] = np.nan
    print("\n⚠️ Certaines valeurs étaient trop grandes et ont été remplacées par NaN.")

# Removal of remaining NaN after infinity conversion
df = df.dropna()
print("\n✅ Suppression des NaN après traitement des valeurs infinies et aberrantes.")

# ✅ 12. DateTime column management
print("\n🔍 Détection des colonnes datetime...")
datetime_cols = []

for col in df.columns:
    try:
        df[col] = pd.to_datetime(df[col])  # Convert if date
        datetime_cols.append(col)
        print(f"📅 Converti '{col}' en format DateTime.")
    except (ValueError, TypeError):
        pass  # Ignore if conversion fails

if datetime_cols:
    # Option 1: Extract useful features
    for col in datetime_cols:
        df[col + '_hour'] = df[col].dt.hour
        df[col + '_day'] = df[col].dt.day
        df[col + '_month'] = df[col].dt.month
        df[col + '_weekday'] = df[col].dt.weekday
    
    # Option 2: Delete original datetime columns
    df = df.drop(columns=datetime_cols)
    print(f"\n✅ Colonnes datetime supprimées : {datetime_cols}")

# ✅ 13. Checking and correcting data types
print("\n🔍 Types de données avant transformation :")
print(df.dtypes)

# Convert ill-typed columns to numeric (if possible)
for col in df.select_dtypes(include=['object']).columns:
    try:
        df.loc[:, col] = df[col].astype(float)  # ✅ Use .loc[] to avoid chained copies
    except:
        pass  # Some columns will remain as text (e.g. 'Label')

# ✅ 14. Label column encoding (Attack vs Normal)
if 'Label' in df.columns:
    le = LabelEncoder()
    df.loc[:, 'Label'] = le.fit_transform(df['Label'])  # ✅ Using .loc[]

print("\n✅ Distribution des labels après encodage :")
print(df['Label'].value_counts())

# ✅ 15. Standardization of digital features
scaler = StandardScaler()
numerical_cols = df.select_dtypes(include=[np.number]).columns
df.loc[:, numerical_cols] = scaler.fit_transform(df[numerical_cols])  # ✅ Using .loc[]

print("\n✅ Normalisation des features terminée.")

# ✅ 16. Backup of cleaned data
df.to_csv("cleaned_02-14-2018-2.csv", index=False)
print("\n✅ Fichier cleaned_02-14-2018-2.csv enregistré avec succès !")


## d. Exploration et analyse des données :
- Réalisez une analyse statistique descriptive.
- Visualisez les données pour identifier les tendances et relations.
- Formulez une hypothèse initiale à tester avec les modèles de Machine Learning.


# 📊 Analyse des Données Nettoyées avec Pandas, Seaborn et Matplotlib

Ce script effectue une **analyse exploratoire approfondie** des données après nettoyage. Il inclut des statistiques descriptives, des visualisations de distribution et de corrélation pour mieux comprendre la structure du dataset.

---

## 📌 Prérequis

Avant d'exécuter ce script, assurez-vous d'avoir installé les bibliothèques nécessaires avec :

```bash
pip install pandas numpy seaborn matplotlib
```

---

## 📂 Chargement des Données Nettoyées

Le script charge un fichier CSV préalablement nettoyé :

```python
file_path = "cleaned_02-14-2018-2.csv"
df = pd.read_csv(file_path)
```

Si le fichier n'est pas dans le même répertoire, ajustez le **chemin du fichier**.

---

## 🔹 1. Aperçu des Premières Lignes

Le script affiche un **échantillon des premières lignes** du dataset :

```python
print("\n📌 Aperçu des données nettoyées :")
print(df.head())
```

Cela permet de **vérifier rapidement** la structure et le contenu des données.

---

## 🔹 2. Statistiques Générales des Données

Les **statistiques descriptives** des variables numériques sont affichées :

```python
print("\n📌 Statistiques descriptives des variables numériques :")
print(df.describe())
```

Ce tableau permet d’obtenir :
- **Moyenne (mean)**
- **Médiane (50%)**
- **Écart-type (std)**
- **Valeurs minimales et maximales**
- **Quartiles (25%, 75%)**

---

## 🔹 3. Vérification de la Distribution des Labels

Le script visualise la **répartition des classes** (`Label` = trafic normal ou attaque) :

```python
plt.figure(figsize=(8, 4))
sns.countplot(x=df['Label'], palette="viridis")
plt.title("Répartition des classes (Attaque vs Normal)")
plt.xlabel("Type de trafic")
plt.ylabel("Nombre d'échantillons")
plt.xticks(ticks=[0, 1], labels=["Normal", "Attaque"])
plt.show()
```

- Affiche **combien d'exemples** appartiennent à chaque classe.
- Vérifie si le dataset est **équilibré ou déséquilibré**.

---

## 🔹 4. Vérification de la Distribution de Variables Clés

Le script génère des **histogrammes** pour **analyser la distribution** des principales variables :

```python
features_to_plot = df.select_dtypes(include=[np.number]).columns[:6]
df[features_to_plot].hist(figsize=(12, 8), bins=50, color='royalblue', edgecolor='black')
plt.suptitle("Histogramme des principales features")
plt.show()
```

- Sélectionne les **6 premières variables numériques**.
- Affiche leur **répartition** sous forme d’**histogrammes**.
- Permet de détecter les **données asymétriques ou aberrantes**.

---

## 🔹 5. Matrice de Corrélation des Principales Features

Le script affiche une **matrice de corrélation** entre les variables :

```python
plt.figure(figsize=(10, 8))
corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot=False, cmap="coolwarm", linewidths=0.5)
plt.title("🔍 Matrice de Corrélation")
plt.show()
```

- Montre **la relation entre les variables**.
- Permet d’**identifier les corrélations fortes** (positives ou négatives).
- Utile pour détecter les variables **redondantes**.

---

## 🔹 6. Analyse des Relations entre Variables Clés

Un **nuage de points** est généré pour observer la **relation entre deux variables** :

```python
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df[features_to_plot[0]], y=df[features_to_plot[1]], hue=df['Label'], alpha=0.5, palette="coolwarm")
plt.title(f"🔍 Relation entre {features_to_plot[0]} et {features_to_plot[1]}")
plt.xlabel(features_to_plot[0])
plt.ylabel(features_to_plot[1])
plt.show()
```

- **Compare graphiquement deux variables** pour détecter une tendance.
- Utilise la **couleur** pour différencier les classes (`Label`).
- Permet de repérer **des patterns entre attaques et trafic normal**.

---

## 🔹 7. Analyse de la Distribution des Valeurs (Boxplots)

Le script génère des **boxplots** pour analyser la distribution des variables :

```python
plt.figure(figsize=(12, 6))
sns.boxplot(data=df[features_to_plot], palette="coolwarm")
plt.xticks(rotation=90)
plt.title("Boxplot des principales features")
plt.show()
```

- Permet de détecter **les valeurs aberrantes** (outliers).
- Compare **les distributions des variables** sous forme de quartiles.
- Identifie les **variations de dispersion** entre les features.

---

## ✅ Conclusion

Ce script effectue une **analyse complète** des données nettoyées et permet de :
✔️ Vérifier la **structure et les caractéristiques** du dataset  
✔️ Observer la **répartition des classes (trafic normal vs attaque)**  
✔️ Analyser la **distribution des variables numériques**  
✔️ Identifier les **corrélations et tendances clés**  
✔️ Détecter les **valeurs aberrantes et les déséquilibres**  

---

### 🎯 Résumé des Étapes en Code

```python
# 1. Chargement des données nettoyées
df = pd.read_csv("cleaned_02-14-2018-2.csv")

# 2. Aperçu des données
print(df.head())
print(df.describe())

# 3. Répartition des labels (trafic normal vs attaque)
sns.countplot(x=df['Label'], palette="viridis")
plt.show()

# 4. Histogrammes des principales variables
df[df.select_dtypes(include=[np.number]).columns[:6]].hist(figsize=(12, 8), bins=50, color='royalblue')
plt.show()

# 5. Matrice de corrélation
sns.heatmap(df.corr(), cmap="coolwarm")
plt.show()

# 6. Relation entre deux variables clés
sns.scatterplot(x=df[features_to_plot[0]], y=df[features_to_plot[1]], hue=df['Label'], alpha=0.5, palette="coolwarm")
plt.show()

# 7. Analyse des valeurs aberrantes avec boxplots
sns.boxplot(data=df[features_to_plot], palette="coolwarm")
plt.xticks(rotation=90)
plt.show()

print("\n✅ Exploration et analyse des données terminée !")
```

In [None]:
# Load cleaned data
file_path = "cleaned_02-14-2018-2.csv"
df = pd.read_csv(file_path)

# 🔹 1. Preview of the first lines
print("\n📌 Aperçu des données nettoyées :")
print(df.head())

# 🔹 2. General data statistics
print("\n📌 Statistiques descriptives des variables numériques :")
print(df.describe())

# 🔹 3. Checking label distribution
plt.figure(figsize=(8, 4))
sns.countplot(x=df['Label'], palette="viridis")
plt.title("Répartition des classes (Attaque vs Normal)")
plt.xlabel("Type de trafic")
plt.ylabel("Nombre d'échantillons")
plt.xticks(ticks=[0, 1], labels=["Normal", "Attaque"])
plt.show()

# 🔹 4. Checking the distribution of a few key variables
features_to_plot = df.select_dtypes(include=[np.number]).columns[:6]  # Selects 6 numerical variables

df[features_to_plot].hist(figsize=(12, 8), bins=50, color='royalblue', edgecolor='black')
plt.suptitle("Histogramme des principales features")
plt.show()

# 🔹 5. Correlation matrix of main features
plt.figure(figsize=(10, 8))
corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot=False, cmap="coolwarm", linewidths=0.5)
plt.title("🔍 Matrice de Corrélation")
plt.show()

# 🔹 6. Analysis of relationships between key variables (e.g. duration vs. throughput)
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df[features_to_plot[0]], y=df[features_to_plot[1]], hue=df['Label'], alpha=0.5, palette="coolwarm")
plt.title(f"🔍 Relation entre {features_to_plot[0]} et {features_to_plot[1]}")
plt.xlabel(features_to_plot[0])
plt.ylabel(features_to_plot[1])
plt.show()

# 🔹 7. Boxplot to analyze the distribution of values
plt.figure(figsize=(12, 6))
sns.boxplot(data=df[features_to_plot], palette="coolwarm")
plt.xticks(rotation=90)
plt.title("Boxplot des principales features")
plt.show()

print("\n✅ Exploration et analyse des données terminée !")

## e. Modélisation des données :

- Sélectionnez un modèle de Machine Learning adapté.
- Divisez les données en deux parties : Training et Test.
- Entraînez, optimisez et évaluez les performances du modèle.


# 🚀 Entraînement et Optimisation d'un Modèle de Machine Learning

Ce script effectue **l'entraînement, l'évaluation et l'optimisation** d'un modèle de Machine Learning pour **classifier le trafic réseau** en "Normal" ou "Attaque" à l'aide de l'algorithme **Random Forest**. 

Il comprend :
✔️ **Préparation des données**  
✔️ **Sélection et entraînement du modèle**  
✔️ **Évaluation des performances**  
✔️ **Optimisation des hyperparamètres**  
✔️ **Sauvegarde du modèle final**  

---

## 📌 Prérequis

Assurez-vous d'avoir installé les bibliothèques nécessaires avec :

```bash
pip install pandas numpy seaborn matplotlib scikit-learn joblib
```

---

## ✅ 1. Chargement des Données Nettoyées

Le dataset préalablement nettoyé est chargé dans un **DataFrame** :

```python
file_path = "cleaned_02-14-2018.csv"
df = pd.read_csv(file_path)
```

**📌 Note** : Assurez-vous que le fichier est dans le bon répertoire ou ajustez le **chemin d'accès**.

---

## ✅ 2. Séparation des Features (`X`) et de la Variable Cible (`y`)

Les **features** (`X`) et la **cible** (`y`) sont séparées :

```python
X = df.drop(columns=['Label'])  # Features
y = df['Label']  # Target
```

- `X` contient les variables explicatives.
- `y` est la variable cible (`0 = Normal`, `1 = Attaque`).

---

## ✅ 3. Division en Jeu d'Entraînement et de Test (80/20)

Le dataset est divisé en **80% d'entraînement** et **20% de test** :

```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)
```

- **`stratify=y`** assure une distribution équilibrée des classes dans les ensembles d'entraînement et de test.
- **Affichage des tailles des ensembles** :

```python
print(f"- Entraînement : {X_train.shape[0]} échantillons")
print(f"- Test : {X_test.shape[0]} échantillons")
```

---

## ✅ 4. Sélection du Modèle de Machine Learning

Le **modèle Random Forest** est choisi pour sa robustesse et sa capacité à gérer des données complexes :

```python
model = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)
```

- **`n_estimators=100`** : Utilise **100 arbres** dans la forêt.
- **`n_jobs=-1`** : Utilise **tous les cœurs disponibles** du processeur.

---

## ✅ 5. Entraînement du Modèle

Le modèle est entraîné sur l'ensemble d'apprentissage :

```python
model.fit(X_train, y_train)
```

Une confirmation est affichée après l'entraînement :

```python
print("\n✅ Modèle entraîné avec succès !")
```

---

## ✅ 6. Prédictions sur le Jeu de Test

Les prédictions sont effectuées sur les **données de test** :

```python
y_pred = model.predict(X_test)
```

---

## ✅ 7. Évaluation des Performances du Modèle

L'**exactitude (accuracy)** du modèle est calculée :

```python
accuracy = accuracy_score(y_test, y_pred)
print(f"\n📊 Précision du modèle : {accuracy:.4f}")
```

Un **rapport de classification** détaillé est affiché :

```python
print(classification_report(y_test, y_pred))
```

---

## ✅ 8. Matrice de Confusion

Une **matrice de confusion** est générée pour évaluer les erreurs du modèle :

```python
plt.figure(figsize=(6, 4))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d', cmap='Blues',
            xticklabels=["Normal", "Attaque"], yticklabels=["Normal", "Attaque"])
plt.xlabel("Prédictions")
plt.ylabel("Réel")
plt.title("🔍 Matrice de Confusion")
plt.show()
```

Cela permet d'identifier :
- **Les vrais positifs et négatifs** (prédictions correctes).
- **Les faux positifs et négatifs** (erreurs de classification).

---

## ✅ 9. Optimisation du Modèle avec GridSearchCV

Le **tuning des hyperparamètres** est effectué avec `GridSearchCV` :

```python
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5, 10]
}

grid_search = GridSearchCV(RandomForestClassifier(random_state=42, n_jobs=-1), 
                           param_grid, cv=3, scoring='accuracy', n_jobs=-1, verbose=1)

grid_search.fit(X_train, y_train)
```

Les **meilleurs hyperparamètres** sont affichés :

```python
print(f"\n✅ Meilleurs hyperparamètres trouvés : {grid_search.best_params_}")
```

---

## ✅ 10. Réentraînement avec les Meilleurs Paramètres

Le **meilleur modèle** issu de GridSearch est récupéré et réentraîné :

```python
best_model = grid_search.best_estimator_
best_model.fit(X_train, y_train)
```

---

## ✅ 11. Nouvelle Évaluation du Modèle Optimisé

Le modèle optimisé est testé à nouveau :

```python
y_pred_best = best_model.predict(X_test)
accuracy_best = accuracy_score(y_test, y_pred_best)
print(f"\n📊 Précision du modèle optimisé : {accuracy_best:.4f}")
```

Un **nouveau rapport de classification** est affiché :

```python
print("\n📌 Rapport de classification après optimisation :")
print(classification_report(y_test, y_pred_best))
```

---

## ✅ 12. Sauvegarde du Modèle Entraîné

Le modèle final est sauvegardé au format `.pkl` avec `joblib` :

```python
import joblib
joblib.dump(best_model, "final_model.pkl")
```

Une confirmation est affichée :

```python
print("\n✅ Modèle sauvegardé sous 'final_model.pkl'")
```

---

## ✅ Résumé des Étapes

```python
# 1. Chargement des données nettoyées
df = pd.read_csv("cleaned_02-14-2018.csv")

# 2. Séparation des features et de la cible
X = df.drop(columns=['Label'])
y = df['Label']

# 3. Division des données en train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# 4. Modèle Random Forest
model = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)
model.fit(X_train, y_train)

# 5. Prédictions et évaluation
y_pred = model.predict(X_test)
print(f"Accuracy: {accuracy_score(y_test, y_pred):.4f}")
print(classification_report(y_test, y_pred))

# 6. Matrice de confusion
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d', cmap='Blues')
plt.show()

# 7. Optimisation avec GridSearchCV
grid_search = GridSearchCV(RandomForestClassifier(random_state=42, n_jobs=-1),
                           param_grid, cv=3, scoring='accuracy', n_jobs=-1)
grid_search.fit(X_train, y_train)
best_model = grid_search.best_estimator_

# 8. Réévaluation du modèle optimisé
y_pred_best = best_model.predict(X_test)
print(f"Optimized Accuracy: {accuracy_score(y_test, y_pred_best):.4f}")

# 9. Sauvegarde du modèle
joblib.dump(best_model, "final_model.pkl")
```


In [None]:
# ✅ 2. Separate features (X) and target variable (y)
X = df.drop(columns=['Label'])  # Features
y = df['Label']  # Target

# ✅ 3. Division into training (80%) and test (20%) sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

print(f"\n📌 Taille des jeux de données :")
print(f"- Entraînement : {X_train.shape[0]} échantillons")
print(f"- Test : {X_test.shape[0]} échantillons")

# ✅ 4. Machine Learning model selection (Random Forest)
model = RandomForestClassifier(n_estimators=100, random_state=42, n_jobs=-1)

# ✅ 5. Model drive
print("\n🚀 Entraînement du modèle...")
model.fit(X_train, y_train)
print("\n✅ Modèle entraîné avec succès !")

# ✅ 6. Test set predictions
y_pred = model.predict(X_test)

# ✅ 7. Model performance evaluation
accuracy = accuracy_score(y_test, y_pred)
print(f"\n📊 Précision du modèle : {accuracy:.4f}")

print("\n📌 Rapport de classification :")
print(classification_report(y_test, y_pred))

# ✅ 8. Confusion matrix
plt.figure(figsize=(6, 4))
sns.heatmap(confusion_matrix(y_test, y_pred), annot=True, fmt='d', cmap='Blues', xticklabels=["Normal", "Attaque"], yticklabels=["Normal", "Attaque"])
plt.xlabel("Prédictions")
plt.ylabel("Réel")
plt.title("🔍 Matrice de Confusion")
plt.show()

# ✅ 9. Model optimization with GridSearchCV (Hyperparameter Tuning)
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5, 10]
}

grid_search = GridSearchCV(RandomForestClassifier(random_state=42, n_jobs=-1), param_grid, cv=3, scoring='accuracy', n_jobs=-1, verbose=1)
grid_search.fit(X_train, y_train)

print(f"\n✅ Meilleurs hyperparamètres trouvés : {grid_search.best_params_}")

# ✅ 10. Retraining with the best parameters
best_model = grid_search.best_estimator_
best_model.fit(X_train, y_train)

# ✅ 11. New evaluation of the optimized model
y_pred_best = best_model.predict(X_test)
accuracy_best = accuracy_score(y_test, y_pred_best)
print(f"\n📊 Précision du modèle optimisé : {accuracy_best:.4f}")

print("\n📌 Rapport de classification après optimisation :")
print(classification_report(y_test, y_pred_best))

# ✅ 12. Saving the trained model
import joblib
joblib.dump(best_model, "final_model.pkl")
print("\n✅ Modèle sauvegardé sous 'final_model.pkl'")


## f. Interprétation des résultats :
- Analysez les résultats obtenus et validez (ou invalidez) votre hypothèse.
- Tirez des conclusions et proposez des insights métiers basés sur votre analyse.


# 📊 Évaluation et Interprétation du Modèle Optimisé

Ce script analyse les **performances** du modèle de classification entraîné et optimisé. Il génère des **métriques clés**, des **visualisations** (matrice de confusion, courbes ROC et précision-rappel) et met en évidence les **features les plus importantes**. Enfin, il propose une **interprétation métier** des résultats.

---

## 📌 Prérequis

Avant d'exécuter ce script, installez les bibliothèques nécessaires avec :

```bash
pip install pandas numpy seaborn matplotlib scikit-learn
```

---

## ✅ 1. Rapport de Classification du Modèle Optimisé

Le rapport de classification fournit un **résumé détaillé** des performances du modèle :

```python
print("\n📌 Rapport de classification du modèle optimisé :")
print(classification_report(y_test, y_pred_best))
```

- Affiche **précision (precision), rappel (recall), F1-score** et **support** pour chaque classe.
- Utile pour voir si le modèle favorise une **classe** plus que l’autre.

---

## ✅ 2. Matrice de Confusion (Analyse des Erreurs)

La **matrice de confusion** visualise les **prédictions correctes et erronées** du modèle :

```python
plt.figure(figsize=(6, 4))
conf_matrix = confusion_matrix(y_test, y_pred_best)
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues',
            xticklabels=["Normal", "Attaque"], yticklabels=["Normal", "Attaque"])
plt.xlabel("Prédictions")
plt.ylabel("Réel")
plt.title("🔍 Matrice de Confusion - Modèle Optimisé")
plt.show()
```

- **Les valeurs sur la diagonale** (haut gauche et bas droit) représentent les **prédictions correctes**.
- **Les valeurs hors diagonale** montrent les **erreurs de classification**.
- Permet d’analyser si le modèle **manque trop d’attaques (faux négatifs)** ou **prédit trop de faux positifs**.

---

## ✅ 3. Analyse des Métriques Clés

Les métriques sont extraites de la matrice de confusion :

```python
tn, fp, fn, tp = conf_matrix.ravel()
accuracy = (tp + tn) / (tn + fp + fn + tp)
precision = tp / (tp + fp)
recall = tp / (tp + fn)
f1_score = 2 * (precision * recall) / (precision + recall)

print(f"\n📊 Précision (Precision) : {precision:.4f}")
print(f"📊 Rappel (Recall) : {recall:.4f}")
print(f"📊 Score F1 : {f1_score:.4f}")
print(f"📊 Exactitude (Accuracy) : {accuracy:.4f}")
```

- **Précision (Precision)** : Taux de prédictions correctes parmi les **attaques détectées**.
- **Rappel (Recall)** : Taux de **vraies attaques détectées** sur l’ensemble des attaques réelles.
- **F1-score** : Moyenne harmonique entre précision et rappel (**équilibre entre faux positifs et faux négatifs**).
- **Exactitude (Accuracy)** : Proportion d’échantillons **correctement classifiés**.

---

## ✅ 4. Courbe ROC et AUC

La **courbe ROC** permet de visualiser la capacité du modèle à **distinguer les classes** :

```python
y_prob = best_model.predict_proba(X_test)[:, 1]  # Probabilité de la classe "Attaque"
fpr, tpr, _ = roc_curve(y_test, y_prob)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(6, 4))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'AUC = {roc_auc:.4f}')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')  # Diagonale de hasard
plt.xlabel("Taux de Faux Positifs (FPR)")
plt.ylabel("Taux de Vrais Positifs (TPR)")
plt.title("🔍 Courbe ROC")
plt.legend(loc="lower right")
plt.show()
```

- **FPR (False Positive Rate)** : Proportion de **faux positifs**.
- **TPR (True Positive Rate)** : Proportion de **vrais positifs**.
- **AUC (Area Under Curve)** : Score global de la capacité du modèle à séparer les classes.

---

## ✅ 5. Courbe Précision-Rappel

La **courbe précision-rappel** est utile lorsque les classes sont **déséquilibrées** :

```python
precision_vals, recall_vals, _ = precision_recall_curve(y_test, y_prob)

plt.figure(figsize=(6, 4))
plt.plot(recall_vals, precision_vals, color='purple', lw=2)
plt.xlabel("Rappel")
plt.ylabel("Précision")
plt.title("🔍 Courbe Précision-Rappel")
plt.show()
```

- Permet d’analyser comment le **rappel** évolue en fonction de la **précision**.
- Si la **précision chute rapidement**, cela signifie un **nombre élevé de faux positifs**.

---

## ✅ 6. Analyse des Features les Plus Importantes

Le modèle **Random Forest** permet d’identifier les **variables les plus influentes** :

```python
feature_importances = best_model.feature_importances_
sorted_idx = np.argsort(feature_importances)[-10:]  # Top 10 features

plt.figure(figsize=(8, 5))
plt.barh(range(len(sorted_idx)), feature_importances[sorted_idx], align="center")
plt.yticks(range(len(sorted_idx)), [X.columns[i] for i in sorted_idx])
plt.xlabel("Importance")
plt.title("📊 Top 10 des Features les Plus Importantes")
plt.show()
```

- Met en évidence les **10 variables les plus déterminantes** pour la prédiction.
- Peut être utilisé pour **sélectionner les meilleures features** et améliorer le modèle.

---

## ✅ 7. Interprétation des Résultats

Le modèle est interprété en fonction des **métriques calculées** :

```python
print("\n📌 🔍 Interprétation des résultats 🔍")

if accuracy > 0.90:
    print("✅ Le modèle a une très bonne performance globale avec une précision élevée.")
elif accuracy > 0.80:
    print("✅ Le modèle a une bonne précision, mais pourrait être amélioré.")
else:
    print("⚠️ Le modèle a une précision faible. Il pourrait nécessiter un meilleur prétraitement ou un autre algorithme.")

print("\n📌 Insights métiers :")
if precision < 0.80:
    print("- ⚠️ Le taux de faux positifs est élevé, ce qui signifie que certaines connexions normales sont classées comme des attaques.")
if recall < 0.80:
    print("- ⚠️ Le modèle manque certaines attaques (faux négatifs), ce qui peut poser un risque en cybersécurité.")
if f1_score > 0.85:
    print("- ✅ Le compromis entre précision et rappel est bon, ce qui signifie que le modèle est fiable pour détecter les intrusions.")
if feature_importances.max() > 0.1:
    print("- ✅ Certaines features sont très influentes. Un expert en cybersécurité peut analyser leur impact.")

print("\n✅ Analyse terminée !")
```


In [None]:
# ✅ 1. Display of optimized model results
print("\n📌 Rapport de classification du modèle optimisé :")
print(classification_report(y_test, y_pred_best))

# ✅ 2. Confusion matrix (error analysis)
plt.figure(figsize=(6, 4))
conf_matrix = confusion_matrix(y_test, y_pred_best)
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=["Normal", "Attaque"], yticklabels=["Normal", "Attaque"])
plt.xlabel("Prédictions")
plt.ylabel("Réel")
plt.title("🔍 Matrice de Confusion - Modèle Optimisé")
plt.show()

# ✅ 3. Analysis of key metrics
tn, fp, fn, tp = conf_matrix.ravel()
accuracy = (tp + tn) / (tn + fp + fn + tp)
precision = tp / (tp + fp)
recall = tp / (tp + fn)
f1_score = 2 * (precision * recall) / (precision + recall)

print(f"\n📊 Précision (Precision) : {precision:.4f}")
print(f"📊 Rappel (Recall) : {recall:.4f}")
print(f"📊 Score F1 : {f1_score:.4f}")
print(f"📊 Exactitude (Accuracy) : {accuracy:.4f}")

# ✅ 4. ROC and AUC curves
y_prob = best_model.predict_proba(X_test)[:, 1]  # Probabilities for the “Attack” class
fpr, tpr, _ = roc_curve(y_test, y_prob)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(6, 4))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'AUC = {roc_auc:.4f}')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')  # Diagonal of chance
plt.xlabel("Taux de Faux Positifs (FPR)")
plt.ylabel("Taux de Vrais Positifs (TPR)")
plt.title("🔍 Courbe ROC")
plt.legend(loc="lower right")
plt.show()

# ✅ 5. Precision-Recall curve
precision_vals, recall_vals, _ = precision_recall_curve(y_test, y_prob)

plt.figure(figsize=(6, 4))
plt.plot(recall_vals, precision_vals, color='purple', lw=2)
plt.xlabel("Rappel")
plt.ylabel("Précision")
plt.title("🔍 Courbe Précision-Rappel")
plt.show()

# ✅ 6. Analysis of the most important features
feature_importances = best_model.feature_importances_
sorted_idx = np.argsort(feature_importances)[-10:]  # Top 10 features

plt.figure(figsize=(8, 5))
plt.barh(range(len(sorted_idx)), feature_importances[sorted_idx], align="center")
plt.yticks(range(len(sorted_idx)), [X.columns[i] for i in sorted_idx])
plt.xlabel("Importance")
plt.title("📊 Top 10 des Features les Plus Importantes")
plt.show()

# ✅ 7. Interpretation of results
print("\n📌 🔍 Interprétation des résultats 🔍")

if accuracy > 0.90:
    print("✅ Le modèle a une très bonne performance globale avec une précision élevée.")
elif accuracy > 0.80:
    print("✅ Le modèle a une bonne précision, mais pourrait être amélioré.")
else:
    print("⚠️ Le modèle a une précision faible. Il pourrait nécessiter un meilleur prétraitement ou un autre algorithme.")

print("\n📌 Insights métiers :")
if precision < 0.80:
    print("- ⚠️ Le taux de faux positifs est élevé, ce qui signifie que certaines connexions normales sont classées comme des attaques.")
if recall < 0.80:
    print("- ⚠️ Le modèle manque certaines attaques (faux négatifs), ce qui peut poser un risque en cybersécurité.")
if f1_score > 0.85:
    print("- ✅ Le compromis entre précision et rappel est bon, ce qui signifie que le modèle est fiable pour détecter les intrusions.")
if feature_importances.max() > 0.1:
    print("- ✅ Certaines features sont très influentes. Un expert en cybersécurité peut analyser leur impact.")

print("\n✅ Analyse terminée !")


g. Communication des résultats :
Créez des visualisations claires et pertinentes pour présenter vos résultats.
Formulez des recommandations concrètes basées sur vos analyses.


In [None]:
# ✅ 1. Récapitulatif des performances
accuracy_val = accuracy_score(y_test, y_pred_best)
precision_val = precision_score(y_test, y_pred_best)
recall_val = recall_score(y_test, y_pred_best)
f1_val = f1_score(y_test, y_pred_best)

print("\n📊 Récapitulatif des performances du modèle :")
print(f"✅ Précision (Accuracy) : {accuracy:.4f}")
print(f"✅ Précision (Precision) : {precision:.4f}")
print(f"✅ Rappel (Recall) : {recall:.4f}")
print(f"✅ Score F1 : {f1:.4f}")

# ✅ 2. Matrice de confusion avec annotations
plt.figure(figsize=(6, 4))
conf_matrix = confusion_matrix(y_test, y_pred_best)
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=["Normal", "Attaque"], yticklabels=["Normal", "Attaque"])
plt.xlabel("Prédictions")
plt.ylabel("Réel")
plt.title("🔍 Matrice de Confusion - Résultats finaux")
plt.show()

# ✅ 3. Courbe ROC et AUC
y_prob = best_model.predict_proba(X_test)[:, 1]  # Probabilités pour la classe "Attaque"
fpr, tpr, _ = roc_curve(y_test, y_prob)
roc_auc = auc(fpr, tpr)

plt.figure(figsize=(6, 4))
plt.plot(fpr, tpr, color='darkorange', lw=2, label=f'AUC = {roc_auc:.4f}')
plt.plot([0, 1], [0, 1], color='navy', lw=2, linestyle='--')  # Diagonale de hasard
plt.xlabel("Taux de Faux Positifs (FPR)")
plt.ylabel("Taux de Vrais Positifs (TPR)")
plt.title("🔍 Courbe ROC")
plt.legend(loc="lower right")
plt.show()

# ✅ 4. Courbe Precision-Recall
precision_vals, recall_vals, _ = precision_recall_curve(y_test, y_prob)

plt.figure(figsize=(6, 4))
plt.plot(recall_vals, precision_vals, color='purple', lw=2)
plt.xlabel("Rappel")
plt.ylabel("Précision")
plt.title("🔍 Courbe Précision-Rappel")
plt.show()

# ✅ 5. Importance des Features
feature_importances = best_model.feature_importances_
sorted_idx = np.argsort(feature_importances)[-10:]  # Top 10 features

plt.figure(figsize=(8, 5))
plt.barh(range(len(sorted_idx)), feature_importances[sorted_idx], align="center")
plt.yticks(range(len(sorted_idx)), [X.columns[i] for i in sorted_idx])
plt.xlabel("Importance")
plt.title("📊 Top 10 des Features les Plus Importantes")
plt.show()

# ✅ 6. Formulation des recommandations
print("\n📌 🔍 Recommandations basées sur les résultats 🔍")

if accuracy > 0.90:
    print("✅ Le modèle est fiable avec une haute précision. Il peut être utilisé pour une première détection des menaces.")
elif accuracy > 0.80:
    print("✅ Le modèle est performant mais peut être optimisé (ex: amélioration du dataset, hyperparamètres).")
else:
    print("⚠️ Le modèle n'est pas encore optimal. Il faudrait explorer d'autres algorithmes ou améliorer la qualité des données.")

if precision < 0.80:
    print("- ⚠️ Attention : Le taux de faux positifs est élevé, ce qui pourrait générer des alertes inutiles.")
if recall < 0.80:
    print("- ⚠️ Attention : Le modèle ne détecte pas toutes les attaques, un ajustement est nécessaire.")

print("\n📌 Actions recommandées :")
print("- Tester d'autres modèles (XGBoost, Deep Learning).")
print("- Améliorer les données en ajoutant d'autres logs réseau.")
print("- Ajuster les hyperparamètres du modèle pour un meilleur rappel.")
print("- Implémenter une détection en temps réel avec ce modèle.")

print("\n✅ Communication des résultats terminée !")