# 2. Rapport individuel
Chaque étudiant doit rédiger un rapport individuel (10 à 20 pages maximum), structuré comme suit :

## a. Définition du problème :
- Identifiez la problématique métier à résoudre.
- Précisez les objectifs et les exigences du projet.

## b. Collecte des données :
- Choisissez un dataset pertinent pour votre projet.
- Évaluez la qualité et la quantité des données disponibles.



---  

```md
# 📊 Analyse Exploratoire d'un Dataset CSV avec Pandas, NumPy, Seaborn et Matplotlib

Ce script Python permet d'effectuer une **analyse exploratoire des données (EDA)** sur un fichier **CSV** en utilisant les bibliothèques **Pandas, NumPy, Seaborn et Matplotlib**. Il fournit un aperçu des données, identifie les valeurs manquantes et dupliquées, affiche des statistiques descriptives et génère des visualisations utiles pour comprendre la distribution des données et leur corrélation.

## 📌 Prérequis

Avant d'exécuter ce script, assurez-vous d'avoir installé les bibliothèques nécessaires avec la commande suivante :

```bash
pip install pandas numpy seaborn matplotlib
```

## 📂 Chargement du Dataset

Le script commence par charger un fichier CSV nommé **"02-14-2018.csv"** dans un DataFrame Pandas :

```python
file_path = "02-14-2018.csv"
df = pd.read_csv(file_path)
```

Si le fichier n'est pas dans le même répertoire que le script, vous devrez ajuster le chemin du fichier.

## 🔍 1. Aperçu des Données

Les premières lignes du dataset sont affichées pour donner un premier aperçu du contenu :

```python
print(df.head())
```

Cela permet d'identifier rapidement les colonnes et le type de données présentes.

## 📃 2. Informations Générales sur le Dataset

Le script affiche des informations détaillées sur le dataset, y compris le **nombre total de lignes et de colonnes**, ainsi que les **types de données** :

```python
print(df.info())
```

Ce rapport permet de détecter si certaines colonnes contiennent des valeurs **nulles** ou des **types de données incohérents**.

## 🔢 3. Nombre de Lignes et Colonnes

Le nombre total de **lignes** et **colonnes** du dataset est affiché :

```python
print(f"Nombre de lignes : {df.shape[0]}  |  Nombre de colonnes : {df.shape[1]}")
```

Cela donne une idée générale de la **taille du dataset**.

## ⚠️ 4. Vérification des Valeurs Manquantes

Les valeurs manquantes sont identifiées en calculant le nombre de **valeurs nulles par colonne** :

```python
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0]
print(missing_values)
```

Seules les colonnes contenant **des valeurs manquantes** sont affichées. Cela permet d'évaluer si un **nettoyage des données** est nécessaire.

## 📊 5. Distribution des Classes (Trafic Normal vs Attaques)

Une **visualisation** de la répartition des labels dans le dataset est générée avec Seaborn :

```python
plt.figure(figsize=(10, 5))
sns.countplot(y=df['Label'], order=df['Label'].value_counts().index)
plt.title("📊 Distribution des attaques et du trafic normal")
plt.show()
```

- La colonne `Label` est supposée contenir des **catégories de trafic** (par ex. "normal" vs. "attaque").
- Un **graphique en barres** est utilisé pour montrer le **nombre d'occurrences** de chaque type de trafic.

## 📈 6. Statistiques Descriptives des Variables Numériques

Le script affiche un **résumé statistique** des colonnes numériques :

```python
print(df.describe())
```

Cela inclut :
- **Moyenne (mean)**
- **Écart-type (std)**
- **Valeurs minimales et maximales**
- **Quartiles (25%, 50%, 75%)**

Ces informations sont essentielles pour détecter **d'éventuelles anomalies** ou valeurs aberrantes.

## 🔄 7. Vérification des Valeurs Dupliquées

Le script détecte et affiche le nombre de **lignes dupliquées** dans le dataset :

```python
duplicates = df.duplicated().sum()
print(f"Nombre de lignes dupliquées : {duplicates}")
```

Si des doublons sont détectés, il peut être utile de les supprimer pour éviter des biais dans l'analyse.

## 🔬 8. Matrice de Corrélation des 10 Premières Variables

Une **matrice de corrélation** est générée pour analyser la **relation entre les variables numériques** :

```python
plt.figure(figsize=(12, 8))
corr_matrix = df.select_dtypes(include=[np.number]).corr()
sns.heatmap(corr_matrix.iloc[:10, :10], annot=True, cmap='coolwarm', fmt=".2f")
plt.title("🔍 Matrice de Corrélation (10 premières variables)")
plt.show()
```

- Seules les **10 premières colonnes** numériques sont affichées.
- Une **carte thermique (heatmap)** est utilisée pour mieux visualiser les corrélations.
- Une **forte corrélation** (valeurs proches de **+1** ou **-1**) peut indiquer une **redondance** entre certaines variables.

## ✅ Conclusion

À la fin du script, un message de confirmation est affiché :

```python
print("\n✅ Évaluation des données terminée !")
```

Ce script fournit une **analyse rapide et efficace** d'un dataset CSV, facilitant la **préparation des données** avant une analyse plus approfondie ou un entraînement de modèle machine learning.



In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 📌 Charger un fichier CSV (ajuster le chemin selon l'emplacement du fichier)
file_path = "02-14-2018.csv"
df = pd.read_csv(file_path)

# 🔹 1. Aperçu du dataset
print("\n📌 Aperçu des premières lignes du dataset :")
print(df.head())

# 🔹 2. Informations générales sur le dataset
print("\n📌 Informations générales :")
print(df.info())

# 🔹 3. Nombre de lignes et de colonnes
print(f"\n📌 Nombre de lignes : {df.shape[0]}  |  Nombre de colonnes : {df.shape[1]}")

# 🔹 4. Vérification des valeurs manquantes
missing_values = df.isnull().sum()
missing_values = missing_values[missing_values > 0]  # On garde uniquement les colonnes avec des valeurs nulles
print("\n📌 Colonnes avec valeurs manquantes :")
print(missing_values)

# 🔹 5. Distribution des classes (trafic normal vs attaques)
plt.figure(figsize=(10, 5))
sns.countplot(y=df['Label'], order=df['Label'].value_counts().index)
plt.title("📊 Distribution des attaques et du trafic normal")
plt.show()

# 🔹 6. Statistiques descriptives des variables numériques
print("\n📌 Statistiques descriptives des variables numériques :")
print(df.describe())

# 🔹 7. Vérification des valeurs dupliquées
duplicates = df.duplicated().sum()
print(f"\n📌 Nombre de lignes dupliquées : {duplicates}")

# 🔹 8. Matrice de corrélation des 10 premières variables
plt.figure(figsize=(12, 8))
corr_matrix = df.select_dtypes(include=[np.number]).corr()
sns.heatmap(corr_matrix.iloc[:10, :10], annot=True, cmap='coolwarm', fmt=".2f")
plt.title("🔍 Matrice de Corrélation (10 premières variables)")
plt.show()

print("\n✅ Évaluation des données terminée !")


## c. Nettoyage et préparation des données :
- Effectuez le nettoyage des données (gestion des doublons, traitement des valeurs manquantes, etc.).
- Transformez et formatez les données si nécessaire.
- Fusionnez différentes sources de données, le cas échéant.
