# **<ins>Projet : Détection d'anomalies dans les logs réseau avec MLOps</ins>**

## <ins>Objectif
Développer un système de détection d'anomalies dans les logs réseau en utilisant le Machine Learning, orchestré avec Kubeflow, Airflow, MLflow et déployé sur Kubernetes.

## <ins>Étapes du projet

### 1. **Collecte et préparation des données**
- **Durée estimée** : 4 jours (8 heures)
- **Tâches** :
  - Télécharger le dataset CICIDS2017 ou UNSW-NB15.
  - Explorer et comprendre la structure des données.
  - Nettoyer et préparer les données (gérer les valeurs manquantes, encodage des variables catégoriques, normalisation).

### 2. **Implémentation du modèle de Machine Learning**
- **Durée estimée** : 6 jours (12 heures)
- **Tâches** :
  - Choisir un modèle de détection d'anomalies (Isolation Forest, Autoencoder, Random Forest).
  - Entraîner et valider le modèle sur les données préparées.
  - Utiliser MLflow pour suivre les expériences et comparer les performances.

### 3. **Orchestration avec Airflow**
- **Durée estimée** : 4 jours (8 heures)
- **Tâches** :
  - Configurer Airflow pour automatiser les tâches récurrentes (ex. : mise à jour des données, ré-entraînement du modèle).
  - Intégrer Airflow avec MLflow pour gérer les workflows de Machine Learning.

### 4. **Intégration avec Kubeflow**
- **Durée estimée** : 6 jours (12 heures)
- **Tâches** :
  - Configurer Kubeflow pour orchestrer le cycle de vie du modèle (préparation des données, entraînement, déploiement).
  - Utiliser Kubeflow pour déployer le modèle en production.

### 5. **Déploiement sur Kubernetes**
- **Durée estimée** : 4 jours (8 heures)
- **Tâches** :
  - Configurer un cluster Kubernetes pour héberger les composants du projet (modèle, Airflow, Kubeflow).
  - Déployer les composants sur le cluster Kubernetes.
  - Assurer la mise à l'échelle et la tolérance aux pannes.

### 6. **Surveillance avec Prometheus et alertes**
- **Durée estimée** : 3 jours (6 heures)
- **Tâches** :
  - Configurer Prometheus pour surveiller les performances du modèle.
  - Implémenter des alertes automatiques via Slack ou email en cas de détection d'anomalies.

### 7. **Création d'un tableau de bord**
- **Durée estimée** : 3 jours (6 heures)
- **Tâches** :
  - Utiliser des outils comme Grafana pour créer un tableau de bord visuel des anomalies détectées.
  - Intégrer le tableau de bord avec les données de surveillance.

### **Total estimé** : 30 jours (60 heures)

## <ins>Apprentissage attendu</ins>
- Comprendre les bases de la cybersécurité (analyse de logs, types d'attaques).
- Intégrer le Machine Learning dans des systèmes réels.
- Maîtriser les outils MLOps (Kubeflow, Airflow, MLflow) et leur orchestration.
- Apprendre à déployer des applications sur Kubernetes.


# **<ins>CONCEPTS ESSENTIELS POUR LA COMPREHENSION DES DATASETS</ins>**

Voici un résumé structuré des concepts essentiels en cybersécurité liés aux **logs**, pour mieux comprendre leur rôle et leur importance dans notre projet de détection d'anomalies dans les logs réseau.

---

## <ins>1. Qu'est-ce qu'un log en cybersécurité ?</ins>
Un log est un fichier ou une entrée qui enregistre les activités sur un système, une application ou un réseau. Ces données sont essentielles pour :
- **Détecter les menaces** : Identifier les comportements anormaux ou suspects.
- **Analyser les incidents** : Reconstituer la chronologie d'une attaque.
- **Prévenir les attaques** : Identifier les vulnérabilités avant qu'elles ne soient exploitées.

Les logs contiennent des informations telles que :
- Les adresses IP (source et destination).
- Les tentatives de connexion (réussies ou échouées).
- Les changements de configuration.
- Les transferts de fichiers ou les accès à des ressources sensibles.

## <ins>2. Types de logs importants</ins>
Pour notre projet, voici les types de logs critiques à comprendre et analyser :

### **a. Logs réseau**
- Enregistrent le trafic réseau (ex. : routeurs, pare-feux).
- Utiles pour détecter :
  - Des scans de ports.
  - Des connexions non autorisées.
  - Des attaques par déni de service (DDoS).

### **b. Logs de sécurité**
- Capturent des événements liés à la sécurité, comme :
  - Tentatives d'accès non autorisées.
  - Modifications des permissions utilisateur.
  - Détections de logiciels malveillants.

### **c. Logs système**
- Suivent l'état des systèmes (serveurs, postes de travail).
- Permettent d'identifier :
  - Les erreurs système.
  - Les redémarrages anormaux.
  - Les configurations modifiées.

### **d. Logs d'application**
- Enregistrent l'activité des applications (serveurs web, bases de données).
- Aident à détecter :
  - Les erreurs applicatives.
  - Les transactions suspectes.
  - Les vulnérabilités spécifiques aux applications.


## <ins>3. Rôle des logs dans la cybersécurité</ins>
### **a. Détection et prévention des menaces**
Les logs permettent de repérer des comportements inhabituels, comme :
- Une augmentation soudaine des échecs de connexion.
- Un accès non autorisé à des fichiers sensibles.

En corrélant différents types de logs (réseau, sécurité, application), nous pouvons identifier les tactiques utilisées par les attaquants (ex. : MITRE ATT&CK framework).

### **b. Analyse Forensique**
Après une attaque, les logs permettent de :
- Reconstituer la chaîne d'événements ayant conduit à l'incident.
- Identifier la méthode utilisée par l'attaquant.
- Évaluer l'étendue des dommages.

## <ins>4. Processus d'analyse des logs</ins>
Pour exploiter efficacement nos logs, nous devons suivre ces étapes :

### **Étape 1 : Collecte des données**
- Centraliser nos logs provenant de différentes sources (pare-feux, serveurs, applications).
- Utiliser un outil comme un SIEM (Security Information and Event Management) pour automatiser cette collecte.

### **Étape 2 : Indexation et structuration**
- Organiser nos logs par attributs (horodatage, source, type d'événement).
- Normaliser les formats pour faciliter l'analyse.

### **Étape 3 : Analyse et détection**
Utiliser des techniques comme :
- **Détection d'anomalies** : Identifier ce qui dévie du comportement normal.
- **Reconnaissance de motifs** : Repérer des séquences répétées dans les attaques.

### **Étape 4 : Surveillance continue**
Configurer des alertes pour détecter en temps réel :
- Des pics anormaux dans le trafic réseau.
- Des connexions depuis des IP suspectes.

## <ins>5. Défis courants avec les logs</ins>
### a. Volume élevé
Les environnements modernes produisent une quantité massive de logs, rendant leur analyse complexe sans outils automatisés.

### b. Fausse alerte
Les systèmes peuvent générer beaucoup de faux positifs, ce qui complique la priorisation des menaces réelles.

## <ins>6. Conseils pratiques pour notre projet</ins>
1. **Comprendre notre dataset** :
   - Identifier le type de logs que nous analysons (réseau, application, etc.).
   - Vérifier si nous avons une colonne indiquant si un événement est normal ou anormal.

2. **Focus sur les anomalies réseau** :
   - Prioriser l'analyse des logs réseau et sécurité pour détecter les comportements suspects comme :
     - Des scans ou pics soudains dans le trafic.
     - Des connexions depuis des IP inhabituelles.

3. **Utiliser des outils adaptés** :
   - Pour centraliser et analyser nos logs : Elasticsearch + Kibana ou Splunk.
   - Pour détecter automatiquement les anomalies : PyOD ou Scikit-learn avec Isolation Forest.

4. **Suivre une méthodologie claire** :
   - Collecter → Nettoyer → Normaliser → Analyser → Visualiser → Déployer nos modèles.

---

En maîtrisant ces concepts fondamentaux sur les logs et leur rôle en cybersécurité, nous sommes mieux préparés pour structurer notre projet et comprendre comment exploiter efficacement notre dataset CICIDS2017 !


# <ins>**Presentation datasets**</ins>

**Le dataset CICIDS2017 est un ensemble de données de trafic réseau conçu pour l'évaluation des systèmes de détection d'intrusions. Il contient à la fois des flux de trafic bénin et des attaques réalistes, ce qui en fait un outil précieux pour le développement et la validation de modèles de Machine Learning dans le domaine de la cybersécurité.**

## Contenu des Fichiers Téléchargeables

- **PCAPs (format pcap)** : Ces fichiers contiennent les captures complètes du trafic réseau, y compris les paquets complets.

- **GeneratedLabelledFlows.zip** : Ce fichier contient les flux de trafic étiquetés, générés à partir des PCAPs, et est destiné aux applications de Machine Learning.

- **MachineLearningCSV.zip** : Ce fichier contient les données de trafic sous forme de fichiers CSV, extraites à l'aide de CICFlowMeter. Il inclut plus de 80 caractéristiques de flux réseau, ce qui facilite l'analyse et l'entraînement des modèles de Machine Learning.

## Caractéristiques du Dataset

- **Période de Capture** : Les données ont été collectées du lundi 3 juillet 2017 au vendredi 7 juillet 2017.

- **Types d'Attaques** : Inclut diverses attaques telles que :

    - Brute Force FTP

    - Brute Force SSH

    - DoS

    - Heartble

    - Web Attack

    - Infiltration

    - Botnet

    - DDoS

- **Protocoles Utilisés** : HTTP, HTTPS, FTP, SSH et email.

- **Configuration Réseau** : Comprend une topologie réseau complète avec modem, pare-feu, commutateurs, routeurs et divers systèmes d'exploitation (Windows, Ubuntu, Mac OS X).

## Utilisation du Dataset

Le CICIDS2017 est idéal pour développer des modèles de détection d'anomalies et d'intrusions dans les réseaux, grâce à sa diversité de trafic et d'attaques, ainsi que ses étiquettes détaillées pour chaque flux de trafic.

## Labels présents:
Voici une liste détaillée des labels avec leurs descriptions :

1. **Destination Port** : Le port de destination utilisé pour la communication.
2. **Flow Duration** : La durée totale du flux de données, généralement en microsecondes[3].
3. **Total Fwd Packets** : Le nombre total de paquets envoyés dans le sens avant (forward).
4. **Total Backward Packets** : Le nombre total de paquets reçus dans le sens arrière (backward).
5. **Total Length of Fwd Packets** : La taille totale des paquets envoyés dans le sens avant.
6. **Total Length of Bwd Packets** : La taille totale des paquets reçus dans le sens arrière.
7. **Fwd Packet Length Max** : La taille maximale d'un paquet envoyé dans le sens avant.
8. **Fwd Packet Length Min** : La taille minimale d'un paquet envoyé dans le sens avant.
9. **Fwd Packet Length Mean** : La taille moyenne des paquets envoyés dans le sens avant.
10. **Fwd Packet Length Std** : L'écart-type de la taille des paquets envoyés dans le sens avant.
11. **Bwd Packet Length Max** : La taille maximale d'un paquet reçu dans le sens arrière.
12. **Bwd Packet Length Min** : La taille minimale d'un paquet reçu dans le sens arrière.
13. **Bwd Packet Length Mean** : La taille moyenne des paquets reçus dans le sens arrière.
14. **Bwd Packet Length Std** : L'écart-type de la taille des paquets reçus dans le sens arrière.
15. **Flow Bytes/s** : Le débit moyen en octets par seconde pour le flux.
16. **Flow Packets/s** : Le nombre moyen de paquets par seconde pour le flux.
17. **Flow IAT Mean** : Le temps moyen entre deux paquets dans le flux.
18. **Flow IAT Std** : L'écart-type du temps entre deux paquets dans le flux.
19. **Flow IAT Max** : Le temps maximum entre deux paquets dans le flux.
20. **Flow IAT Min** : Le temps minimum entre deux paquets dans le flux.
21. **Fwd IAT Total** : Le temps total entre les paquets envoyés dans le sens avant.
22. **Fwd IAT Mean** : Le temps moyen entre deux paquets envoyés dans le sens avant.
23. **Fwd IAT Std** : L'écart-type du temps entre deux paquets envoyés dans le sens avant.
24. **Fwd IAT Max** : Le temps maximum entre deux paquets envoyés dans le sens avant.
25. **Fwd IAT Min** : Le temps minimum entre deux paquets envoyés dans le sens avant.
26. **Bwd IAT Total** : Le temps total entre les paquets reçus dans le sens arrière.
27. **Bwd IAT Mean** : Le temps moyen entre deux paquets reçus dans le sens arrière.
28. **Bwd IAT Std** : L'écart-type du temps entre deux paquets reçus dans le sens arrière.
29. **Bwd IAT Max** : Le temps maximum entre deux paquets reçus dans le sens arrière.
30. **Bwd IAT Min** : Le temps minimum entre deux paquets reçus dans le sens arrière.
31. **Fwd PSH Flags** : Le nombre de fois où le flag PSH est défini dans les paquets envoyés dans le sens avant.
32. **Bwd PSH Flags** : Le nombre de fois où le flag PSH est défini dans les paquets reçus dans le sens arrière.
33. **Fwd URG Flags** : Le nombre de fois où le flag URG est défini dans les paquets envoyés dans le sens avant.
34. **Bwd URG Flags** : Le nombre de fois où le flag URG est défini dans les paquets reçus dans le sens arrière.
35. **Fwd Header Length** : La longueur totale des en-têtes des paquets envoyés dans le sens avant.
36. **Bwd Header Length** : La longueur totale des en-têtes des paquets reçus dans le sens arrière.
37. **Fwd Packets/s** : Le nombre moyen de paquets par seconde envoyés dans le sens avant.
38. **Bwd Packets/s** : Le nombre moyen de paquets par seconde reçus dans le sens arrière.
39. **Min Packet Length** : La taille minimale d'un paquet dans le flux.
40. **Max Packet Length** : La taille maximale d'un paquet dans le flux.
41. **Packet Length Mean** : La taille moyenne des paquets dans le flux.
42. **Packet Length Std** : L'écart-type de la taille des paquets dans le flux.
43. **Packet Length Variance** : La variance de la taille des paquets dans le flux.
44. **FIN Flag Count** : Le nombre de paquets avec le flag FIN.
45. **SYN Flag Count** : Le nombre de paquets avec le flag SYN.
46. **RST Flag Count** : Le nombre de paquets avec le flag RST.
47. **PSH Flag Count** : Le nombre total de paquets avec le flag PSH (avant et arrière).
48. **ACK Flag Count** : Le nombre de paquets avec le flag ACK.
49. **URG Flag Count** : Le nombre total de paquets avec le flag URG (avant et arrière).
50. **CWE Flag Count** : Le nombre de paquets avec le flag CWE.
51. **ECE Flag Count** : Le nombre de paquets avec le flag ECE.
52. **Down/Up Ratio** : Le rapport entre le trafic descendant et montant.
53. **Average Packet Size** : La taille moyenne des paquets dans le flux.
54. **Avg Fwd Segment Size** : La taille moyenne des segments envoyés dans le sens avant.
55. **Avg Bwd Segment Size** : La taille moyenne des segments reçus dans le sens arrière.
56. **Fwd Header Length.1** : Une autre mesure de la longueur des en-têtes des paquets envoyés (possiblement une erreur de duplication).
57. **Fwd Avg Bytes/Bulk** : Le nombre moyen d'octets par lot dans le sens avant.
58. **Fwd Avg Packets/Bulk** : Le nombre moyen de paquets par lot dans le sens avant.
59. **Fwd Avg Bulk Rate** : Le débit moyen par lot dans le sens avant.
60. **Bwd Avg Bytes/Bulk** : Le nombre moyen d'octets par lot dans le sens arrière.
61. **Bwd Avg Packets/Bulk** : Le nombre moyen de paquets par lot dans le sens arrière.
62. **Bwd Avg Bulk Rate** : Le débit moyen par lot dans le sens arrière.
63. **Subflow Fwd Packets** : Le nombre moyen de paquets dans un sous-flux envoyé dans le sens avant.
64. **Subflow Fwd Bytes** : Le nombre moyen d'octets dans un sous-flux envoyé dans le sens avant.
65. **Subflow Bwd Packets** : Le nombre moyen de paquets dans un sous-flux reçu dans le sens arrière.
66. **Subflow Bwd Bytes** : Le nombre moyen d'octets dans un sous-flux reçu dans le sens arrière.
67. **Init_Win_bytes_forward** : Le nombre total d'octets envoyés dans la fenêtre initiale dans le sens avant.
68. **Init_Win_bytes_backward** : Le nombre total d'octets envoyés dans la fenêtre initiale dans le sens arrière.
69. **act_data_pkt_fwd** : Le nombre de paquets avec au moins un octet de charge utile TCP envoyé dans le sens avant.
70. **min_seg_size_forward** : La taille minimale d'un segment envoyé dans le sens avant.
71. **Active Mean** : La durée moyenne pendant laquelle un flux est actif avant de devenir inactif.
72. **Active Std** : L'écart-type de la durée pendant laquelle un flux est actif.
73. **Active Max** : La durée maximale pendant laquelle un flux est actif.
74. **Active Min** : La durée minimale pendant laquelle un flux est actif.
75. **Idle Mean** : La durée moyenne pendant laquelle un flux est inactif avant de reprendre.
76. **Idle Std** : L'écart-type de la durée pendant laquelle un flux est inactif.
77. **Idle Max** : La durée maximale pendant laquelle un flux est inactif.
78. **Idle Min** : La durée minimale pendant laquelle un flux est inactif.
79. **Label** : La classification ou l'étiquette associée au flux (par exemple, normal ou anormal).