# Projet : Détection d'anomalies dans les logs réseau avec MLOps

## Objectif
Développer un système de détection d'anomalies dans les logs réseau en utilisant le Machine Learning, orchestré avec Kubeflow, Airflow, MLflow et déployé sur Kubernetes.

## Étapes du projet

### 1. **Collecte et préparation des données**
- **Durée estimée** : 4 jours (8 heures)
- **Tâches** :
  - Télécharger le dataset CICIDS2017 ou UNSW-NB15.
  - Explorer et comprendre la structure des données.
  - Nettoyer et préparer les données (gérer les valeurs manquantes, encodage des variables catégoriques, normalisation).

### 2. **Implémentation du modèle de Machine Learning**
- **Durée estimée** : 6 jours (12 heures)
- **Tâches** :
  - Choisir un modèle de détection d'anomalies (Isolation Forest, Autoencoder, Random Forest).
  - Entraîner et valider le modèle sur les données préparées.
  - Utiliser MLflow pour suivre les expériences et comparer les performances.

### 3. **Orchestration avec Airflow**
- **Durée estimée** : 4 jours (8 heures)
- **Tâches** :
  - Configurer Airflow pour automatiser les tâches récurrentes (ex. : mise à jour des données, ré-entraînement du modèle).
  - Intégrer Airflow avec MLflow pour gérer les workflows de Machine Learning.

### 4. **Intégration avec Kubeflow**
- **Durée estimée** : 6 jours (12 heures)
- **Tâches** :
  - Configurer Kubeflow pour orchestrer le cycle de vie du modèle (préparation des données, entraînement, déploiement).
  - Utiliser Kubeflow pour déployer le modèle en production.

### 5. **Déploiement sur Kubernetes**
- **Durée estimée** : 4 jours (8 heures)
- **Tâches** :
  - Configurer un cluster Kubernetes pour héberger les composants du projet (modèle, Airflow, Kubeflow).
  - Déployer les composants sur le cluster Kubernetes.
  - Assurer la mise à l'échelle et la tolérance aux pannes.

### 6. **Surveillance avec Prometheus et alertes**
- **Durée estimée** : 3 jours (6 heures)
- **Tâches** :
  - Configurer Prometheus pour surveiller les performances du modèle.
  - Implémenter des alertes automatiques via Slack ou email en cas de détection d'anomalies.

### 7. **Création d'un tableau de bord**
- **Durée estimée** : 3 jours (6 heures)
- **Tâches** :
  - Utiliser des outils comme Grafana pour créer un tableau de bord visuel des anomalies détectées.
  - Intégrer le tableau de bord avec les données de surveillance.

## **Total estimé** : 30 jours (60 heures)

## **Apprentissage attendu**
- Comprendre les bases de la cybersécurité (analyse de logs, types d'attaques).
- Intégrer le Machine Learning dans des systèmes réels.
- Maîtriser les outils MLOps (Kubeflow, Airflow, MLflow) et leur orchestration.
- Apprendre à déployer des applications sur Kubernetes.
