---
title: Note intermédiaire rapport de stage
author:
  - name: Mathieu Thomassin
    orcid: 0000-0002-0760-5497
    corresponding: true
    email: mathieu.thomassin@insee.fr
    roles:
      - Investigation
      - Project administration
      - Software
      - Visualization
keywords:
  - machine learning, deep learning, cybersécurité
  - Earthquakes
abstract: |
  L’Insee a renforcé récemment ses capacités opérationnelles en terme de cybersécurité via notamment la création de son SOC (Security Operation Center) en septembre 2023. Devant la quantité de données et leur diversité et face aux évolutions des techniques et tactiques des attaquants, les méthodes de détection de cyberattaques peuvent avoir des limites. L’application d’algorithmes de Machine Learning peut aider les analystes SOC à repérer des attaques. Se déroulant au sein de l’équipe SOC construite depuis peu, le stage va permettre d’appliquer des techniques de Machine Learning et de deep learning sur des jeux de données réelles, afin de participer à la détection d’incidents de sécurité.
plain-language-summary: |
  
key-points:
  - Un premier modèle de machine learning appliqué à une zone du SI de l'Insee non ouverte à l'extérieur n'a pas révélé de requête http malveillante
  - L'intégration dans un workflow de type MLOps permet de tirer profit de bonnes pratiques.
date: last-modified
bibliography: references.bib
citation:
  container-title: SOC Insee
number-sections: true
---

#### 1. Introduction
   - **Présentation du Stagiaire et du maître de stage** :
     - stagiaire: Mathieu THOMASSIN
     - maître de stage: Michael ORSUCCI
     - Titre du stage: Machine Learning appliqué à la cybersécurité
### Introduction
   - **Contexte et Objectifs du Stage** : L’Insee a renforcé récemment ses capacités opérationnelles en terme de cybersécurité via notamment la création de son SOC (Security Operation Center) en septembre 2023. Devant la quantité de données et leur diversité et face aux évolutions des techniques et tactiques des attaquants, les méthodes de détection de cyberattaques peuvent avoir des limites. L’application d’algorithmes de Machine Learning peut aider les analystes SOC à repérer des attaques. Se déroulant au sein de l’équipe SOC construite depuis peu, le stage va permettre d’appliquer des techniques de Machine Learning et de deep learning sur des jeux de données réelles, afin de participer à la détection d’incidents de sécurité. Il s'agit d'appliquer des techniques de détection de requêtes malveillantes arrivant dans le SI de l'Insee. Pour cela, un SIEM (Security information and event management), SPLUNK, a été déployé par les membres du SOC au début du stage. Ce système permet de constituer un puit de logs dans lequel puiser des données.

   - **Présentation de l'entreprise** : Informations sur l'entreprise, son secteur d'activité, sa mission et sa vision.

   - **Problématique et Enjeux** : <!---
 Définir la problématique abordée lors du stage et les enjeux associés.
-->


### 2. État de l’Art
   - **Revue de Littérature** : Synthèse des travaux précédents, articles scientifiques, et technologies utilisées en lien avec la problématique du stage.

Le SOC étant une nouvelle unité, il n'y a pas eu de travaux sur le sujet en amont. J'ai axé ma recherche bibliogrpahique autour des techniques de machine learning pour la cybersécurité, et autour des techniques de Deep Learning.

* Livres:
  + An introduction to statistical learning with applications in Python
  + Deep Learning Patterns and Practices, Andrew Ferlitsch
  + Deep Learning from Scratch - Building with Python from first principles, Seth Weidman
  + Deep Learning_ A Visual Approach -- Andrew Glassner -- Illustrated, 2021
  + Machine learning with Python cookbook, Kyle Gallatin & Chris Albon
  + Deep Learning, Ian Goodfellow
  + Machine Learning for cybersecurity, Emmanuel Tsukerman, (Chapter 6 Automatic Intrusion Detection)
  + Machine Learning for computer and Cyber Security, Principles, Algorithms, and Practices, Brij B. Gupta

* Articles:
  + Isolation Forest, Liu, Ting, Zhou
  + R. Fontugne, P. Borgnat, P. Abry, K. Fukuda. "MAWILab: Combining diverse anomaly detectors for automated anomaly labeling and performance benchmarking". ACM CoNEXT 2010. Philadelphia, PA. December 2010. 




   - **Technologies et Outils** : Présentation des technologies, outils, et bibliothèques couramment utilisés en data science et spécifiques au projet.

Pour ce projet, j'utilise Python, et des notebook Jupyter, au sein d'environnement hébergés sur la plateforme Onyxia (qui met à dispositio un GPU) ou son équivalent en interne à l'Insee (qui n'en dispose pas). J'utilise les packages classiques de machine learning dont scikit-learn, et les outils associés: TfidfVectorizer, tensorflow, LogisticRegressionLSTM, XGBoost CNN, KFold GridSearchCV.
J'ai également commencé à utiliser l'outil MLFlow, qui est une plateforme permettant de gére le cycle de vie d'un projet de machine learning de bout en bout, notamment les étapes d'expérimentation et d'amélioration continue.


![L'approche MLOps](images/mlops.png)


### 3. Méthodologie
   - **Collecte de Données** : Sources des données, méthodes de collecte, et description des jeux de données utilisés.

Les données se classent en deux catégories: les données sur lesquelles les modèles sont entraînés, et les données issues de Splunk.
Pour le moment, j'ai testé différents algorithmes sur un unique jeu de données que je nomme ["Good-Bad queries"]<https://github.com/faizann24/Fwaf-Machine-Learning-driven-Web-Application-Firewall.git>

   - **Préparation des Données** : Techniques de nettoyage, transformation, et enrichissement des données.
   - **Exploration des Données** : Analyse exploratoire, visualisations, et insights préliminaires obtenus des données.
   - **Modélisation** : Description des modèles de machine learning ou autres techniques analytiques utilisés. Justification des choix de modèles.
   - **Évaluation des Modèles** : Métriques et méthodes utilisées pour évaluer la performance des modèles.

### 4. Développement et Implémentation
   - **Architecture du Système** : Schéma et description de l'architecture du système ou de la solution développée.
   - **Pipeline de Données** : Description du pipeline de traitement des données, de l'ingestion à l'analyse.
   - **Déploiement** : Processus de déploiement des modèles ou solutions, environnements utilisés (local, cloud, etc.), et outils de déploiement.

### 5. Résultats et Discussions
   - **Résultats Obtenus** : Présentation des résultats des analyses et des performances des modèles.
   - **Interprétation des Résultats** : Analyse et interprétation des résultats. Comparaison avec les attentes initiales et les benchmarks.
   - **Limites et Contraintes** : Discussion sur les limites rencontrées, les défis techniques, et les contraintes liées aux données ou aux outils.

### 6. Conclusion et Perspectives
   - **Synthèse du Travail** : Résumé des principales réalisations et des contributions du stage.
   - **Perspectives d’Avenir** : Suggestions pour des travaux futurs, améliorations possibles, et nouvelles pistes de recherche ou de développement.

### 7. Références
   - **Bibliographie** : Liste des ouvrages, articles, et ressources consultés pour la réalisation du projet.
   - **Outils et Logiciels** : Références des outils et logiciels utilisés.

### 8. Annexes
   - **Code Source** : Extraits de code pertinents ou lien vers un dépôt de code.
   - **Documents Supplémentaires** : Diagrammes, schémas, documents techniques, etc.

Ce plan vous fournira une structure claire et organisée pour votre note intermédiaire, couvrant tous les aspects essentiels de votre stage en data science. Chaque section peut être adaptée en fonction des spécificités de votre projet et des exigences de votre programme de master.

## Introduction


Based on data up to and including 1971, eruptions on La Palma happen every 79.8 years on average.

## Data & Methods {#sec-data-methods}

## Conclusion

## References {.unnumbered}

:::{#refs}

:::