# Projet SIEM : Suricata, Filebeat, Elasticsearch

## Objectifs

Ce projet vous permettra de :
- V√©rifier le bon fonctionnement de la stack SIEM
- Analyser les donn√©es index√©es par Filebeat (Suricata)
- D√©tecter des anomalies sans ML
- D√©tecter des anomalies avec ML (Isolation Forest)

## Modalit√©
- groupe de 3 √† 4
- output : projet git avec ce notebook d√©taill√© et compl√©t√©

## Architecture SIEM

```
Suricata   ‚Üí   Filebeat   ‚Üí   Elasticsearch   ‚Üí   Kibana
(IDS/HIDS)   (Collecteur)      (Stockage)   (Visualisation/Alerting)
```

## Pr√©requis

1. D√©marrer la stack :
```bash
docker-compose -f docker-compose-siem.yml up -d
```

2. Attendre quelques minutes que Suricata g√©n√®re des logs et que Filebeat les indexe dans Elasticsearch.

In [None]:
# Configuration et connexion √† Elasticsearch
from elasticsearch import Elasticsearch
from datetime import datetime, timedelta
import json
import subprocess
import os
import warnings
from urllib3.exceptions import InsecureRequestWarning

warnings.simplefilter("ignore", InsecureRequestWarning)
# Configuration
ES_HOST = "https://localhost:9200"
ES_USER = "elastic"
ES_PASSWORD = "changeme"  # Modifiez selon votre .env

# Connexion
es = Elasticsearch(
    [ES_HOST],
    basic_auth=(ES_USER, ES_PASSWORD),
    verify_certs=False
)

# V√©rification de la connexion
health = es.cluster.health()
print(f"‚úÖ Cluster Elasticsearch: {health['status']} ({health['number_of_nodes']} n≈ìuds)")

## 1. V√©rification de la stack

In [None]:
# V√©rification des services Docker
services = ['es01', 'es02', 'es03', 'kibana', 'suricata', 'filebeat']
running = []

for service in services:
    try:
        result = subprocess.run(
            ['docker', 'ps', '--filter', f'name={service}', '--format', '{{.Names}}'],
            capture_output=True, text=True, timeout=5
        )
        if service in result.stdout:
            running.append(service)
            print(f"‚úÖ {service}")
        else:
            print(f"‚ùå {service}")
    except:
        print(f"‚ùå {service}")

if len(running) == len(services):
    print(f"\n‚úÖ Tous les services sont d√©marr√©s ({len(running)}/{len(services)})")
else:
    print(f"\n‚ö†Ô∏è  Services d√©marr√©s: {len(running)}/{len(services)}")

## 2. V√©rification de l'injection des donn√©es

In [None]:
# Recherche des index Suricata
def get_suricata_index():
    """Retourne le nom de l'index Suricata le plus r√©cent"""
    try:
        indices = es.indices.get(index="suricata-*")
        if indices:
            return sorted(indices.keys())[-1]
    except:
        pass
    return "suricata-*"

index_name = get_suricata_index()

# Comptage des documents
try:
    count = es.count(index=index_name)
    print(f"üìä Index: {index_name}")
    print(f"üìà Nombre de documents: {count['count']:,}")
    
    # Exemple de document
    if count['count'] > 0:
        sample = es.search(index=index_name, size=1, query={"match_all": {}})
        if sample['hits']['hits']:
            doc = sample['hits']['hits'][0]['_source']
            print(f"\nüìÑ Exemple de document:")
            print(f"   Type: {doc.get('event_type', 'N/A')}")
            print(f"   Timestamp: {doc.get('@timestamp', doc.get('timestamp', 'N/A'))}")
            if 'src_ip' in doc:
                print(f"   Source: {doc.get('src_ip')}:{doc.get('src_port', 'N/A')}")
                print(f"   Destination: {doc.get('dest_ip')}:{doc.get('dest_port', 'N/A')}")
            if 'alert' in doc:
                alert = doc['alert']
                print(f"   Alerte: {alert.get('signature', 'N/A')}")
                print(f"   S√©v√©rit√©: {alert.get('severity', 'N/A')}")
except Exception as e:
    print(f"‚ùå Erreur: {e}")

## 4. Simuler des comportements anormaux


#### Simulation de scans suspects (en ligne de commande ou en python) 

In [None]:
 # TODO

#### Simulation de burst HTTP en ligne de commande (en ligne de commande ou en python) 

In [None]:
# TODO

#### Simulation de [√† continuer]

## 4. D√©tection d'anomalies sans ML

## 4. D√©tection d'anomalie (sans Machine Learning)

L'objectif est de construire des r√®gles qui d√©tectent vos simulations de comportements pr√©c√©dents.

Un exemple de d√©tection d'anomalies basiques bas√©es sur des r√®gles:
```python
def detect_anomalies_basic():
    """D√©tecte des anomalies sans ML"""
    anomalies = []
    
    # 1. IPs sources avec beaucoup d'alertes diff√©rentes (scan suspect)
    query = {
        "size": 0,
        "query": {"term": {"event_type": "alert"}},
        "aggs": {
            "suspicious_ips": {
                "terms": {"field": "src_ip", "size": 10},
                "aggs": {
                    "unique_signatures": {"cardinality": {"field": "alert.signature_id"}},
                    "unique_dest_ips": {"cardinality": {"field": "dest_ip"}},
                    "total_alerts": {"value_count": {"field": "event_type"}}
                }
            }
        }
    }
    
    result = es.search(index=index_name, body=query)
    
    print("D√©tection d'anomalies (r√®gles basiques)\n")

    for bucket in result['aggregations']['suspicious_ips']['buckets']:
        ip = bucket['key']
        unique_sigs = bucket['unique_signatures']['value']
        unique_dests = bucket['unique_dest_ips']['value']
        total = bucket['total_alerts']['value']
        
        # Crit√®res d'anomalie
        if unique_sigs > 3 or unique_dests > 5:
            anomalies.append({
                "ip": ip,
                "type": "Scan suspect",
                "signatures": unique_sigs,
                "destinations": unique_dests,
                "total": total
            })
            print(f"üö® {ip}: {unique_sigs} signatures, {unique_dests} destinations ({total} alertes)")

    return anomalies

anomalies = detect_anomalies_basic()
if not anomalies:
    print("\nAucune anomalie d√©tect√©e avec les r√®gles basiques")
```

In [None]:
# TODO

## 5. D√©tection d'anomalies avec ML

L'objectif est d'√† partir de donn√©es labelis√©es comme √©tant anomarles ou non, construire un jeu de donn√©e et entrainer un algorithme de machine learning (classifier binaire) sur ces donn√©es. Le mod√®le devra ensuite etre appel√© pour pr√©dire les futurs comportements anormaux.

Indice: le mod√®le Isolation Forest pourrait etre utile

In [43]:
# TODO

## Bonus
- am√©liorer la stack (ex: ajout de Wazuh)
- dashboard Kibana pour voir en live les simulations de comportements anormaux et les d√©tection d'anomalie (timeline des alertes, etc.)
- analyse statistique avanc√©e
- simulations de comportement anormaux avanc√©e
- utilisation du module de d√©tection d'anomalie d'Elasticsearch (https://www.elastic.co/docs/explore-analyze/machine-learning/anomaly-detection)
- collaboration en groupe sur le projet Git (Pull requests, commits, etc.)
- utilisation de docker / docker compose / devcontainer
- etc.