Empirische Untersuchung zur Cross-Dataset-Übertragbarkeit von ML-Modellen zwischen NSL-KDD und CIC-IDS-2017
Diese Arbeit untersucht systematisch die Cross-Dataset-Transferabilität von Machine Learning-Modellen für die Netzwerk-Intrusion-Detection. Kernfrage: Inwieweit sind ML-Modelle für Netzwerk-Anomalieerkennung zwischen verschiedenen Datensätzen übertragbar?
Zentrale Ergebnisse:
- 38.6% durchschnittlicher Leistungsverlust bei Cross-Dataset-Transfer
- XGBoost zeigt beste Cross-Dataset-Stabilität
# Environment Setup
python -m venv network_ids_env
source network_ids_env/bin/activate
pip install -r requirements.txt
# Experimente ausführen
python validate_environment.py
python experiments/01_data_exploration.py
python experiments/05_cross_dataset_evaluation.py
├── data/
│ ├── raw/ # NSL-KDD & CIC-IDS-2017 Datasets
│ ├── models/ # Trainierte Modelle
│ └── results/ # Experimentelle Ergebnisse
├── experiments/ # Experimentelle Pipeline (01-10)
├── src/ # Core Implementation
└── docs/ # Methodologie & Ergebnisse
Die wichtigsten Resultate finden sich in:
data/results/experiment_summary.csv
- Konsolidierte Leistungsmetrikendata/results/bidirectional_cross_dataset_analysis.csv
- Transfer-Analysedata/results/paper_figures/
- Publikationsreife Visualisierungen
Alle Experimente verwenden RANDOM_STATE = 42
für deterministische Ergebnisse. Getestet auf Python 3.8-3.11, Linux/macOS/Windows.