Repository zum Sonderheft-Artikel von Alina Dallmann, erschienen im iX Special 2023.
- Die Python-Bibliothek scikit-learn eignet sich für den schnellen Einstieg in Datentransformation und Machine-Learning-Algorithmen.
- Die vielfältigen Statistik- und ML-Methoden lassen sich gleich oder sehr ähnlich ansprechen.
- Am Anfang des Machine-Learning-Prozesses stehen wichtige Entscheidungen: das Bereinigen der Daten und die Auswahl des passenden Algorithmus für Daten und Fragestellung.
- Probleme wie Overfitting oder Information Leakage lassen sich leicht verhindern, wenn man ein paar Grundsätze beachtet.
- Um das Notebook
pipeline.ipynb
oder alternativ das Skriptpipeline.ipynb
auszuführen, werden die Bibliotheken aus derrequirements.txt
-Datei benötigt. Eine Installation kann beispielsweise mit dem Befehlpip install -r requirements.txt
erfolgen. - Die Datei mit den Daten sollte als
vehicles.csv
im Ordnerdata
abgespeichert werden. Die Datei kann von Kaggle heruntergeladen werden.