Eine Einführung in scikit-learn

Repository zum Sonderheft-Artikel von Alina Dallmann, erschienen im iX Special 2023.

iX-tract

Die Python-Bibliothek scikit-learn eignet sich für den schnellen Einstieg in Datentransformation und Machine-Learning-Algorithmen.
Die vielfältigen Statistik- und ML-Methoden lassen sich gleich oder sehr ähnlich ansprechen.
Am Anfang des Machine-Learning-Prozesses stehen wichtige Entscheidungen: das Bereinigen der Daten und die Auswahl des passenden Algorithmus für Daten und Fragestellung.
Probleme wie Overfitting oder Information Leakage lassen sich leicht verhindern, wenn man ein paar Grundsätze beachtet.

Um das Notebook pipeline.ipynb oder alternativ das Skript pipeline.ipynb auszuführen, werden die Bibliotheken aus der requirements.txt-Datei benötigt. Eine Installation kann beispielsweise mit dem Befehl pip install -r requirements.txt erfolgen.
Die Datei mit den Daten sollte als vehicles.csv im Ordner data abgespeichert werden. Die Datei kann von Kaggle heruntergeladen werden.

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
data		data
README.md		README.md
pipeline.ipynb		pipeline.ipynb
pipeline.py		pipeline.py
requirements.txt		requirements.txt