# Grundlagen von Active Learning

>Die Grundidee von Active Learning besteht darin, dass ein maschineller Lernalgorithmus mit weniger Trainingsaufwand bessere Leistungen erbringen kann, wenn er die Daten, aus denen er lernt, selbst auswählen kann.

Active Learning ist eine wirkungsvolle Methode im Bereich des maschinellen Lernens, die darauf abzielt, den Aufwand für das Labeln von Daten zu reduzieren, ohne die Vorhersagequalität der Modelle zu beeinträchtigen. Diese Technik wird insbesondere dann eingesetzt, wenn die Kosten für das Labeling großer Datenmengen sehr hoch sind.

## Inhaltsverzeichnis
1. [Warum Active Learning?](#chapter1)
2. [Der Active Learning Cycle](#chapter2)
3. [Auswahl von Active Learning-Strategien](#chapter3)
4. [Python Frameworks für Active Learning](#chapter4)
5. [Zusammenfassung](#chapter5)


### 1. Warum Active Learning? <a id="chapter1"></a>
Active Learning ist eine äußerst effektive Methode im Bereich des maschinellen Lernens, die aus mehreren Gründen bevorzugt wird:

**Kostenersparnis**: In vielen Anwendungen, insbesondere in der Medizin oder im juristischen Bereich, sind Experten notwendig, um Daten zu labeln. Dies ist teuer und zeitaufwändig. Active Learning hilft, diese Kosten zu senken, indem es gezielt die informativsten Datenpunkte zur Labelung auswählt.

**Effizienz**: Beim herkömmlichen passiven Lernen, werden vorab viele Datenpunkte gelabelt. Dabei wird vernachlässigt, das einige Datenpunkte in den Daten kaum Mehrwert für die resultierende Modellgenauigkeit liefern, da diese größtenteils redundante Informationen tragen. Beim Active Learning hingegen werden die Daten iterativ gelabelt und meist kann bereits in den ersten Schritten vernünftige Modelle trainiert werden. Dieser Ansatz spart somit Zeit und Rechenressourcen.

**Schnelle Anpassung**: In Anwendungsfällen, in denen sich die Datenverteilung im Laufe der Zeit ändert, kann Active Learning dazu verwendet werden, das Modell schnell anzupassen, indem es neue, relevante Datenpunkte in den Trainingsdatensatz aufnimmt.


### 2. Der Active Learning Cycle <a id="chapter2"></a>

**Terminologie:**<br> Als **Datenpool** wird die Menge aller noch nicht gelabelten Daten bezeichnet. Mit **Trainingsdaten** ist die Menge aller bereits gelabelten Datenpunkte gemeint.

1. **Ausgangssituation**: Man hat einen Pool an ungelabelten Daten.
2. **Kaltstart**: Man wählt zunächst per Zufall ein paar Datenpunkte und bestimmt deren Klassenzugehörigkeit.
3. **Training**: Man trainiert mit den aktuellen Trainingsdaten ein neues Modell. Zu Evaluation kann man auf K-Fold Splitting nutzen. Ist man mit der Genauigkeit des Modells zufrieden, kann man an dieser Stelle aufhören und den Zyklus beenden.
4. **Evaluation des Datapool**: Entscheide welcher Datenpunkt als nächstes gelabelt werden soll. Es gibt hier eine ganze Reihe von Kriterien, die als Maßstab verwendet werden können, um den nächsten Datenpunkt zu bestimmen. Die meisten davon bewerten entweder die Ungewissheit des Modells gegenüber des Datenpunkt oder die Diversität des Datenpunkt gegenüber den bestehenden Trainingsdaten. 
5. **Labeling**: Bestimme die Klasse des neuen Datenpunkts und füge ihn zu den Trainingsdaten hinzu.
6. Zurück zu Schritt 3.

![ ](./assets/active_learning_de.gif)

Die Darstellung illustriert den Active Learning Cycle. Zu sehen ist, wie eine lineare SVM iterativ neu trainiert wird. Dabei wird in jedem Schritt der Datenpunkt aus dem Pool gelabelt, welcher der Entscheidungsgrenze am nächsten liegt und somit am unsichersten einer der beiden Klasse zugeordnet werden kann. Nachdem etwa die Hälfte aller Datenpunkte gelabelt wurde, verändert sich die Entscheidungsgrenze nicht mehr, da alle Supportvektoren und damit alle relevanten Datenpunkte bereits in den Trainingsdaten enthalten sind. Es konnte folglich mit nur der Hälfte der Daten das optimale Model ermittelt werden.


### 3. Auswahl von Active Learning-Strategien <a id="chapter3"></a>
Um Active Learning effektiv umzusetzen, benötigt man eine gute Strategie, um in jedem Schritt den/die nächsten Datenpunkt(e) aus dem Datenpool zu bestimmen. Es gibt viele verschiedene Strategien, um den nächsten Datenpunkt zum Labeln auszuwählen. Dabei gibt es zudem nicht die eine Strategie, die immer am besten funktioniert. Es muss daher anwendungsindividuell entschieden werden, welche Strategie geignet sein könnte.
Die meisten in der Literatur erwähnten Strategien lassen sich dabei in 3 Gruppen einordnen.

#### Unsicherheitsbasiertes Sampling
Diese Strategien wählen Datenpunkte aus, bei denen das Modell unsicher ist. Dazu gehören Punkte, bei denen die Vorhersageunsicherheit hoch ist, wie beispielsweise Datenpunkte nahe der Klassengrenze oder mit hoher Entropie in der Vorhersageverteilung.

#### Diversitätsbasiertes Sampling
Um die Diversität der Trainingsdaten zu erhöhen, werden Datenpunkte ausgewählt, die repräsentativ für verschiedene Bereiche des Merkmalsraums sind. Dies hilft, Overfitting zu vermeiden und sicherzustellen, dass das Modell robust ist. Enthalten die Daten jedoch viele Ausreißer, kann dies jedoch auch dazu führen, dass vorwiegend diese zu den Trainingsdaten aufgenommen werden.

#### Fehlerkorrekturbasiertes Sampling
Diese Strategien zielen darauf ab, Fehler zu korrigieren, die das Modell bereits gemacht hat. Datenpunkte, die in der Nähe von falsch klassifizierten Punkten liegen, werden ausgewählt, um das Modell zu verbessern.

### 4. Python Frameworks für Active Learning <a id="chapter4"></a>
In den folgenden Notebooks werden Beispiele für die Umsetzung von Active Learning mit verschiedenen Frameworks in Python gezeigt. Ähnlich wie bei den Strategien, gilt auch hier, jedes Framework hat seine Stärken und Schwächen und sollte entsprechend der Problemanforderungen passend gewählt werden. Im Folgenden fassen wir kurz einige der Frameworks zusammen. 
#### modAL
Ein flexibles und modulares Framework zur Implementierung von Active Learning. Große Auswahl an Algorithmen und Entscheidungskriterien. Kompatibel mit scikit-learn und individuell anpassbar. ([Dokumentation](https://modal-python.readthedocs.io/en/latest/), siehe Notebook 2)
#### Superintendent
Eine Sammlung von Widgets für Jupyter-Notebooks. Einfache Implementierung des Active Learning Cycle mit interaktiven Labeling Widgets. Erstellt mit ipywidgets und ipyannotations, um schnelle und effiziente Lösungen zu schaffen.
([GitHub](https://github.com/janfreyberg/ipyannotations))

#### Scikit ActiveML
Ähnlich wie modAL, etwas weniger anpassbar, dafür etwas einfacher zu benutzen. Integriert auch bereits interaktive Labeling Widgets.([Dokumentation](https://scikit-activeml.github.io/scikit-activeml-docs/index.html))

#### PyRelationAL
Ein leistungsstarkes Paket für Forschung und fortgeschrittene Active Learning-Anwendungen. ([GitHub](https://github.com/RelationRx/pyrelational))

### 5. Zusammenfassung <a id="chapter5"></a>

Active Learning stellt eine attraktive Alternative zum herkömmlichen "Passive Learning" dar. Insbesondere in Anwendungen, bei denen das Labeln der Daten kostspielig und zeitaufwändig ist, kann Active Learning dazu beitragen, den Aufwand zu reduzieren. 
Die erfolgreiche Umsetzung hängt vor allem von der gewählten Strategie ab, mit der in jeder Iteration entschieden wird, welche Datenpunkte gelabelt und den Trainingsdaten hinzugefügt werden sollen.
Es existiert zudem eine Vielzahl von Frameworks, die bei der Implementierung des Active Learning Cycles unterstützen können. Es gibt keine allgemeingültige "beste" Wahl für alle Anwendungen, sondern vielmehr sollte je nach den spezifischen Anforderungen der Problemstellung ein passendes Framework ausgewählt werden.

Konkrete Anwenungsbeispiele finden Sie in den weiteren Notebooks.