<img src="Bilder/ost_logo.png" width="240"  align="right"/>
<div style="text-align: left"> <b> Applied Neural Networks | FS 2025 </b><br>
<a href="mailto:christoph.wuersch@ost.ch"> © Christoph Würsch </a> </div>
<a href="https://www.ost.ch/de/forschung-und-dienstleistungen/technik/systemtechnik/ice-institut-fuer-computational-engineering/"> Eastern Switzerland University of Applied Sciences OST | ICE </a>

[![Run in Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/ChristophWuersch/AppliedNeuralNetworks/blob/main/ANN03/3.4-Machine-Learning-Workflow.ipynb)

# Ein allgemeiner Machine-Learning-Workflow

In diesem Abschnitt werden wir eine allgemeine Vorlage entwickeln, die Sie dazu
verwenden können, beliebige Machine-Learning-Aufgaben in Angriff zu nehmen
und zu lösen. Diese Vorlage verknüpft die in diesem Kapitel vorgestellten Konzepte
miteinander: 
1. Definition der Aufgabe
2. Bewertung, 
3. Merkmalserstellung und
4. Verhindern einer Überanpassung.



## Vorgehensweise:

1.  **Definieren Sie die Aufgabe** und legen Sie fest, mit welchen **Daten** Sie das Modell trainieren. Sammeln Sie diese Daten oder kennzeichnen Sie sie mit einer Klassenbezeichnung, falls erforderlich.
2. **Bewertungskriterien:** Wählen Sie aus, wie Sie das erfolgreiche Lösen der Aufgabe bewerten möchten. Welche der für die Validierungsdaten gültigen Erfolgskriterien sollen überwacht werden?
3.  Legen Sie die **Bewertungsmethode** fest: Holdout-Methode? K-fache Kreuzvalidierung? Welche Teilmenge der Daten soll für die Validierung genutzt werden?
4. Entwickeln Sie ein **erstes Modell**, das bessere Ergebnisse liefert als zufälliges Raten und eine hohe Teststärke aufweist.
5. Entwickeln Sie ein **Modell mit Überanpassung**.
6. **Regularisieren** Sie das Modell und stimmen Sie anhand der Leistung bei den Validierungsdaten die Hyperparameter ab. Ein Großteil der Machine-Learning-Forschung konzentriert sich tendenziell nur auf diesen einen Schritt. Es ist jedoch besser, sich ein Gesamtbild zu machen.

## 1. Definition der Aufgabe und Zusammenstellen einer Datenmenge
Als Erstes muss die vorliegende Aufgabe genau definiert werden:

- **Was soll als Eingabedaten verwendet werden?** Was möchten Sie vorhersagen? Zu erlernen, Vorhersagen zu treffen, ist nur möglich, wenn Trainingsdaten verfügbar sind. Die Klassifizierung der Stimmungslage von Filmbewertungen kann beispielsweise nur erlernt werden, wenn Ihnen sowohl die Filmbewertungen als auch die dazugehörigen Zielwerte (die Klassenbezeichnungen) zur Verfügung stehen. In diesem Stadium stellt die Verfügbarkeit von Daten für gewöhnlich die größte Einschränkung dar – es sei denn, Ihnen stehen die nötigen Mittel zur Verfügung, um für das Sammeln von Daten zu bezahlen.
- **Mit welchem Aufgabentyp haben Sie es zu tun?** Handelt es sich um eine Binärklassifizierung? Eine Mehrfachklassifizierung? Eine skalare Regression? Eine Vektorregression? Eine Multi-Label-Mehrfachklassifizierung? Oder etwas ganz anderes, wie Clustering, Datenerzeugung oder verstärkendes Lernen? Die Identifizierung des Aufgabentyps hilft Ihnen bei der Auswahl der Modellarchitektur, der Verlustfunktion usw.

Sie können erst fortfahren, wenn Sie Ihre Eingaben und Ausgaben kennen und wissen, welche Daten Sie verwenden werden. Außerdem müssen Sie sich darüber im Klaren sein, dass Sie zu diesem Zeitpunkt die folgenden Annahmen machen:
- Sie gehen davon aus, dass die Ausgaben anhand der Eingaben vorhersagbar sind.
- Sie gehen davon aus, dass der Informationsgehalt der verfügbaren Daten ausreicht, um die Beziehung zwischen Eingaben und Ausgaben zu erlernen.

Bis Sie über ein funktionierendes Modell verfügen, sind das lediglich Hypothesen,
die sich als richtig oder falsch herausstellen können. 
- Nicht alle Aufgaben sind lösbar.
- Dass Sie Beispiele der Eingaben `X` und der Zielwerte `Y` zusammengestellt haben, heisst noch lange nicht, dass `X` genügend Informationen enthält, um `Y` vorherzusagen.
- Wenn Sie beispielsweise versuchen, den Börsenkurs einer Aktie anhand des bisherigen Kursverlaufs vorherzusagen, werden Sie wahrscheinlich keinen Erfolg haben, denn der Kursverlauf enthält kaum Informationen, die für die Vorhersage von Bedeutung sind.

Eine Klasse unlösbarer Aufgaben, die Sie kennen sollten, sind sogenannte *nichtstationäre
Aufgaben*. 

Nehmen wir an, Sie entwickeln ein Empfehlungssystem für Bekleidung, das Sie mit den Daten eines Monats (August) trainieren. Im Winter wollen Sie damit beginnen, Empfehlungen zu erzeugen. Das Problem dabei ist, dass die Leute je nach Jahreszeit eine andere Art von Kleidung kaufen: Betrachtet man einen Zeitraum von einigen wenigen Monaten, ist der Kauf von Bekleidung
ein nicht-stationäres Phänomen. 

Das, was Sie zu modellieren versuchen, ändert sich im Laufe der Zeit. In diesem Fall wäre es vernünftig, das Modell immer wieder mit Daten der jüngsten Vergangenheit zu trainieren oder Daten für einen Zeitraum zu sammeln, in dem die Aufgabe stationär ist. Um Empfehlungen für den Kauf von Bekleidung zu geben – also für eine sich zyklisch ändernde Aufgabe –, dürften die Daten von ein paar Jahren ausreichen, um die jahreszeitlich bedingten
Änderungen zu erfassen – aber vergessen Sie nicht, die Jahreszeit als Eingabe Ihres Modells zu definieren!

Denken Sie auch daran, dass beim Machine Learning nur Muster dauerhaft erfasst
werden können, die Bestandteil der Trainingsdaten sind. Das Modell kann nur das
erkennen, was ihm auch bekannt ist. Mit Daten aus der Vergangenheit trainierte
Machine-Learning-Modelle für die Vorhersage der Zukunft zu verwenden, setzt
voraus, dass sich in Zukunft alles so wie in der Vergangenheit verhält. Das ist allerdings
häufig nicht der Fall.

## 2. Auswahl eines Erfolgskriteriums
Um etwas steuern zu können, müssen Sie in der Lage sein, es zu beobachten. Und
um einen Erfolg zu erzielen, müssen Sie definieren, was damit gemeint ist. 
- Eine hohe Korrektklassifizierungsrate? 
- Genauigkeit und Trefferquote? 
- Hohe Kundenbindung?

Ihr Erfolgskriterium beeinflusst die Wahl der Verlustfunktion, legt also fest, was Ihr Modell optimiert, und sollte sich dementsprechend an den übergeordneten Zielen orientieren, wie z.B. am Erfolg Ihres Geschäftsmodells.


- Für *ausgewogene* Klassifizierungsaufgaben, bei denen alle Klassen die gleiche Wahrscheinlichkeit besitzen, sind die *Korrektklassifizierungsrate* und die *Fläche unter der ROC-Kurve*, die sogenannte ROC-AUC (Receiver Operator Characteristic Area Under Curve), gängige Kriterien. 
- Für *unausgewogene* Klassifizierungsaufgaben können Sie *Genauigkeit und Trefferquote* verwenden. 
- Bei der Ermittlung einer Reihenfolge oder bei einer Mehrfachklassifizierung ist die gewichtete mittlere Genauigkeit angebracht. 

Und es kommt auch nicht selten vor, dass man die Erfolgskriterien selbst festlegen muss. Wenn Sie sich einen Eindruck von der Vielfalt der Erfolgskriterien des Machine Learnings für verschiedene Aufgabenstellungen verschaffen möchten, sollten Sie sich die Data-Science-Wettbewerbe bei Kaggle (https://kaggle.com) ansehen. Sie finden dort ein breites Spektrum von Aufgaben und Bewertungskriterien.

## 3. Auswahl einer Bewertungsmethode

Nachdem Sie die Aufgabe definiert haben, müssen Sie festlegen, wie Sie den aktuell erzielten Fortschritt beurteilen wollen. Die folgenden Bewertungsmethoden haben wir bereits erörtert:

- (a) **Holdout-Methode** – Sie ist gut geeignet, wenn Ihnen viele Daten zur Verfügung stehen.
- (b) **K-fache Kreuzvalidierung** – Die richtige Wahl, wenn Ihnen nicht genügend Daten für die Holdout-Methode zur Verfügung stehen.
- (c) **Verschachtelte K-fache Kreuzvalidierung** – Sie liefert eine verlässlichere Bewertung,
wenn nur wenige Daten verfügbar sind. 

Verwenden Sie eine dieser Methoden. In den meisten Fällen wird das hinreichend
gut funktionieren.

## 4. Daten vorbereiten

Wenn feststeht, welche Daten Sie für das Training verwenden, was Sie optimieren möchten und wie Sie Ihren Ansatz bewerten wollen, sind Sie schon fast so weit, dass Sie mit dem Training anfangen können. Zunächst einmal sollten Sie jedoch
Ihre Daten so aufbereiten, dass Sie ein Machine-Learning-Modell damit füttern können. Wir gehen hier davon aus, dass es sich um ein NN handelt:
- Wie Sie bereits wissen, sollten Ihre Daten in Form von **Tensoren** vorliegen.
- Die in den Tensoren gespeicherten Werte sollten relativ klein sein und beispielsweise in einem der Intervalle `[-1, 1]` oder `[0, 1]` liegen.
- Wenn die verschiedenen Merkmale von unterschiedlicher Grössenordnung sind (ungleichartige oder heterogene Daten), sollten Sie die Daten **normieren**.
- Ziehen Sie eine **Merkmalserstellung** in Betracht, insbesondere bei Aufgaben, für die nur wenige Daten verfügbar sind.

Sobald die Eingabe- und Zieldaten als Tensoren bereitstehen, können Sie Modelle trainieren.

## 5. Entwicklung eines Modells, das besser funktioniert als zufälliges Raten

- An dieser Stelle haben Sie eine möglichst grosse Teststärke zum Ziel. 
- Das bedeutet, ein kleines Modell zu entwickeln, das in der Lage ist, bessere Ergebnisse als beim zufälligen Raten zu erzielen. Bei der Klassifizierung der MNIST-Ziffern würde man bei Korrektklassifizierungsraten von mehr als 0.1 von hoher Teststärke sprechen. 
- Bei der Klassifizierung der IMDb-Filmbewertungen wäre eine Korrektklassifizierungsrate von mehr als 0.5 als hohe Teststärke zu bezeichnen.

Beachten Sie jedoch, dass es nicht immer möglich ist, eine hohe Teststärke zu
erzielen. Wenn Sie nach mehreren Versuchen mit vernünftigen Architekturen
keine besseren Ergebnisse als durch zufälliges Raten erreichen können, könnte es
durchaus sein, dass der Informationsgehalt der Daten nicht ausreicht, um die
gestellte Frage zu beantworten.


Denken Sie daran, dass Sie **zwei Hypothesen** aufgestellt haben:

1. **Vorhersagbarkeit:** Sie gehen davon aus, dass die Ausgaben anhand der Eingaben vorhersagbar sind.
2. **Ausreichende Daten:** Sie gehen davon aus, dass der Informationsgehalt der verfügbaren Daten ausreicht, um die Beziehung zwischen Eingaben und Ausgaben zu erlernen.

Es ist durchaus möglich, dass diese Hypothesen falsch sind. In dem Fall müssen
Sie von vorn anfangen.


Wenn alles gut geht, müssen Sie drei weitere wichtige Entscheidungen treffen,
um Ihr erstes funktionierendes Modell fertigzustellen:

1. **Aktivierung des letzten Layers** – Sie beschränkt die Ausgabe des NN auf sinnvolle Weise. Bei der Klassifizierung der IMDb-Filmbewertungen wird im letzten Layer die sigmoid-Funktion verwendet; bei der Regression gibt es keine Aktivierung
des letzten Layers usw.
2. **Verlustfunktion** – Sie sollte dem Typ der Aufgabe, die Sie zu lösen versuchen, angemessen sein. Die Klassifizierung der IMDb-Filmbewertungen verwendet z.B. `binary_crossentropy`, das Regressionsbeispiel verwendet mse usw.
3. **Konfiguration der Optimierung** – Welcher Optimierer soll verwendet werden? Wie gross soll die Lernrate sein? In den meisten Fällen machen Sie nichts verkehrt, wenn Sie `rmsprop` mit der voreingestellten Lernrate benutzen.

Bei der **Auswahl der Verlustfunktion** ist zu beachten, dass es nicht immer möglich
ist, das Modell direkt für das Erfolgskriterium der Aufgabe zu optimieren.

- Manchmal gibt es keine einfache Möglichkeit, ein Erfolgskriterium mit einer Verlustfunktion zu bewerten, denn die Verlustfunktion berücksichtigt ja nur einen kleinen Stapel der Daten (im Idealfall sollte sich die Verlustfunktion anhand eines einzelnen Datenpunkts berechnen lassen) und muss differenzierbar sein (andernfalls können Sie zum Trainieren des NNs keine Backpropagation verwenden).
- Das weithin gebräuchliche ROC-AUC-Kriterium lässt sich beispielsweise nicht direkt optimieren. Deshalb ist es bei Klassifizierungsaufgaben gängige Praxis, ein Stellvertreterkriterium für ROC-AUC zu nutzen, wie z.B. die Kreuzentropie.
- Im Allgemeinen dürfen Sie erwarten, dass eine niedrigere Kreuzentropie mit einer grösseren ROC-AUC einhergeht.

| Aufgabentyp  | Aktivierung   | Verlustfunktion |
|:------------:|:-------------:|:----------------|
|Binärklassifizierung |`sigmoid` | `binary_crossentropy`| 
|Single-Label-Mehrfachklassifizierung | `softmax` | `categorial_crossentropy` |
|Multi-Label-Mehrfachklassifizierung | `sigmoid` | `binary_crossentropy` |
|Regression (beliebige Werte) |keine | `mse` |
|Regression (zwischen 0 und 1) | `sigmoid` | `mse` oder `binary_crossentropy`|


## 6. Hochskalieren: Entwicklung eines Modells mit Überanpassung

Nachdem Sie ein Modell mit hoher Teststärke entwickelt haben, stellt sich die
Frage, ob es auch hinreichend leistungsfähig ist. 
- Besitzt es genügend Layer und Parameter, um die vorliegende Aufgabe modellieren zu können? 
- So würde beispielsweise ein NN mit einem einzelnen aus zwei Einheiten bestehenden verdeckten Layer bei der MNIST-Klassifizierung zwar eine hohe Teststärke erzielen, wäre aber nicht ausreichend, um die Aufgabe gut zu lösen. Denken Sie an das beim Machine Learning stets vorhandene zwischen Optimierung und Verallgemeinerungsfähigkeit bestehende Spannungsfeld.
- Im Idealfall bewegt sich das Modell an den Grenzen zwischen Über- und Unteranpassung und zwischen zu grosser und zu kleiner Kapazität. Um herauszufinden, wo sich diese Grenzen befinden, müssen sie zunächst einmal überschritten werden.

Um zu ermitteln, wie gross das Modell sein sollte, müssen Sie ein **Modell mit Überanpassung** erstellen. Das ist ziemlich einfach:
1. Fügen Sie weitere Layer hinzu.
2. Vergrössern Sie die Layer.
3. Trainieren Sie das Modell mit zusätzlichen Epochen.

Behalten Sie dabei stets die Verlustfunktion beim Training und bei der Validierung
sowie die Ihnen wichtigen Erfolgskriterien im Auge. Wenn Sie feststellen, dass die
Leistung des Modells bei den Validierungsdaten abzunehmen beginnt, hat die
Überanpassung eingesetzt.

Der nächste Schritt ist die Regularisierung und Abstimmung des Modells, um so
nah wie möglich an das ideale Modell heranzukommen, bei dem es weder zu einer
Unteranpassung noch zu einer Überanpassung kommt.

## 7. Regularisierung des Modells und Abstimmung der Hyperparameter

Dieser Schritt nimmt die meiste Zeit in Anspruch: Sie werden Ihr Modell mehrmals
modifizieren, trainieren, anhand der Validierungsdaten bewerten (an dieser Stelle
noch nicht anhand der Testdaten), erneut modifizieren und das Ganze wiederholen,
bis das Modell so gut wie möglich funktioniert. Probieren Sie Folgendes aus:

- Wenden Sie das **Dropout-Verfahren** an.
- Probieren Sie **verschiedene Architekturen** aus: Fügen Sie Layer hinzu oder entfernen Sie welche.
- Fügen Sie eine **L1- und/oder eine L2-Regularisierung** hinzu.
- Probieren Sie verschiedene **Hyperparameter** aus (ändern Sie z.B. die Anzahl der Einheiten pro Layer oder die Lernrate des Optimierers), um die optimale Konfiguration zu finden.
- Optional können Sie die **Merkmalserstellung** ausprobieren: Fügen Sie neue Merkmale hinzu oder entfernen Sie Merkmale, die offenbar keinen Informationsgehalt besitzen.


**Information Leak:** Jedes Mal, wenn Sie Feedback der Validierung zur Abstimmung des Modells verwenden, gelangen Informationen über den Validierungsvorgang in das Modell. Das ist harmlos, sofern es nur einige wenige Male vorkommt. Geschieht es jedoch systematisch und wird viele Male wiederholt, wird es schließlich dazu führen, dass es zu einer Überanpassung des Modells an den Validierungsvorgang kommt (auch wenn das Modell nie direkt mit den Validierungsdaten
trainiert wurde). Auf diese Weise wird die Modellbewertung weniger zuverlässig.

Wenn Sie schliesslich eine zufriedenstellende Modellkonfigurationen gefunden
haben, können Sie Ihr endgültiges Modell mit sämtlichen verfügbaren Daten
**(Trainings- und Validierungsdaten)** trainieren und es ein letztes Mal **anhand der
Testdaten** bewerten. Sollte sich herausstellen, dass die Leistung bei der Testdatenmenge
deutlich schlechter als bei den Validierungsdaten ist, könnte das Folgendes
bedeuten: Entweder war Ihr Validierungsverfahren nicht zuverlässig, oder es kam
durch die Abstimmung der Modellparameter zu einer Überanpassung an die Validierungsdaten.
In diesem Fall sollten Sie auf eine verlässlichere Bewertungsmethode
(wie die verschachtelte K-fache Kreuzvalidierung) zurückgreifen.