# Hyperparameter Optimierung mit Reinforcement Learning

## Reinforcement Learning als allgemeiner Prozess

Reinforcement Learning (RL) ist eine Unterkategorie des Maschinellen Lernens, bei dem ein Agent durch Interaktion mit seiner Umwelt versucht optimale Entscheidungen zu treffen. Im Allgemeinen wird dieser Prozess als Markov Decision Process abgebildet, bei dem folgende Elemente existieren:  
- states $s$ (in einer Environment)
- actions $a$ (eines Agenten)
- reward model $r(s,a)$
- transition model $p(s'|s,a)$
- initial state distribution $\mu_0(s)$

![](images/rl/markov_decision_process.PNG)

Die Markov Eigenschaft besagt dabei, dass die zukünftigen Zustände nur vom aktuellen Zustand und der gewählten Aktion abhängen.  


$p(s_{t+1}|s_t,a_t,s_{t-1},a_{t-1},s_{t-2}) = p(s_{t+1}|s_t,a_t)$


Die Policy $\pi(a|s)$ beschreibt außerdem die Wahl des Agenten einer passenden Aktion bei einem definierten Zustand. Diese Policy optimal zu lernen ist das Endziel eines jeden Reinforcement Learning Algorithmus.

## Anwendung auf die Hyperparameter Optimierung

Bei der Hyperparemeter Optimierung werden die Elemente des Markov Decision Process und des RL wie folgt zugewiesen:

|Markov Decision Process / RL |Hyperparemeter Optimierung |
|-----------------------------|---------------------------|
|Agent                        |Optimierer                 |
|Environment                  |Modell                     |
|state                        |Satz an Hyperparemetern    |
|actions                      |Auswahl von Hyperparemetern|
|rewards                      |Performance des Modells    |
|transition model             |Deterministisch und damit nicht relevant|
|initial state distribution   |Zufälliger Satz an Hyperparametern zu Beginn|

Der Training Loop des RL Optimizers lässt sich also wie folgt beschreiben:

![](images/rl/training_loop.png)

- Zunächst wähl der RL Optmizer die Hyperparameter des Modells. In der ersten Iteration geschieht dies zufällig, da noch keine Informationen über die Environment (das Modell) bekannt sind.
- Anschließend wird das Modell mit den gewählten Hyperparematern getestet. Das heißt das Modell trainiert mit dem gewählten Datensatz und den gegebenen Hyperparemetern.
- Durch einen Train-Test-Split wird nun die Performance des Modells in einer definierten Metrik, wie z.B. des f1-scores bestimmt.
- Diese Performance geht als reward zurück zum Optimizer und dieser kann auf Grund des Feedbacks neue Entscheidungen treffen.
- Der Prozess beginn von Vorne 