# 4.1. Markov-Entscheidungsprozesse

>## <ins>Table of contents</ins>
>* [**4.1.1. Modellierung einer Umgebung**](#4_1_1)
>    * [**Das Markov-Entscheidungsprozess**](#4_1_1_a)
>    * [**Strategie**](#4_1_1_b)
>* [**4.1.2. Iterative Entwicklung der Zustandsnutzen**](#4_1_2)
>* [**4.1.3. Iterative Strategieentwicklung**](#4_1_3)

## Imports

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


Damit ein Agent lernt Entscheidungen in einer gewissen Umgebung zu treffen, muss diese Umgebung erst modelliert werden.

ände.


## 4.1.1. Modellierung einer Umgebung <a name="4_1_1"></a>

### Der Markov-Entscheidungsprozess <a name="4_1_1_a"></a>
Ein MDP ist ein mathematisches Modell, das die Umgebung eines lernenden Agenten beschreibt. Es besteht aus einem <ins>Zustandsraum</ins>, einem <ins>Aktionsraum</ins>, einer <ins>Übergangswahrscheinlichkeitsfunktion</ins>, einer <ins>Belohnungsfunktion</ins>, einem <ins>Startzustand</ins> und einer <ins>Menge von Endzuständen</ins>.


> **Definition 1.: Markov-Entscheidungsprozess**
>
> Ein Markov-Entscheidungsprozess (engl. Markov decision process, MDP) D ist ein Tupel $D = (S,A,P,R,s_0,S_t)$ mit folgenden Eigenschaften:
> 1. $S$ ist eine Menge von Zuständen (der Zustandsraum)
> 2. $A$ ist eine Menge von Aktionen (der Aktionsraum)
> 3. $P : (S \setminus S_t) \times A \times S \rightarrow [0,1]$ ist eine Funktion (die Übergangswahrscheinlichkeitsfunktion) mit $\sum_{s' \in S} P(s,a,s') = 1$ für alle $s \in S$, $a \in A$.
> 4. $R : (S \setminus S_t) \times A \times S \rightarrow \mathbb{R}$ ist eine beliebige reellwertige Funktion (die Belohnungsfunktion, engl. reward function).
> 5. $s_0 \in S$ ist der Startzustand.
> 6. $S_t \subseteq S$ ist die Menge der Zielzustände.



In jedem *Zustand* $s \in S$ kann der Agent eine *Aktion* $a \in A$ ausführen, die zu einem neuen Zustand führt. Die *Übergangswahrscheinlichkeitsfunktion* $P$ gibt die Wahrscheinlichkeit an, dass eine bestimmte Aktion in einem bestimmten Zustand zu einem bestimmten neuen Zustand führt. Die *Belohnungsfunktion* $R$ gibt an, welche Belohnung (oder Strafe, wenn negativ) der Agent erhält, wenn er eine bestimmte Aktion in einem bestimmten Zustand ausführt und zu einem bestimmten neuen Zustand wechselt. 

Das **Ziel** des Agenten im Reinforcement Learning ist es, eine Strategie zu lernen, die die kumulative Belohnung über die Zeit <ins>maximiert</ins>. Dies wird oft durch eine Kombination aus **Exploration** (neue Aktionen ausprobieren, um mehr über die Umgebung zu erfahren) und **Exploitation** (die besten bekannten Aktionen ausführen) erreicht. 

Es ist wichtig zu beachten, dass MDPs die Markov-Eigenschaft haben, d.h., die Wahrscheinlichkeit, einen bestimmten neuen Zustand zu erreichen, hängt nur vom aktuellen Zustand und der ausgeführten Aktion ab, nicht von der vorherigen Geschichte des Agenten. Dies vereinfacht das Problem erheblich, da der Agent nicht die gesamte Geschichte seiner Interaktionen mit der Umgebung speichern muss. 

>
> #### **Beipiel:** Staupsauger
>
> 1. **Zusatndsmenge $S$**: Jeder Zustand könnte eine Kombination aus der aktuellen Position des Roboters (z.B. die verschiedenen Räume der Wohnung) und dem Ladestand der Batterie sein.
>    Wenn es beispielsweise vier Räume gibt, in denen der Roboter sich aufhalten kann, und die Batterie drei verschiedene Ladestufen hat (niedrig, mittel, hoch), dann gibt es insgesamt 12 mögliche Zustände.
> 
> 2. **Aktionsmenge $A$**: ”saugen“, ”laden“ oder sich in einen Nachbarraum bewegen.
>    In allgemeinen MDPs ist das Resultat einer Aktion nicht immer deterministisch bestimmt (beispielsweise kann das Laden des Roboters fehlschlagen, wenn die Batterie eine Fehlfunktion hat).
>    
> 3. **Übergangswahrscheinlichkeitsfunktion $P$**:  Diese Funktion könnte davon abhängen, wie der Roboter sich bewegt und wie die Batterie entladen wird. Zum Beispiel könnte die Wahrscheinlichkeit, dass der Roboter sich erfolgreich zu einem anderen Raum bewegt, von der aktuellen Ladung der Batterie abhängen. 
>
> 4. **Belohnungsfunktion $R$**: Die Belohnung könnte positiv sein, wenn der Roboter einen Raum saugt, und negativ sein, wenn der Roboter versucht, sich zu bewegen, aber die Batterie leer ist. Die genaue Definition der Belohnungsfunktion hängt davon ab, was wir den Roboter optimieren wollen. Wenn wir wollen, dass der Roboter so viel wie möglich saugt, könnten wir eine hohe positive Belohnung für das Saugen geben. Wenn wir wollen, dass der Roboter seine Batterie effizient nutzt, könnten wir eine negative Belohnung für das Bewegen geben, wenn die Batterie fast leer ist.


\})$$

#### Beispiel 1. Ein stark vereinfachtes Modell des Staubsaugerroboterproblems

Wir gehen davon aus, dass unsere Wohnung aus zwei Räumen, r1 und r2, besteht, die entweder sauber oder verschmutzt sein können. Der Zustandsraum ist dann definiert durch:

$$S^{vc} = \{s^{1,1}_1, s^{1,1}_2, s^{0,1}_1, s^{0,1}_2, s^{1,0}_1, s^{1,0}_2, s^{0,0}_1, s^{0,0}_2, s^t\}$$

wobei der Zustand $s^{k,l}_i$ repräsentiert, dass der Roboter in Raum $r_i$ ist:
- Raum $r_1$ bei $k = 0$ sauber und bei $k = 1$ verschmutzt ist
- und Raum $r_2$ bei $l = 0$ sauber und bei $l = 1$ verschmutzt ist.

| Zustand | Raum $r_i$ | Raum $r_1$ | Raum $r_2$ |
|---------|------------|------------|------------|
| $s^{0,0}_1$ | Roboter in Raum $r_1$ | Sauber | Sauber |
| $s^{1,0}_1$ | Roboter in Raum $r_1$ | Verschmutzt | Sauber |
| $s^{0,1}_1$ | Roboter in Raum $r_1$ | Sauber | Verschmutzt |
| $s^{1,1}_1$ | Roboter in Raum $r_1$ | Verschmutzt | Verschmutzt |
| $s^{0,0}_2$ | Roboter in Raum $r_2$ | Sauber | Sauber |
| $s^{1,0}_2$ | Roboter in Raum $r_2$ | Verschmutzt | Sauber |
| $s^{0,1}_2$ | Roboter in Raum $r_2$ | Sauber | Verschmutzt |
| $s^{1,1}_2$ | Roboter in Raum $r_2$ | Verschmutzt | Verschmutzt |


$s^t$ ist der Zielzustand und $s^{1,1}_1$ ist der Startzustand. 

In jedem Zustand (außer $s^t$) hat der Roboter drei mögliche Aktionen:

1. move: Gehe in den anderen Raum.
2. clean: Reinige den aktuellen Raum.
3. charge: Lade die Batterie.

Also, $A_{vc} = \{move, clean, charge\}$. 

Die Übergangswahrscheinlichkeiten (modelliert durch $P_{vc}$) sind so definiert, dass sich in Raum $r_1$ eine Ladestation befindet und nach Ausführung der Aktion charge in $r_1$ der aktuelle "Tag" endet und wir zum finalen Zustand $s^t$ wechseln. 

Die Aktion move ist zu 90% erfolgreich (d.h., mit Wahrscheinlichkeit 0.1 bleibt der Roboter im aktuellen Raum) und die Aktion clean ist zu 80% erfolgreich (d.h., ein schmutziger Raum bleibt mit Wahrscheinlichkeit 0.2 schmutzig; ein sauberer Raum bleibt sauber). 

Die Belohnungen ($R_{vc}$) sind wie folgt definiert:

1. Wenn der Roboter erfolgreich einen zuvor schmutzigen Raum reinigt, erhält er 10 Punkte.
2. Wenn der Roboter einen sauberen Raum reinigt, erhält er -2 Punkte (da er unnötig Energie verbraucht hat).
3. Wenn der Roboter in Raum $r_2$ zu laden versucht, erhält er -5 Punkte (er hat bei dem Versuch seine Batterie beschädigt).
4. Wenn der Roboter in $r_1$ auflädt, ohne vorher alle Räume gereinigt zu haben, erhält er -7 Punkte.
5. Für jede Bewegung mittels move (unabhängig davon, ob erfolgreich oder nicht) erhält der Roboter -1 Punkt (der Roboter soll möglichst effizient die Wohnung reinigen).

Für alle weiteren Situationen beträgt die Belohnung 0 Punkte.

Wir erhalten: $$ D_{vc} = (S_{vc}, A_{vc}, P_{vc}, R_{vc}, s^{1,1}_1, S_{vc}^t = \{s^t\})$$

### Strategie <a name="4_1_1_b"></a>

Um den Agenten in einem MDP zu steuern, besitzt dieser eine *Strategie* (engl. policy), die (im einfachsten Fall) für jeden Zustand die auszuwählende Aktion bestimmt.

>**Definition 2.:** Strategie
>
>Sei $D = (S,A,P,R,s_0,S_t)$ ein MDP. Eine konstante Strategie $\pi$ für $D$ ist eine Funktion $$\pi : S \setminus S_t \rightarrow A$$


Eine **konstante Strategie** ist eine Funktion, die jedem Zustand eine bestimmte Aktion zuweist. Sie ist deterministisch, d.h., sie gibt für jeden Zustand genau eine Aktion vor.

Es gibt jedoch auch **probabilistische Strategien**, die jedem Zustand eine Wahrscheinlichkeitsverteilung über die möglichen Aktionen zuweisen. Diese Art von Strategie kann nützlich sein, wenn es Unsicherheit oder Zufälligkeit in der Umgebung gibt. 

In vielen Fällen, insbesondere bei komplexen MDPs, kann es vorteilhaft sein, probabilistische Strategien zu verwenden, um eine bessere Leistung zu erzielen. Aber für den Anfang ist es absolut sinnvoll, sich auf konstante Strategien zu konzentrieren.

#### **Beispiel 2** Fortsetzung von Beispiel 1

Eine mögliche Strategie $π_{vc}$ ist wie folgt definiert:

$$\pi_{vc}(s^{1,1}_{1}) = \pi_{vc}(s^{1,0}_{1}) = \pi_{vc}(s^{1,1}_{2}) = \pi_{vc}(s^{0,1}_{2}) = \text{clean}$$
$$\pi_{vc}(s^{0,1}_{1}) = \pi_{vc}(s^{1,0}_{2}) = \pi_{vc}(s^{0,0}_{2}) = \text{move}$$
$$\pi_{vc}(s^{0,0}_{1}) = \text{charge}$$

Das bedeutet, wenn der Roboter sich in einem verschmutzten Raum befindet, führt er die Aktion `clean` aus. Wenn der aktuelle Raum sauber ist und der andere Raum verschmutzt ist, wechselt der Roboter in den anderen Raum (`move`). Wenn beide Räume sauber sind, wechselt der Roboter zuerst in Raum `r1` und lädt dann auf (`charge`).

Die Aufgabe eines Offline-Lernverfahrens besteht darin, <ins>eine optimale Strategie `π*` für ein gegebenes festes MDP zu erlernen</ins>. 

Eine **optimale Strategie** ist diejenige, die die akkumulierte erwartete Belohnung maximiert, die der Agent durch die Anwendung der Strategie erhält. 

Um dies zu definieren, benötigen wir einige zusätzliche Konzepte.

>**Definition 3.:** Episode
>
>Sei $D = (S,A,P,R,s_0,S_t)$ ein MDP. Eine Episode `e` in $D$ ist eine potenziell unendliche Folge $e = (s_0, a_1, s_1, a_2, s_2, ...)$ mit $s_0, s_1 ... \in S$ und $a_0, a_1 ... \in A$ Die Wahrscheinlichkeit $P(e)$ ist definiert durch
>$$P(e) = \prod_{i>0} P(s_{i-1},a_i,s_i)$$

Eine **Episode** `e` in einem MDP ist eine potenziell unendliche Folge von Zuständen und Aktionen, die mit dem Anfangszustand `s0` beginnt und die Aktionen `a1, a2, ...` ausführt, wobei der Agent in den Zuständen `s1, s2, ...` landet. 

Eine Episode ist **initial**, wenn sie mit dem Anfangszustand $s_0$ beginnt bzw. wenn $s_0 = s^0$ gilt, und sie ist **terminierend**, wenn sie mit einem Zustand $s_n$ endet, der zu den Endzuständen $S^t$ gehört d.h. $s_n \in S^t$ .

Der unendliche Fall tritt beispielsweise für den Roboter aus unserem Staubsaugerbeispiel auf, wenn dieser permanent nur die move-Aktion ausführt oder wenn eine move-Aktion permanent fehlschlägt (wobei für solch eine Episode die Wahrscheinlichkeit gegen 0 geht).
Jede Episode akkumuliert gewisse Belohnungen und die Summe aller Belohnungen nennen wir Nutzen der Episode (engl. utility oder auch return).


Der **Nutzen** einer Episode ist die Summe aller akkumulierten Belohnungen, wobei jede Belohnung mit einem **Diskontfaktor** `γ` gewichtet wird. Dieser Diskontfaktor liegt im Bereich von 0 bis 1 und bestimmt, wie stark zukünftige Belohnungen im Vergleich zu sofortigen Belohnungen bewertet werden. Bei kleinen Werten von `γ` werden Strategien bevorzugt, die schnell hohe Belohnungen erhalten, während bei größeren Werten nahe 1 spätere Belohnungen wichtiger werden.

Die Definition des diskontierten Nutzens ist wie folgt:

$$
U^{\gamma}_D(e) = \sum_{i>0} \gamma^{i-1} R(s_{i-1}, a_i, s_i)
$$

