## RL Policies

#### Was ist eine Policy?

Kehren wir zurück zur "API" von RL:

![](img/RL-API.jpg)

- Die Policy ist die Ausgabe von RL
- Sie bildet Beobachtungen auf Aktionen ab
- Die Policy ist wie das Gehirn des Agenten

#### Was ist eine Policy? Details.

- Eine Policy ist eine Funktion, die Beobachtungen auf Aktionen abbildet.
- Betrachten wir noch einmal die Frozen Lake Environment:

In [1]:
import gym
env = gym.make("FrozenLake-v1", is_slippery=False)
obs = env.reset()
obs

0

- Wir haben eine Beobachtung 0 erhalten. Was machen wir als nächstes? 
- Die Policy wird es uns sagen.

#### Beispielpolicy

Eine Policy könnte wie folgt aussehen

| Beobachtung | Aktion |
|------|-------|
| 0 | 0 |
| 1 | 3 |
| 2 | 1 |
| 3 | 1 |
| ... | ... |
| 14 | 2 |
| 15 | 2 |

- Auf der linken Seite stehen alle möglichen Beobachtungen (15 für Frozen Lake).
- Auf der rechten Seite steht die entsprechende Aktion, die wir ausführen werden, _wenn wir diese Beobachtung sehen_.
- "Wenn ich 0 sehe, werde ich 0 tun; wenn ich 1 sehe, werde ich 3 tun" usw.

#### Ziel von RL

**Das Ziel von RL ist es, in einer gegebenen Environment eine gute Policy zu lernen

#### Nicht-deterministische Policy

- Zuvor haben wir etwas über deterministische und nicht-deterministische Environmenten gelernt 
- Analog dazu gibt es deterministische und nicht-deterministische _Policyen_.
- Zuvor haben wir eine deterministische Policy gesehen: Eine bestimmte Beobachtung führt zu einer festgelegten Aktion.
- Hier ist ein Beispiel für eine nicht-deterministische Policy:

| Beobachtung | P(links) | P(unten) | P(rechts) | P(oben) | 
|------------|-------|-----------|---------|-------|
| 0 | 0 | 0.9 | 0.01 | 0.04 | 0.05
| 1 | 3 | 0.05 | 0.05 | 0.05 | 0.85
| ... | ... | ... | ...      | ...      | ...
| 15 | 2 | 0.0 | 0.0 | 0.99 | 0.01

"Wenn ich 0 sehe, werde ich 99% der Zeit nach links gehen, 1% der Zeit nach unten, 4% der Zeit nach rechts und 5% der Zeit nach oben."

#### Kontinuierliche Aktionsräume

Was ist, wenn unser Handlungsraum kontinuierlich ist? Wir können trotzdem eine Policy haben. Zum Beispiel:

| Beobachtung | Aktion |
|------|-------|
| 0 | 0.42 |
| 1 | -3.99 |
| ... | ... |
| 15 | 2.24 |

Eine nicht-deterministische Policy müsste allerdings aus einer Wahrscheinlichkeitsverteilung gezogen werden.

#### Kontinuierliche Beobachtungsräume

- Was ist, wenn unser _Beobachtungsraum_ kontinuierlich ist? 
- Nun, dann können wir die Policy nicht mehr als Tabelle zeichnen...
- In diesem Fall ist unsere Policy eine _Funktion_ des Beobachtungswertes 
- Zum Beispiel: "Gaspedalwinkel zum Boden (Aktion) = 1,5 x Entfernung zum nächsten Hindernis (Beobachtung)" 
- Dieses Spielzeugbeispiel besagt, dass du das Auto beschleunigen kannst, wenn das nächste Hindernis weit entfernt ist.

In [2]:
# TODO
# too much text around here, need more code and/or images
# I think we can remove some of this stuff (continuous, beyond scalars) and add it back it when it's paired with a concrete example
# it's not very helpful/interesting as just ideas in isolation...

#### Jenseits von Skalaren

- Bis jetzt sind wir davon ausgegangen, dass die Beobachtung eine einzelne Zahl und die Aktion eine einzelne Zahl ist.
- Beide können aber auch komplexere Datentypen sein: Bilder, Vektoren usw 
- Die tatsächlichen Beobachtungen eines selbstfahrenden Autos können aus Dutzenden von Messungen, Bildern usw. bestehen.
- Die tatsächlichen Aktionen eines selbstfahrenden Autos können in jedem Zeitschritt mehrere Werte festlegen.

#### Über Policyen als Funktionen nachdenken

- Im Allgemeinen ist dies eine nützliche Denkweise: Die Policy ist eine Funktion, die Beobachtungen auf Aktionen abbildet.
- Beim **tiefen Reinforcement Learning** ist diese Funktion ein neuronales Netz.

#### Zusammenfassung

- Der "Agent" oder "Spieler" ist die Verkörperung der Policy
- Es gibt keine zusätzliche "Intelligenz" oder Entscheidungsfindung jenseits der Policy
- Daher brauchen wir den Begriff des Agenten/Spielers technisch gesehen nicht
- Die Policy ist das Ergebnis von RL.

#### Lass uns das Gelernte anwenden!

## Policy des gefrorenen Sees
<!-- multiple choice -->

Erinnere dich an die Environment des gefrorenen Sees:

```
P...
.O.O
...O
O..G
```

mit seinem Beobachtungsraum dargestellt als:

```
 0 1 2 3
 4 5 6 7
 8 9 10 11
12 13 14 15
```

und Aktionen dargestellt als

| Aktion | Bedeutung |
|------|------|
| 0 | links |
| 1 | unten |
| 2 | rechts |
| 3 | oben |

#### Frage 1

Die folgende Policy enthält einen fehlenden Eintrag, der durch ein `?`-Symbol dargestellt wird.

| Beobachtung | Aktion |
|------|-------|
| 0 | 0 |
| 1 | 2 |
| ... | ... |
| 13 | ? |
| 14 | 2 |
| 15 | 0 |

Wähle die beste Wahl aus, um den Eintrag `?` zu füllen.

- [ ] 0 | Versuche es noch einmal!
- [ ] 1 | Versuch es noch einmal!
- [x] 2 | Ja! Wenn du nach rechts gehst, kommst du dem Ziel näher.
- [ ] 3 | Versuch es noch einmal!

#### Frage 2

_In der rutschigen Version des Gefrorenen Sees hat der Agent eine Wahrscheinlichkeit von 1/3, sich in die beabsichtigte Richtung zu bewegen und je 1/3 in die beiden senkrechten Richtungen._

Ist die obige Aussage eine Aussage über die Environment oder die Policy?

- [x] Environment | Du hast es erfasst! 
- [ ] Policy | Denk daran, die Policy beschreibt, wie der Agent auf Beobachtungen reagiert.

#### Frage 3

in der glitschigen Version des Gefrorenen Sees ist es manchmal besser, nicht in die Richtung zu gehen, in die du eigentlich gehen willst, weil es wichtiger ist, nicht in ein Loch zu rutschen._

Ist die obige Aussage eine Aussage über die Environment oder über die Policy?

- [ ] Environment | In der obigen Aussage geht es darum, wie man sich in einer bestimmten Situation am besten verhält; dies wird durch die Policy bestimmt.
- [x] Policy | Du hast es erfasst!

## Berechnung der erwarteten Belohnung
<!-- coding exercise -->

Vervollständige den folgenden Code so, dass er die erwartete Belohnung in der rutschigen (nicht-deterministischen)
Frozen Lake Environment über 1000 Episoden berechnet. Die innere Schleife läuft über die Schritte innerhalb einer einzelnen Episode.
Die äußere Schleife erstreckt sich über Episoden.

In [3]:
# EXERCISE

import gym
import numpy as np

env = gym.make("FrozenLake-v1", is_slippery=True)

rewards = []
N = 1000

for ____:

    obs = env.reset()
    done = False
    
    while ____:
        action = np.random.randint(low=0, high=4)
        obs, reward, done, _ = env.step(____)
    
    rewards.append(reward)
    
print("Average reward:", sum(rewards)/N)

Average reward: 0.047


In [6]:
# SOLUTION

import gym
import numpy as np

env = gym.make("FrozenLake-v1", is_slippery=True)

rewards = []
N = 1000

for i in range(N): # loop over N episodes

    obs = env.reset()
    done = False
    
    while not done:
        action = np.random.randint(low=0, high=4)
        obs, reward, done, _ = env.step(action)
    
    rewards.append(reward)
    
print("Average reward:", sum(rewards)/N)

Average reward: 0.014


## Handgefertigte Policy
<!-- coding exercise -->

Der folgende Code lädt die (nicht-deterministische) rutschige Frozen Lake Environment.
Eine (deterministische) Policy ist als Python-dictionary definiert, das Beobachtungen auf Aktionen abbildet.
Der Code durchläuft eine Schleife über 1000 Episoden. Innerhalb jeder Episode durchläuft er die Zeitschritte (Beobachtungen und Aktionen), bis die Episode abgeschlossen ist und eine Belohnung erreicht wurde. Dann gibt er die durchschnittliche Belohnung über die 1000 Episoden aus. Normalerweise liegt die durchschnittliche Belohnung bei 0,05, was bedeutet, dass das Ziel in etwa 5 % der Fälle erreicht wird.

**Deine Aufgabe:** Ändere die Policy so, dass eine durchschnittliche Belohnung von mindestens 0,02 erreicht wird (d.h. der Agent erreicht das Ziel in 20% der Fälle).

In [None]:
# EXERCISE

import gym

# ...

In [4]:
# SOLUTION

import gym

env = gym.make("FrozenLake-v1", is_slippery=True)

policy = {
    0 : 2,
    1 : 2,
    2 : 2,
    3 : 2,
    4 : 1,
    5 : 1,
    6 : 1,
    7 : 1,
    8 : 2,
    9 : 2,
    10: 2,
    11: 0,
    12: 2,
    13: 2,
    14: 2,
    15: 2
}

rewards = []
N = 1000
for i in range(N): # loop over N episodes

    obs = env.reset()
    done = False
    
    while not done:
        action = policy[obs]
        obs, reward, done, _ = env.step(action)
    
    rewards.append(reward)
    
print("Average reward:", sum(rewards)/N)

Average reward: 0.034
