## Environments syntax

#### Motivation

- Bislang haben wir vordefinierte Environmenten wie Frozen Like und Google RecSim verwendet.
- Um RL f√ºr unser eigenes Problem zu nutzen, k√∂nnen wir keine dieser Environmenten verwenden.
- Wir m√ºssen unsere eigene Environment mit Python definieren.

#### Gefrorener See R√ºckblick

- Erinnere dich an die Environment des Gefrorenen Sees aus Modul 1:

In [1]:
import gym
env = gym.make("FrozenLake-v1")

#### Gefrorener See R√ºckblick

- OpenAI Gym ist quelloffen, also k√∂nnten wir uns den [Frozen Lake Quellcode](https://github.com/openai/gym/blob/master/gym/envs/toy_text/frozen_lake.py) ansehen.
- Er ist jedoch kompliziert und enth√§lt viel mehr, als wir brauchen.
- Lass uns unsere eigene Environment namens Frozen Pond mit den Grundkomponenten von Frozen Lake erstellen.

#### Komponenten eines Env

Konzeptionelle Entscheidungen:

- Beobachtungsraum
- Handlungsraum

In Python m√ºssen wir zumindest implementieren:

- konstruktor
- `R√ºcksetzen()`
- `step()`

In der Praxis werden wir vielleicht auch andere Methoden brauchen, wie `render()`

#### Konzeptionelle Entscheidungen

Da wir in diesem Fall den Gefrorenen See nachahmen, sind der Beobachtungsraum und der Aktionsraum bereits festgelegt.

In [2]:
observation_space = gym.spaces.Discrete(16)
action_space = gym.spaces.Discrete(4)

Im weiteren Verlauf des Kurses werden wir uns mit diesen Entscheidungen n√§her besch√§ftigen!

#### Verschl√ºsseln

In [3]:
import gym

class FrozenPond(gym.Env):
    pass

- Beachte, dass wir mit der Unterklasse `gym.Env` beginnen.
- Optional: Du kannst √ºber Objekte, Vererbung und Unterklassen lesen.
- Kurz und b√ºndig: Dies ist eine grundlegende `gym.Env` und wir k√∂nnen ihre Eigenschaften √ºberschreiben.

#### Konstrukteur

- Der Konstruktor wird aufgerufen, wenn wir ein neues `FrozenPond` Objekt erstellen.
- Hier definieren wir den Beobachtungsraum und den Aktionsraum.

In [4]:
import gym

class FrozenPond(gym.Env):
    def __init__(self, env_config=None):
        self.observation_space = gym.spaces.Discrete(16)
        self.action_space = gym.spaces.Discrete(4)        

- Aus Gr√ºnden der RLlib-Kompatibilit√§t muss der Konstruktor eine "env_config" aufnehmen 
- Wir werden dieses Argument vorerst ignorieren.

#### Zur√ºcksetzen

- Die n√§chste Methode, die wir brauchen, ist reset.
- Der Konstruktor setzt permanente Parameter wie den Beobachtungsraum.
- der "Reset" legt jede neue Episode fest.
- Zwischen den beiden gibt es einige Freiheiten, z. B. die Festlegung des Zielorts.
- Wenn sich etwas √§ndern _k√∂nnte_, legen wir es in `reset` fest.

In [5]:
# HIDDEN
import numpy as np

In [6]:
class FrozenPond(gym.Env):
    def reset(self):
        self.player = (0, 0) # the player starts at the top-left
        self.goal = (3, 3)   # goal is at the bottom-right
        
        self.holes = np.array([
            [0,0,0,0], # FFFF 
            [0,1,0,1], # FHFH
            [0,0,0,1], # FFFH
            [1,0,0,0]  # HFFF
        ])
        
        return 0 # to be changed to return self.observation()

#### Zur√ºcksetzen

Testen wir das mal aus:

In [7]:
fp = FrozenPond()

In [8]:
fp.reset()

0

In [9]:
fp.holes

array([[0, 0, 0, 0],
       [0, 1, 0, 1],
       [0, 0, 0, 1],
       [1, 0, 0, 0]])

Sieht gut aus.

#### Schritt

- Die letzte Methode, die wir brauchen, ist `step`.
- Dies ist die komplizierteste Methode, die die Kernlogik enth√§lt.
- Erinnere dich daran, dass "step" 4 Dinge zur√ºckgibt:
  1. Beobachtung
  2. Belohnung
  3. Erledigt-Flagge
  4. Extra Info (wird ignoriert)
- Der √úbersichtlichkeit halber schreiben wir Hilfsmethoden f√ºr Observation, Reward und Done sowie eine zus√§tzliche Hilfsmethode 

#### Schritt: Beobachtung

Erinnere dich daran, dass die Beobachtung ein Index von 0 bis 15 ist:

```
 0 1 2 3
 4 5 6 7
 8 9 10 11
12 13 14 15
```

Wir k√∂nnen dies wie folgt kodieren:

In [10]:
class FrozenPond(gym.Env):
    def observation(self):
        return 4*self.player[0] + self.player[1]

Wenn der Spieler zum Beispiel auf (2,1) steht, geben wir zur√ºck

In [11]:
4*2 + 1

9

Hinweis: Jetzt, wo `self.observation` implementiert ist, sollten wir `reset` in `return self.observation()` statt in `return 0` √§ndern, um die Codequalit√§t zu verbessern.

#### Schritt: Belohnung

In Anlehnung an das Beispiel des Gefrorenen Sees ist die Belohnung 1, wenn der Agent das Ziel erreicht, und 0, wenn nicht:

In [12]:
class FrozenPond(gym.Env):
    def reward(self):
        return int(self.player == self.goal)

Wir werden diese Belohnungsfunktion sp√§ter im Modul √§ndern!

#### Schritt: erledigt

- Wir m√ºssen auch wissen, wann eine Episode abgeschlossen ist 
- Nach Frozen Lake ist die Episode beendet, wenn der Agent das Ziel erreicht oder in den Teich f√§llt.

In [13]:
class FrozenPond(gym.Env):
    def done(self):
        return self.player == self.goal or self.holes[self.player] == 1

#### Schritt: g√ºltige Standorte

Um die Methode `step` einfacher zu machen, schreiben wir eine Hilfsmethode namens `is_valid_loc`, die √ºberpr√ºft, ob ein bestimmter Ort innerhalb der Grenzen liegt (von 0 bis 3 in jeder Dimension).

In [14]:
class FrozenPond(gym.Env):
    def is_valid_loc(self, location):
        if 0 <= location[0] <= 3 and 0 <= location[1] <= 3:
            return True
        else:
            return False

#### Schritt: Zusammenbau

- Mit den obigen Teilen k√∂nnen wir nun die Methode "step" schreiben.
- schritt" nimmt eine _Aktion_ auf, aktualisiert den _Zustand_ und gibt die Beobachtung, die Belohnung, das Erledigt-Flag und zus√§tzliche Informationen (ignoriert) zur√ºck.
- Erinnere dich daran, wie Aktionen kodiert werden: 0 f√ºr links, 1 f√ºr unten, 2 f√ºr rechts, 3 f√ºr oben.
- Wir werden einen **nicht rutschigen** gefrorenen Teich implementieren, d.h. deterministisch und nicht stochastisch.

In [15]:
class FrozenPond(gym.Env):
    def step(self, action):
        # Compute the new player location
        if action == 0:   # left
            new_loc = (self.player[0], self.player[1]-1)
        elif action == 1: # down
            new_loc = (self.player[0]+1, self.player[1])
        elif action == 2: # right
            new_loc = (self.player[0], self.player[1]+1)
        elif action == 3: # up
            new_loc = (self.player[0]-1, self.player[1])
        else:
            raise ValueError("Action must be in {0,1,2,3}")
        
        # Update the player location only if you stayed in bounds
        # (if you try to move out of bounds, the action does nothing)
        if self.is_valid_loc(new_loc):
            self.player = new_loc
        
        # Return observation/reward/done
        return self.observation(), self.reward(), self.done(), {}

#### Erfolg!

- Das war's! Wir haben die notwendigen Teile in Frozen Pond implementiert 
  - konstruktor
  - `R√ºcksetzen`
  - schritt
- Au√üerdem f√ºgen wir eine optionale Funktion `render` hinzu, damit wir den Zustand zeichnen k√∂nnen:

In [16]:
class FrozenPond(gym.Env):
    def render(self):
        for i in range(4):
            for j in range(4):
                if (i,j) == self.goal:
                    print("‚õ≥Ô∏è", end="")
                elif (i,j) == self.player:
                    print("üßë", end="")
                elif self.holes[i,j]:
                    print("üï≥", end="")
                else:
                    print("üßä", end="")
            print()

- Zum Spa√ü werden wir Emojis in unserem Kundenrendering verwenden.
- Spieler ist üßë, Tor ist ‚õ≥Ô∏è, gefrorenes See-Segment ist üßä, Loch ist üï≥.

#### Testen unserer Implementierung

In [17]:
# HIDDEN
from envs_03 import FrozenPond

In [18]:
env = FrozenPond()
env.reset()
env.render()

üßëüßäüßäüßä
üßäüï≥üßäüï≥
üßäüßäüßäüï≥
üï≥üßäüßä‚õ≥Ô∏è


#### Testen unserer Implementierung

Lass uns die Methode "step" testen:

In [19]:
env.step(2) # 0=left / 1=down / 2=right / 3=up

(1, 0, False, {'player': (0, 1), 'goal': (3, 3)})

In [20]:
env.render()

üßäüßëüßäüßä
üßäüï≥üßäüï≥
üßäüßäüßäüï≥
üï≥üßäüßä‚õ≥Ô∏è


Sieht gut aus!

#### Testen unserer Implementierung

Lass uns die beiden Environmenten direkt miteinander vergleichen:

In [21]:
lake = gym.make("FrozenLake-v1", is_slippery=False)
pond = FrozenPond()

lake.reset()
pond.reset()

print("Iter | gym obs / our obs | gym reward / our reward | gym done / our done")
for i, a in enumerate([0, 2, 2, 1, 1, 1, 1, 2]):
    lake_obs, lake_rew, lake_done, _ = lake.step(a)
    pond_obs, pond_rew, pond_done, _ = pond.step(a)
    print("%2d   |      %2d / %2d      |          %d / %d        |      %5s / %5s" % \
          (i, lake_obs, pond_obs, lake_rew, pond_rew, lake_done, pond_done))

Iter | gym obs / our obs | gym reward / our reward | gym done / our done
 0   |       0 /  0      |          0 / 0        |      False / False
 1   |       1 /  1      |          0 / 0        |      False / False
 2   |       2 /  2      |          0 / 0        |      False / False
 3   |       6 /  6      |          0 / 0        |      False / False
 4   |      10 / 10      |          0 / 0        |      False / False
 5   |      14 / 14      |          0 / 0        |      False / False
 6   |      14 / 14      |          0 / 0        |      False / False
 7   |      15 / 15      |          1 / 1        |       True /  True


Sie sehen gleich aus!

#### Testen unserer Implementierung

- RLlib kommt auch mit einem env checker
- Dieser kann uns nicht sagen, ob unsere Environment mit der von Frozen Lake identisch ist
- Aber er f√ºhrt mehrere n√ºtzliche Pr√ºfungen durch:

In [22]:
from ray.rllib.utils.pre_checks.env import check_env

In [23]:
check_env(pond)



- Alle Pr√ºfungen wurden bestanden, bis auf diese Warnung √ºber die maximale Episodenl√§nge.
- Wir k√∂nnen/sollten diese festlegen, damit die Episoden nicht beliebig lang werden.

#### Maximale Schritte pro Episode

- Um eine maximale Anzahl von Schritten pro Episode festzulegen, k√∂nnen wir einen `gym` _wrapper_ verwenden.
- Wrapper sind bequeme Wege, um Environmenten zu ver√§ndern, einschlie√ülich Beobachtungen, Aktionen und Belohnungen.
- Hier verwenden wir den Wrapper `TimeLimit`, um ein Schrittlimit festzulegen.

In [24]:
from gym.wrappers import TimeLimit

pond_5 = TimeLimit(pond, max_episode_steps=5)

Wir k√∂nnen √ºberpr√ºfen, dass es nach 5 Schritten erledigt ist, auch wenn das Ziel nicht erreicht wird:

In [25]:
pond_5.reset()
for i in range(5):
    print(pond_5.step(0))

(0, 0, False, {'player': (0, 0), 'goal': (3, 3)})
(0, 0, False, {'player': (0, 0), 'goal': (3, 3)})
(0, 0, False, {'player': (0, 0), 'goal': (3, 3)})
(0, 0, False, {'player': (0, 0), 'goal': (3, 3)})
(0, 0, True, {'player': (0, 0), 'goal': (3, 3), 'TimeLimit.truncated': True})


#### Maximale Schritte pro Episode

Eine vern√ºnftigere Schrittgrenze w√§re 50 statt 5.

In [26]:
pond_50 = TimeLimit(pond, max_episode_steps=50)

- Zu deiner Information: Es ist auch m√∂glich, diese Grenze in RLlib zu setzen, nur f√ºr Trainingszwecke.
- Dies geschieht mit dem Parameter "horizon" in der Trainer-Konfiguration.

#### Lass uns das Gelernte anwenden!

## Gefrorener Teich Belohnungen
<!-- multiple choice -->

Im Gefrorenen See (und Teich) ist die Belohnung 1, wenn der Agent das Ziel erreicht, und sonst 0. Der Agent muss lernen, die L√∂cher zu vermeiden, aber es gibt eigentlich keine negative Belohnung, wenn er in ein Loch f√§llt - es ist die gleiche Null-Belohnung, wie wenn er in ein sicheres St√ºck gefrorenen See l√§uft! Warum funktioniert dieses System trotzdem, obwohl die Belohnung f√ºr das Laufen in ein Loch oder in trockenes Land dieselbe ist?

- [ ] Sobald der Agent in ein Loch f√§llt, steckt er fest. Er kann zwar weitere Aktionen durchf√ºhren, aber die bringen nichts mehr. Deshalb lernt der Agent, L√∂cher zu vermeiden.
- [Eine Belohnung von 0 ist die niedrigste m√∂gliche Belohnung; wenn der Agent also eine Belohnung von 0 erh√§lt, wenn er in ein Loch f√§llt, wei√ü er sofort, dass es schlecht ist, in ein Loch zu fallen.
- [Die Strafe f√ºr das Hineinfallen in ein Loch ist indirekt, da die Episode mit einer Belohnung von Null endet und damit die potenzielle Belohnung von 1 f√ºr das erfolgreiche Erreichen des Ziels verwirkt wird. Der Agent lernt, dass er, wenn er in ein Loch f√§llt, _zuk√ºnftige_ Belohnungen einb√º√üt.
- [RL-Agenten bevorzugen l√§ngere Episoden. Wenn der Agent in das Loch f√§llt, endet die Episode sofort, was der Agent zu vermeiden lernt.

## Teich vs. Labyrinth
<!-- coding exercise -->

Nehmen wir an, wir wollen unsere Teichumgebung in ein _Labyrinth_ umwandeln. In diesem Fall haben wir W√§nde anstelle von L√∂chern. Der einzige Unterschied zwischen dem Teich und dem Labyrinth ist das Verhalten von L√∂chern und W√§nden. Wenn du im gefrorenen Teich in ein Loch trittst, endet die Episode. Im Labyrinth bewirkt das Betreten einer Wand nichts (d. h. die Aktion √§ndert den Standort des Agenten nicht, genau wie der Versuch, √ºber den Rand der Karte zu gehen). Um unseren Gefrorenen See in ein Labyrinth zu verwandeln, m√ºssen wir zwei Methoden √§ndern: `done` und `is_valid_loc`.

Unten findest du die Methoden `done` und `step`, die wir in den Folien oben gesehen haben. √Ñndere sie so ab, dass wir jetzt ein Labyrinth mit dem oben beschriebenen Verhalten haben: Wenn du gegen eine Wand l√§ufst, passiert nichts.

Beachte, dass die Klasse `Maze` alle anderen Methoden von `FrozenPond` erbt, also kannst du sie ausprobieren!

In [27]:
# EXERCISE
from envs_03 import FrozenPond


class Maze(FrozenPond):
    def done(self):
        return self.player == self.goal or self.holes[self.player] == 1
    def is_valid_loc(self, location):
        if 0 <= location[0] <= 3 and 0 <= location[1] <= 3:
            return True
        else:
            return False
    
pond = FrozenPond()
pond.reset()
pond.step(1)
print(pond.step(2))

maze = Maze()
maze.reset()
maze.step(1)
print(maze.step(2))

(5, 0, True, {'player': (1, 1), 'goal': (3, 3)})
(5, 0, True, {'player': (1, 1), 'goal': (3, 3)})


In [28]:
# SOLUTION
from envs_03 import FrozenPond


class Maze(FrozenPond):   
    def done(self):
        return self.player == self.goal
    def is_valid_loc(self, location):
        if 0 <= location[0] <= 3 and 0 <= location[1] <= 3 and not self.holes[location]:
            return True
        else:
            return False
    
pond = FrozenPond()
pond.reset()
pond.step(1)
print(pond.step(2))

maze = Maze()
maze.reset()
maze.step(1)
print(maze.step(2))

(5, 0, True, {'player': (1, 1), 'goal': (3, 3)})
(4, 0, False, {'player': (1, 0), 'goal': (3, 3)})
