## Kodierung Belohnungen

In [1]:
# HIDDEN
import ray
import logging
ray.init(log_to_driver=False, ignore_reinit_error=True, logging_level=logging.ERROR); # logging.FATAL

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning) 

#### Kodierung Belohnungen

- Wir haben jetzt besprochen, wie wichtig es ist, die Beobachtungen zu kodieren.
- M√∂glicherweise haben wir auch eine gewisse Auswahl im Handlungsraum, obwohl dieser hier (und oft) relativ klar/fest ist.
- Aber was ist mit den Belohnungen? 

#### Aktuelle Einrichtung

- Derzeit erhalten wir eine Belohnung von +1 f√ºr das Erreichen des Ziels 
- Das ist ein Teil dessen, was RL so schwer (und beeindruckend) macht:
  - Wir wollen √ºber Aktionen lernen, obwohl wir nicht sofort wissen, ob die Aktion "gut" war 
  - Im Gegensatz dazu steht das √ºberwachte Lernen, bei dem jede Vorhersage, die wir anhand der Trainingsdaten treffen, sofort mit dem bekannten Zielwert verglichen werden kann.


In [2]:
# TODO: perhaps this next slide can be moved to Module 1, since it's very general?

#### Agenten k√∂nnen nicht nur gierig sein

- K√∂nnen Agenten und Agentinnen einfach lernen, die beste sofortige Belohnung anzustreben?
- Nein. Wenn man dem Nutzer eines Videoempfehlungssystems zum Beispiel ein weiteres lustiges Katzenvideo zeigt, k√∂nnte das dazu f√ºhren, dass er klickt (hohe unmittelbare Belohnung), aber langfristig das Interesse an dem Dienst verliert (geringe langfristige Belohnung).
- Unser Frozen Lake ist ein weiteres Beispiel f√ºr das Problem: Manchmal gibt es √ºberhaupt keine unmittelbare Belohnung, aus der man lernen k√∂nnte.

In [3]:
# TODO: perhaps this next section on "Learned action probabilities" could be moved much earlier, even as early as Module 1

#### Gelernte Handlungswahrscheinlichkeiten

- Mit RLlib k√∂nnen wir innerhalb des Modells die Wahrscheinlichkeit jeder Aktion in Abh√§ngigkeit von einer Beobachtung (d.h. der gelernten Policy) betrachten.
- Laden wir das trainierte Modell mit unseren kodierten Beobachtungen:

In [4]:
from envs_03 import RandomLakeObs
from ray.rllib.algorithms.ppo import PPOConfig

ppo_config = (
    PPOConfig()\
    .framework("torch")\
    .rollouts(create_env_on_local_worker=True, horizon=100)\
    .debugging(seed=0, log_level="ERROR")
)
ppo_RandomLakeObs = ppo_config.build(env=RandomLakeObs)

In [5]:
# # HIDDEN

# for i in range(16):
#     ppo_RandomLakeObs.train()
    
# print(ppo_RandomLakeObs.evaluate()["evaluation"]["episode_reward_mean"])

# ppo_RandomLakeObs.save("models/RandomLakeObs-Ray2")

In [6]:
ppo_RandomLakeObs.restore("models/RandomLakeObs-Ray2/checkpoint_000016")

#### Gelernte Handlungswahrscheinlichkeiten

Wir verwenden die Funktion `query_Policy` aus Modul 2:

In [7]:
from utils_03 import query_policy
query_policy(ppo_RandomLakeObs, RandomLakeObs(), [0,0,0,0])

array([0.00902206, 0.5078786 , 0.47434822, 0.00875122], dtype=float32)

- Erinnere dich an die Reihenfolge (links, unten, rechts, oben).
- Wenn die Beobachtung `[0 0 0 0]` ist (keine L√∂cher oder Kanten in Sicht), geht der Agent lieber nach unten und rechts.

Was ist, wenn es unter dir ein Loch gibt? Wir k√∂nnen eine andere Beobachtung in die Policy einbringen:

In [8]:
query_policy(ppo_RandomLakeObs, RandomLakeObs(), [0,1,0,0])

array([0.01965651, 0.00299437, 0.9645823 , 0.01276694], dtype=float32)

- Jetzt ist es sehr unwahrscheinlich, dass der Agent nach unten geht, und sehr wahrscheinlich, dass er nach rechts geht!
- Auch dies wurde durch Versuch und Irrtum gelernt, und eine Belohnung gab es nur, wenn das Ziel erreicht wurde.

#### Random Lake Belohnungen

- Kann man dem Agenten im Beispiel von Random Lake das Leben nicht leichter machen, indem man ihm sofortige Belohnungen gibt?

Dies ist der aktuelle Belohnungscode:

In [9]:
def reward(self):
    return int(self.player == self.goal)

- Der Agent muss durch Versuch und Irrtum √ºber _ganze Episoden_ lernen, dass es im Allgemeinen gut ist, sich nach unten und rechts zu bewegen 

#### Belohnungen neu definieren

- Lass uns stattdessen versuchen, _bei jedem Schritt eine Belohnung zu geben, die umso h√∂her ist, je n√§her der Agent dem Ziel kommt_ 

In [10]:
from envs_03 import RandomLakeObs

class RandomLakeObsRew(RandomLakeObs):
    def reward(self):
        return 6-(abs(self.player[0]-self.goal[0]) + abs(self.player[1]-self.goal[1]))

- Bei der obigen Methode wird die [Manhattan-Distanz] (https://en.wikipedia.org/wiki/Taxicab_geometry) zwischen dem Spieler und dem Ziel als Belohnung verwendet 
- Wenn der Agent das Ziel erreicht, erh√§lt er die maximale Belohnung von 6.
- Wenn der Agent am weitesten vom Ziel entfernt ist, erh√§lt er die Mindestbelohnung von 0.

#### Belohnungen neu definieren

In [11]:
env = RandomLakeObsRew()
env.reset()
env.render()
env.reward()

üßëüßäüßäüßä
üßäüßäüßäüßä
üï≥üßäüï≥üßä
üßäüßäüßä‚õ≥Ô∏è


0

‚¨ÜÔ∏è die Belohnung ist 0

‚¨áÔ∏è die Belohnung ist 1, weil wir dem Ziel n√§her gekommen sind

In [12]:
obs, rew, done, _ = env.step(1)
env.render()
rew

üßäüßäüßäüßä
üßëüßäüßäüßä
üï≥üßäüï≥üßä
üßäüßäüßä‚õ≥Ô∏è


1

#### Belohnungen neu definieren

In [13]:
obs, rew, done, _ = env.step(2)
obs, rew, done, _ = env.step(2)
obs, rew, done, _ = env.step(2)
obs, rew, done, _ = env.step(1)
env.render()
rew

üßäüßäüßäüßä
üßäüßäüßäüßä
üï≥üßäüï≥üßë
üßäüßäüßä‚õ≥Ô∏è


5

Jetzt ist die Belohnung 5. Als N√§chstes wird es 6 sein.

In [14]:
obs, rew, done, _ = env.step(1)
env.render()
rew

üßäüßäüßäüßä
üßäüßäüßäüßä
üï≥üßäüï≥üßä
üßäüßäüßäüßë


6

#### Belohnungen im Vergleich

- Wir haben also zwei m√∂gliche Belohnungsfunktionen. Welche davon funktioniert besser? 
- Erinnere dich daran, dass wir beim letzten Mal, nachdem wir 8 Iterationen trainiert hatten, das Ziel in etwa 70 % der Zeit erreichen konnten:

In [15]:
ppo_RandomLakeObs.evaluate()['evaluation']['episode_reward_mean']

0.8166666666666667

#### Belohnungen im Vergleich

Lass uns mit der neuen Belohnungsfunktion trainieren!

In [16]:
ppo_RandomLakeObsRew = ppo_config.build(env=RandomLakeObsRew)

In [17]:
for i in range(8):
    ppo_RandomLakeObsRew.train()

In [18]:
ppo_RandomLakeObsRew.evaluate()['evaluation']['episode_reward_mean']

101.90566037735849

Moment mal, was ist hier los??

#### Belohnungen im Vergleich?

- Wir haben versucht, unser RL-System zu verbessern, indem wir die Belohnungsfunktion geformt haben.
- Das wirkte sich (vermutlich) auf das Training aus, aber auch auf unsere Bewertung.
- Beim √ºberwachten Lernen ist das so, als w√ºrde man die Bewertungsmetrik vom quadratischen Fehler zum absoluten Fehler √§ndern.
- Wenn das alte System einen mittleren quadratischen Fehler von 20.000 und das neue System einen mittleren absoluten Fehler von 40 hat, welches System ist dann besser?
- Wir vergleichen hier √Ñpfel mit Birnen!
- Wir wollen beide Modelle anhand derselben Metrik vergleichen, zum Beispiel der urspr√ºnglichen Metrik 
- Hier wollen wir sehen, wie oft der Agent das Ziel erreicht.

#### Belohnungen im Vergleich?

- Der Code hier ist ein bisschen fortgeschrittener.
- Er ist nur der Vollst√§ndigkeit halber enthalten, aber wir werden nicht ins Detail gehen.

In [19]:
from ray.rllib.agents.callbacks import DefaultCallbacks

class MyCallbacks(DefaultCallbacks):
    def on_episode_end(self, *, worker, base_env, policies, episode, env_index, **kwargs):
        info = episode.last_info_for()
        episode.custom_metrics["goal_reached"] = info["player"] == info["goal"]

In [20]:
ppo_config_callback = (
    PPOConfig()\
    .framework("torch")\
    .rollouts(create_env_on_local_worker=True, horizon=100)\
    .debugging(seed=0, log_level="ERROR")\
    .callbacks(callbacks_class=MyCallbacks)\
    .evaluation(evaluation_config={"callbacks" : MyCallbacks})
)

ppo_RandomLakeObsRew = ppo_config_callback.build(env=RandomLakeObsRew)

Der Trainer oben verwendet unser neues Belohnungsschema, meldet/ misst aber auch die Rate der Zielerreichung.

#### Belohnungen im Vergleich?

Lass es uns ausprobieren!

In [21]:
for i in range(8):
    ppo_RandomLakeObsRew.train()

In [22]:
# HIDDEN
ppo_RandomLakeObsRew.evaluate()["evaluation"]["episode_reward_mean"]

101.90566037735849

In [23]:
ppo_RandomLakeObsRew.evaluate()["evaluation"]["custom_metrics"]["goal_reached_mean"]

0.04081632653061224

- Hmm, diese Ergebnisse sind schrecklich!
- Fr√ºher hatten wir eine Gewinnquote von 70 % und mehr, und jetzt sind wir fast bei Null.
- Was ist passiert? ü§î

#### Was will der Agent wirklich optimieren?

- Der Agent optimiert in Wirklichkeit die _diskontierte Gesamtbelohnung_.
- _Gesamt_: Er bewertet alle Belohnungen, die er sammelt, nicht nur die letzte Belohnung.
- _Abgezinst_: Er bewertet fr√ºhere Belohnungen mehr als sp√§tere.
- Unser Agent maximiert erfolgreich die abgezinste Gesamtbelohnung, aber das entspricht nicht dem Erreichen des Ziels.
- Aber warum? Das Ziel gibt eine h√∂here Belohnung.

#### Erforschung vs. Ausbeutung

- Ein grundlegendes Konzept im RL ist _Exploration vs. Exploitation_
- Wenn der Agent eine Policy lernt, kann er sich entscheiden, ob er:

1. Dinge tun, von denen er wei√ü, dass sie ziemlich gut sind ("exploit")
2. Etwas v√∂llig Neues und Verr√ºcktes ausprobieren, nur f√ºr den Fall ("explore")

In [24]:
# TODO 
# diagram for this?

#### Erforschung vs. Ausbeutung

- Bei der alten Belohnungsstruktur erh√§lt der Agent eine Belohnung von 0, wenn er das Ziel nicht erreicht.
  - Also versucht er weiter, etwas Besseres zu finden.
- Mit der neuen Belohnungsstruktur erh√§lt der Agent eine Menge Belohnungen, nur weil er heruml√§uft.
  - Er ist nicht sehr motiviert, die Environment zu erkunden.
- Weil er die abgezinste **Gesamtbelohnung** maximiert, ist es sogar schlecht, das Ziel zu finden!
  - Das f√ºhrt dazu, dass die Episode endet und die Gesamtbelohnung des Agenten begrenzt wird.
  - Der Agent lernt, das Ziel zu _vermeiden_, vor allem am Anfang der Episode.

#### Eine bessere Belohnungsstruktur entwerfen

- Stattdessen sollten wir versuchen, den Agenten zu bestrafen, wenn er in ein Loch oder √ºber die Kante l√§uft.
- Es wird einfacher sein, dies direkt in `step` zu implementieren:

In [25]:
class RandomLakeObsRew2(RandomLakeObs):
    def step(self, action):
        # (not shown) existing code gets new_loc, where the player is trying to go
        
        reward = 0
        
        if self.is_valid_loc(new_loc):
            self.player = new_loc
        else:
            reward -= 0.1 # small penalty
            
        if self.holes[self.player]:
            reward -= 0.1 # small penalty
            
        if self.player == self.goal:
            reward += 1
        
        # Return observation/reward/done
        return self.observation(), reward, self.done(), {"player" : self.player, "goal" : self.goal}

In [26]:
# HIDDEN
from envs_03 import RandomLakeObsRew2

#### Nochmal zum Ausprobieren

In [27]:
# HIDDEN
# redefine ppo_RandomLakeObs to include the new callbacks
# so that you can measure the custom metric instead of the reward
# they will give the same value but this is better for consistency
ppo_RandomLakeObs = ppo_config_callback.build(env=RandomLakeObs)

for i in range(8):
    ppo_RandomLakeObs.train()

In [30]:
ppo_RandomLakeObsRew2 = ppo_config_callback.build(env=RandomLakeObsRew2)

In [31]:
for i in range(8):
    ppo_RandomLakeObsRew2.train()

In [32]:
ppo_RandomLakeObs.evaluate()["evaluation"]["custom_metrics"]["goal_reached_mean"]

0.6853448275862069

In [33]:
ppo_RandomLakeObsRew2.evaluate()["evaluation"]["custom_metrics"]["goal_reached_mean"]

0.734982332155477

Es sieht so aus, als ob die beiden Methoden dieses Mal sehr viel √§hnlicher abschneiden.

#### L√§nge der Episode

- Neben der Erfolgsquote k√∂nnen wir auch andere Statistiken √ºber das Verhalten des Agenten berechnen.
- Ein interessantes Ma√ü ist die Episodenl√§nge.
- RLlib zeichnet diese standardm√§√üig auf, so dass wir sie leicht abrufen k√∂nnen:

In [34]:
ppo_RandomLakeObs.evaluate()["evaluation"]["episode_len_mean"]

8.585470085470085

In [35]:
ppo_RandomLakeObsRew2.evaluate()["evaluation"]["episode_len_mean"]

7.20216606498195

Obwohl die beiden Mittel die gleiche Erfolgsquote haben, neigt das neue Mittel zu k√ºrzeren Episoden.

Anmerkungen 

- Das ist sehr interessant, weil der Agent den Unterschied zwischen L√∂chern und Kanten nicht "sehen" kann.
- Wir k√∂nnten dies weiter erforschen, indem wir weitere benutzerdefinierte Metriken hinzuf√ºgen, z. B. die Anzahl der Beulen in der Kante.

In [None]:
# TODO
#### disadvantages - loss of generality

#- now only works if goal is at bottom-right
#give a few real-world examples here -> important

## Analogie zum √ºberwachten Lernen: Reward Shaping
<!-- multiple choice -->

Vorhin haben wir eine Analogie zwischen der Kodierung von Beobachtungen im RL und der Vorverarbeitung von Merkmalen beim √ºberwachten Lernen gezogen. Welcher Aspekt des √ºberwachten Lernens ist die beste Analogie zum Reward Shaping im RL?

- [Merkmalstechnik 
- [Modellauswahl | Nicht ganz. Aber wie wir sehen werden, gibt es auch im RL einen Platz f√ºr die Modellauswahl!
- [ ] Abstimmung der Hyperparameter | Nicht ganz. Aber wie wir noch sehen werden, gibt es auch im RL einen Platz f√ºr Hyperparameter-Tuning!
- [x] Auswahl einer Verlustfunktion | Eine √Ñnderung der Verlustfunktion √§ndert das "beste" Modell, genau wie eine √Ñnderung der Belohnungen die "beste" Policy √§ndert.

## Jeden Schritt belohnen: kleine negative Belohnungen
<!-- multiple choice -->

In RL-Environmenten wie Random Lake, wo der Agent ein bestimmtes Ziel erreichen muss, stellen wir uns vor, wir w√ºrden f√ºr _jeden_ Schritt, den der Agent macht, eine kleine negative Belohnung vergeben. Wie w√ºrde sich das auf die Zeit auswirken, die der Agent braucht, bis er das Ziel erreicht?

- [x] Der Agent wird versuchen, das Ziel in so wenigen Schritten wie m√∂glich zu erreichen.
- [Der Agent wird versuchen, das Ziel in so vielen Schritten wie m√∂glich zu erreichen. | Wenn wir jeden Schritt bestrafen, werden mehr Schritte mit einer geringeren Belohnung belohnt.
- [ ] Keine √Ñnderung. | Wenn wir jeden Schritt bestrafen, werden mehr Schritte mit einer geringeren Belohnung belohnt.

## Erkundung vs. Ausbeutung
<!-- multiple choice -->

Welche der folgenden Aussagen √ºber den Kompromiss zwischen Erkundung und Ausbeutung im RL ist richtig?

- [Wenn ein Spieler nur erforscht, wird er nie eine gute Policy finden. | Er wird tats√§chlich gute Policyn finden, nur EXTREM langsam.
- [x] Wenn ein Agent nur ausnutzt, wird er nie eine gute Policy finden. | Er kann einfach immer wieder das Gleiche versuchen.
- [Agenten finden immer gute Policyn, auch ohne Exploration/Exploitation.

## Unbeabsichtigte Folgen
<!-- coding exercise -->

In dieser √úbung probierst du eine schlechte Idee aus: Jedes Mal, wenn der Agent einen Schritt macht, erh√§lt er eine gro√üe negative Belohnung. Wir werden -1 pro Schritt verwenden. F√ºr das Erreichen des Ziels erh√§lt der Agent immer noch eine Belohnung von +1. Implementiere diese Belohnung, trainiere den Agenten und schau dir die durchschnittliche Episodenl√§nge an, die der Code ausgibt. Vergleiche dies mit der durchschnittlichen Episodenl√§nge eines Agenten, der nur nach dem Zufallsprinzip handelt. Beantworte dann die Multiple-Choice-Frage zum Verhalten des Agenten. Was denkst du, was hier vor sich geht? 

(Zu deiner Information: Wie bereits erw√§hnt, kann diese Art der Ver√§nderung einer Environment auch mit Gym-Wrappern erreicht werden)

In [None]:
# EXERCISE
from utils_03 import lake_default_config
from envs_03 import RandomLakeObs

class RandomLakeBadIdea(RandomLakeObs):
    def reward(self):
        old_reward = int(self.player == self.goal) 
        return ____
    
ppo = lake_default_config.build(env=____)

for i in range(8):
    ppo.train()
    
print("Average episode length for trained agent: %.1f" % 
      ppo.evaluate()["evaluation"][____])

random_agent_config = (
    lake_default_config\
    .exploration(exploration_config={"type": "Random"})\
    .evaluation(evaluation_config={"explore" : True})
)
random_agent = random_agent_config.build(env=RandomLakeBadIdea)

print("Average episode length for random agent: %.1f" % 
      random_agent.evaluate()["evaluation"][____])

In [2]:
# SOLUTION
from utils_03 import lake_default_config
from envs_03 import RandomLakeObs

class RandomLakeBadIdea(RandomLakeObs):
    def reward(self):
        old_reward = int(self.player == self.goal) 
        return old_reward - 1

ppo = lake_default_config.build(env=RandomLakeBadIdea)


for i in range(8):
    ppo.train()
    
print("Average episode length for trained agent: %.1f" % 
      ppo.evaluate()["evaluation"]["episode_len_mean"])

random_agent_config = (
    lake_default_config\
    .exploration(exploration_config={"type": "Random"})\
    .evaluation(evaluation_config={"explore" : True})
)
random_agent = random_agent_config.build(env=RandomLakeBadIdea)

print("Average episode length for random agent: %.1f" % 
      random_agent.evaluate()["evaluation"]["episode_len_mean"])

0
1
2
3
4
5
6
7
Average episode length for trained agent: 4.4
Average episode length for random agent: 12.1


#### Das Verhalten des Agenten

Was glaubst du, was dieser Agent tut, wenn er in einer Environment trainiert wird, in der es bei jedem Schritt eine gro√üe negative Belohnung gibt?

- [ ] Der Agent bleibt still, weil er davon abgehalten wird, sich zu bewegen. | Versuch es noch einmal!
- [ ] Der Agent ist nicht daran interessiert, das Ziel zu erreichen, weil die Belohnung vergleichsweise gering ist. | Versuche es noch einmal!
- [x] Der Agent lernt, so schnell wie m√∂glich in den See zu springen, um die negative Belohnung der Bewegung zu vermeiden. | Pfui! ü•∂
- [ ] Der Agent erreicht das Ziel auf Anhieb. | Das w√§re aber w√ºnschenswert!