# Reinforcement Learning - Q-Learning mit OpenAI Gym

Diese Übung wird mit einem Jupyter-Notebook angegeben, kann aber auch in Rmarkdown übertragen werden.

Ziel ist es, mit dem OpenAI Gym einen "eigenen" Agent zu erstellen.

Das Beispiel wird als "Selbstfahrendes" Taxi gezeigt - es kann aber auch jeder ein "eigenes" Gym ausprobieren.

## Beispiel: Selbstfahrendes Taxi:

Lasst uns eine Simulation von einem selbstfahrenden Taxi entwerfen. Das Hauptziel ist es, in einer vereinfachten Umgebung zu demonstrieren, wie man mit Hilfe von RL-Techniken einen effizienten und sicheren Ansatz zur Lösung dieses Problems entwickeln kann.

Die Aufgabe der Smartcab ist es, den Fahrgast an einem Ort abzuholen und an einem anderen Ort abzusetzen. Hier sind ein paar Dinge, um die wir uns mit unserem Smartcab gerne kümmern würden:

- Lasst den Beifahrer an der richtigen Stelle zurück.
- Zeitersparnis für die Fahrgäste durch minimale Zeitersparnis beim Absetzen der Fahrgäste
- Beachten Sie die Sicherheit der Fahrgäste und die Verkehrsregeln.

Es gibt verschiedene Aspekte, die hier bei der Modellierung einer RL-Lösung für dieses Problem berücksichtigt werden müssen: Belohnungen, Zustände und Aktionen.

# 1. Rewards
Da der Agent (der imaginäre Fahrer) belohnungsmotiviert ist und lernen wird, wie man das Taxi durch Trial-Erfahrungen in der Umwelt steuert, müssen wir die Belohnungen und/oder Strafen und deren Höhe entsprechend festlegen. Hier ein paar Punkte, die zu beachten sind:

- Der Agent sollte eine hohe positive Belohnung für einen erfolgreichen Dropoff erhalten, da dieses Verhalten sehr erwünscht ist.
- Der Agent sollte bestraft werden, wenn er versucht, einen Passagier an falschen Orten abzusetzen.
- Der Agent sollte eine leichte negative Belohnung dafür erhalten, dass er es nach jedem Zeitschritt nicht bis zum Ziel geschafft hat. "Leicht" negativ, weil wir es vorziehen würden, dass unser Agent zu spät kommt, anstatt falsche Schritte zu unternehmen und zu versuchen, das Ziel so schnell wie möglich zu erreichen.


# 2. State Space
Beim Reinforcement Learning begegnet der Agent einem Zustand und ergreift dann Maßnahmen entsprechend dem Zustand, in dem er sich befindet.

Der State Space ist die Gesamtheit aller möglichen Situationen, in denen unser Taxi leben könnte. Der Zustand sollte nützliche Informationen enthalten, die der Agent benötigt, um die richtigen Maßnahmen zu ergreifen.

Nehmen wir an, wir haben einen Trainingsbereich für unser Smartcab, in dem wir ihm beibringen, Menschen auf einem Parkplatz zu vier verschiedenen Orten (R, G, Y, B) zu transportieren:


![taxi_env](taxi_env.png)

Nehmen wir an, Smartcab ist das einzige Fahrzeug auf diesem Parkplatz. Wir können den Parkplatz in ein 5x5 Raster aufteilen, was uns 25 mögliche Taxistandorte gibt. Diese 25 Standorte sind ein Teil unseres Staatsraums. Beachten Sie, dass der aktuelle Standortzustand unseres Taxis koordiniert ist (3, 1).

Sie werden auch feststellen, dass es vier (4) Orte gibt, an denen wir einen Passagier abholen und absetzen können: R, G, Y, B oder ´[(0,0), (0,4), (4,0), (4,0), (4,3)]´ in Koordinaten (Reihe, Spalte). Unser illustrierter Passagier ist in Position Y und möchte zu Position **R** gehen.

Wenn wir auch einen (1) zusätzlichen Fahrgastzustand innerhalb des Taxis berücksichtigen, können wir alle Kombinationen von Fahrgast- und Zielorten nehmen, um zu einer Gesamtzahl von Zuständen für unsere Taxiumgebung zu gelangen; es gibt vier (4) Ziele und fünf (4 + 1) Fahrgastziele.

So hat unsere Taxiumgebung $5×5×5×5×4=500$ mögliche Zustände.

Der Agent trifft auf einen der 500 Zustände und er ergreift eine Aktion. Die Aktion in unserem Fall kann sein, sich in eine Richtung zu bewegen oder sich zu entscheiden, einen Fahrgast abzuholen oder abzusetzen.

## 3. Action Space 
Mit anderen Worten, wir haben sechs mögliche Aktionen:

1. `south`
2. `north` 
3. `east` 
4. `west` 
5. `pickup` 
6. `dropoff` 

Dies ist der Action Space: der Satz aller Aktionen, die unser Agent in einem bestimmten Zustand ausführen kann.

Sie werden in der obigen Abbildung feststellen, dass das Taxi in bestimmten Zuständen aufgrund von Mauern bestimmte Aktionen nicht ausführen kann. Im Code der Umgebung geben wir einfach eine -1 Strafe für jeden Mauerstoß und das Taxi bewegt sich nirgendwo hin. Dies wird nur Strafen mit sich bringen, die das Taxi dazu bringen, eine Umgehung der Mauer in Betracht zu ziehen.

# Setup der Umgebung

In [66]:
import gym
env = gym.make("Taxi-v3").env
env.render()

+---------+
|[34;1mR[0m: | : :G|
| : | : : |
| : : : : |
| | : | : |
|Y|[43m [0m: |[35mB[0m: |
+---------+



Die Kern-Schnittstelle des Gym ist env, das ist die Unified Environment Interface. Nachfolgend sind die env-Methoden aufgeführt, die uns sehr hilfreich sein könnten:

- `env.reset`: Setzt die Umgebung zurück und gibt einen zufälligen Ausgangszustand zurück.
- `env.step(action)`: Schieben Sie die Umgebung um einen Zeitschritt nach vorne. Retouren
  - observation: Umweltbeobachtungen
  - reward: Ob Ihre Aktion nützlich war oder nicht.
  - done: Zeigt an, ob wir einen Passagier, auch eine Episode genannt, erfolgreich abgeholt und abgesetzt haben.
  - info: Zusätzliche Informationen wie Performance und Latenzzeiten für Debuggingzwecke
- `env.render`: Stellt einen Rahmen der Umgebung dar (hilfreich bei der Visualisierung der Umgebung).

In [67]:
env.reset() # reset environment to a new, random state
env.render()

print("Action Space {}".format(env.action_space))
print("State Space {}".format(env.observation_space))

+---------+
|[34;1mR[0m: | : :[35mG[0m|
| : | : : |
| :[43m [0m: : : |
| | : | : |
|Y| : |B: |
+---------+

Action Space Discrete(6)
State Space Discrete(500)


## Ein State:

In [68]:
state = env.encode(3, 1, 2, 0) # (taxi row, taxi column, passenger index, destination index)
print("State:", state)

env.s = state
env.render()

State: 328
+---------+
|[35mR[0m: | : :G|
| : | : : |
| : : : : |
| |[43m [0m: | : |
|[34;1mY[0m| : |B: |
+---------+



In [69]:
env.P[328] # Reward Table

{0: [(1.0, 428, -1, False)],
 1: [(1.0, 228, -1, False)],
 2: [(1.0, 348, -1, False)],
 3: [(1.0, 328, -1, False)],
 4: [(1.0, 328, -10, False)],
 5: [(1.0, 328, -10, False)]}

## Lösung ohne Reinforcement Learning

In [70]:
env.s = 328  # set environment to illustration's state

epochs = 0
penalties, reward = 0, 0

frames = [] # for animation

done = False

while not done:
    action = env.action_space.sample()
    state, reward, done, info = env.step(action)

    if reward == -10:
        penalties += 1
    
    # Put each rendered frame into dict for animation
    frames.append({
        'frame': env.render(mode='ansi'),
        'state': state,
        'action': action,
        'reward': reward
        }
    )

    epochs += 1

print("Timesteps taken: {}".format(epochs))
print("Penalties incurred: {}".format(penalties))
print("Rewards earned : {}".format(reward))

Timesteps taken: 3830
Penalties incurred: 1257
Rewards earned : 20


In [72]:
epochs

3830

In [73]:
no_rflearning_reward = reward / epochs
no_rflearning_epochs = epochs
no_rflearning_penalties = penalties / epochs

In [74]:
from IPython.display import clear_output
from time import sleep

def print_frames(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print(f"Timestep: {i + 1}")
        print(f"State: {frame['state']}")
        print(f"Action: {frame['action']}")
        print(f"Reward: {frame['reward']}")
        sleep(.1)
        
print_frames(frames)

+---------+
|[35mR[0m: | : :G|
| : | : : |
| : : : : |
| | : | :[43m [0m|
|[34;1mY[0m| : |B: |
+---------+
  (South)

Timestep: 44
State: 388
Action: 0
Reward: -1


KeyboardInterrupt: 

# Aufgabe 1 : Implementierung von Q-Learning in python (5 Punkte)

**Tipps:**
Versuche mit einem Random-Agent-Template zu starten und wenn möglich - objektorientiert vorzugehen. (Random-Agent Klasse: https://github.com/openai/gym/blob/master/examples/agents/random_agent.py)

In [75]:
import numpy as np
q_table = np.zeros([env.observation_space.n, env.action_space.n])

In [76]:
q_table

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       ...,
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [115]:
%%time
"""Train the Agent"""

import random
from IPython.display import clear_output

# Hyperparameter festlegen
alpha = 0.2
gamma = 0.5
epsilon = 0.2


for i in range(1, 100001):
    state = env.reset()

    epochs, penalties, reward, = 0, 0, 0
    done = False
    
    while not done:
        if random.uniform(0, 1) < epsilon:
            action = env.action_space.sample() # Neue Spaces entdecken
        else:
            action = np.argmax(q_table[state]) # Von gelernten Erfahrungen entscheiden

        next_state, reward, done, info = env.step(action) 
        
        old_value = q_table[state, action]
        next_max = np.max(q_table[next_state])
        
        new_value = (1 - alpha) * old_value + alpha * (reward + gamma * next_max) # Neuen Wert anhand Q-Learning Formel berechnen
        q_table[state, action] = new_value

        if reward == -10:
            penalties += 1

        state = next_state
        epochs += 1
        
    if i % 100 == 0:
        clear_output(wait=True)
        print(f"Episode: {i}")

print("Training finished.\n")

Episode: 100000
Training finished.

CPU times: user 1min 16s, sys: 17.5 s, total: 1min 33s
Wall time: 1min 19s


In [116]:
q_table[328]

array([ -1.98925781,  -1.95703125,  -1.98925781,  -1.97851563,
       -10.97851563, -10.97851563])

### Performance des Agenten testen, nach dem Q-Learning angewandt wurde
Ich führe diesen Test über 100 Epochen durch und berechne dann die durchschnittliche Performance.

In [118]:
#Test Performance

total_epochs, total_penalties, total_rewards = 0, 0, 0
episodes = 100

for _ in range(episodes):
    state = env.reset()
    epochs, penalties, reward = 0, 0, 0
    
    done = False
    
    while not done:
        action = np.argmax(q_table[state])
        state, reward, done, info = env.step(action)

        if reward == -10:
            penalties += 1

        epochs += 1

    total_penalties += penalties
    total_epochs += epochs
    total_rewards += reward

print(f"Ergebnis nach {episodes} Episoden:")
print(f"Durchschnittliche Zeit pro Episode: {total_epochs / episodes}")
print(f"Durchschnittliche Strafen pro Episode: {total_penalties / episodes}")

Ergebnis nach 100 Episoden:
Durchschnittliche Zeit pro Episode: 13.31
Durchschnittliche Strafen pro Episode: 0.0


# Aufgabe 2: Vergleich von Q-Learning (10 Punkte)


Wir bewerten unsere Agenten anhand der folgenden Kennzahlen,

- **Durchschnittliche Anzahl der Strafen pro Episode**: Je kleiner die Zahl, desto besser die Leistung unseres Agenten. Im Idealfall möchten wir, dass diese Kennzahl Null oder sehr nahe bei Null liegt.
- **Durchschnittliche Anzahl der Zeitschritte pro Fahrt**: Wir wollen auch eine kleine Anzahl von Zeitschritten pro Episode, da wir möchten, dass unser Agent minimale Schritte (d.h. den kürzesten Weg) unternimmt, um das Ziel zu erreichen.
- **Durchschnittliche Belohnungen pro Zug**: Je größer die Belohnung, desto besser ist es, dass der Agent das Richtige tut. Deshalb ist die Entscheidung über die Belohnung ein wichtiger Teil des Verstärkungslernens. In unserem Fall, da sowohl Zeitschritte als auch Strafen negativ belohnt werden, würde eine höhere durchschnittliche Belohnung bedeuten, dass der Agent das Ziel so schnell wie möglich mit den geringsten Strafen erreicht".


Erstellen Sie eine Tabelle und vergleichen Sie Q-Learning mit dem "simplen" Ansatz von oben.


In [121]:
q_learning_reward = reward / episodes
q_learning_epochs = total_epochs / episodes
q_learning_penalties = total_penalties / episodes

In [122]:
import pandas as pd

table = {"Modell" : ["No RF Learning", "Q-Learning"],
                     "Avg Rewards" : [no_rflearning_reward, q_learning_reward],
                     "Avg Penalties" : [no_rflearning_penalties, q_learning_penalties],
                    "Avg Epochs" : [no_rflearning_epochs, q_learning_epochs]}



Der Q-Learning Algorithmus schneidet deutlich besser ab als die Lösung ohne Reinforcement Learning. Das Q-Learning Modell schafft es nach dem der Agent 100000 Episoden trainiert wurde, die Strafen komplett zu umgehen. Auch der durchsnchittliche Reward pro Epoche um ein Vielfaches höher ist. Bei dem einen Durchlauf ohne RL hat der Agent 3830 Schritte benötigt, um an Ziel zu kommen. Beim Q-Learning waren es im Schnitt dann nur mehr etwas mehr als 13. Dies zeigt deutlich, dass durch Q-Learning eine deutlich bessere Performance erzielt werden kann.

In [124]:
pd.DataFrame(table)

Unnamed: 0,Modell,Avg Rewards,Avg Penalties,Avg Epochs
0,No RF Learning,0.005222,0.328198,3830.0
1,Q-Learning,0.2,0.0,13.31


## Aufgabe 3: Hyperparameter (10 Punkte)

Die Werte von `alpha`, `gamma` und `epsilon` basierten hauptsächlich auf Intuition und etwas "Hit and Trial", aber es gibt bessere Möglichkeiten, gute Werte zu finden.

Im Idealfall sollten alle drei im Laufe der Zeit abnehmen, denn wenn der Agent weiter lernt, baut er tatsächlich widerstandsfähigere Vorgänger auf;

- *α*: (die Lernrate) sollte abnehmen, da Sie immer mehr an einer immer größeren Wissensbasis gewinnen.
- *γ*: Wenn Sie der Deadline immer näher kommen, sollte Ihre Präferenz für eine kurzfristige Belohnung steigen, da Sie nicht lange genug dabei sein werden, um die langfristige Belohnung zu erhalten, was bedeutet, dass Ihr Gamma sinken sollte.
- *ϵ*: Während wir unsere Strategie entwickeln, haben wir weniger Bedarf an Exploration und mehr Ausbeutung, um mehr Nutzen aus unserer Policy zu ziehen, so dass mit zunehmender Anzahl der Versuche epsilon abnehmen sollte.

Wie können die Hyperparameter "gesucht" werden?
Versuche mindestens eine Suchstrategie und gib die Hyperparameter an. Wie viele Iterationen benötigt der "minimale" Algorithmus?

Ich habe mich bei der Hyperparameteroptimierung für eine Random Search Methode entschieden. Bei der 50 mal random aus den untenaufgeführten Listen den Parameter wähle und dann prüfe mit welchen Parametern das beste Ergebnis erzielt wird. Ich habe bewusst bei den Parametern den Wert 0.1 ausgelassen, da ansonsten mein Rechner "ewig" rechnet. Ich teste für jedes Parametertrio die Performance über 100 Episoden.

In [100]:

possibilities = [0.15,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1]

In [101]:
# Hyperparameter
alpha = 0.1
gamma = 0.6
epsilon = 0.1

# Leere Listen um Werte einzufügen
#all_epochs = []
#all_penalties = []
alpha_list = []
gamma_list = []
epsilon_list = []
rewards_list = []
epochs_list = []
penalties_list = []
    
for x in range(50):
    alpha = random.choice(possibilities)
    gamma = random.choice(possibilities)
    epsilon = random.choice(possibilities)
    
    for i in range(1, 101):
        state = env.reset()

        epochs, penalties, reward, = 0, 0, 0
        done = False
    
        while not done:
            if random.uniform(0, 1) < epsilon:
                action = env.action_space.sample() 
            else:
                action = np.argmax(q_table[state]) 

            next_state, reward, done, info = env.step(action) 
        
            old_value = q_table[state, action]
            next_max = np.max(q_table[next_state])
        
            new_value = (1 - alpha) * old_value + alpha * (reward + gamma * next_max)
            q_table[state, action] = new_value

            if reward == -10:
                penalties += 1

            state = next_state
            epochs += 1
        
        if i % 10 == 0:
            clear_output(wait=True)
            print(f"Episode: {i}")

    print("Iteration beendet\n")
    epochs_list.append(epochs)            
    penalties_list.append(penalties)        
    rewards_list.append(reward)
    epsilon_list.append(epsilon)
    alpha_list.append(alpha)
    gamma_list.append(gamma)
    print(x)
    x += 1
print(" JUHU FINISHED!")

Episode: 100
Training finished.

49
FINISHED!


In [102]:
parameter_df = pd.DataFrame()

parameter_df["Alphas"] = alpha_list
parameter_df["Epsilon"] = epsilon_list
parameter_df["Gamma"] = gamma_list
parameter_df["Rewards"] = rewards_list
parameter_df["Epochs"] = epochs_list
parameter_df["Penalties"] = penalties_list

In [104]:
parameter_df["Reward per Epoch"] = parameter_df["Rewards"] / parameter_df["Epochs"]
parameter_df["Penalty per Epoch"] = parameter_df["Penalties"] / parameter_df["Epochs"]

In [109]:
parameter_df.sort_values(by=["Reward per Epoch"], ascending=False).head()


Unnamed: 0,Alphas,Epsilon,Gamma,Rewards,Epochs,Penalties,Reward per Epoch,Penalty per Epoch
35,0.5,0.15,0.3,20,11,0,1.818182,0.0
6,0.2,0.5,0.6,20,12,1,1.666667,0.083333
45,0.7,0.15,0.9,20,13,0,1.538462,0.0
26,0.8,0.15,0.5,20,14,0,1.428571,0.0
12,0.8,0.15,1.0,20,14,0,1.428571,0.0


In [110]:
parameter_df.sort_values(by=["Penalty per Epoch"], ascending=True).head()

Unnamed: 0,Alphas,Epsilon,Gamma,Rewards,Epochs,Penalties,Reward per Epoch,Penalty per Epoch
45,0.7,0.15,0.9,20,13,0,1.538462,0.0
35,0.5,0.15,0.3,20,11,0,1.818182,0.0
26,0.8,0.15,0.5,20,14,0,1.428571,0.0
12,0.8,0.15,1.0,20,14,0,1.428571,0.0
14,0.7,0.2,0.4,20,64,2,0.3125,0.03125


Das Ergebnis nach den 50 Iterationen und unterschiedlichen Parametern zeigt, dass die Modelle mit geringem Epsilon mit 0,15 am besten abschneiden, sowohl bezüglich zu erwartendem Reward als auch bzgl. der zu erwartenden Strafe. Das beste Modell ist bei einem Alpha von 0.5, einem Epsilon von 0,15 und einem Gammawert von 0.3.