# Kognitive Systeme - Lab 2

In dieser Laborübung geht es darum, das Prinzip des Q-Learnings an Hand eines praktischen Beispiels zu vertiefen. Als Grundlage dafür dient das Taxi-Problem aus OpenAI (https://gym.openai.com/). Das fertig erstellte, dokumentierte und lauffähige Notebook schicken Sie bis Donnerstag, 26.11.2020 (23:59:59 MEZ) an norbert.oswald@unibw.de

Ein autonom fahrendes Taxi sammelt einen Passagier an einem Startort ein
und fährt ihn zu seinem Zielort. Dafür sind folgende Aktivitäten erforderlich:
* Identifikation des Startortes, die Fahrt dorthin sowie das Einladen des Passagiers
* Identifikation des Zielortes, die Fahrt dorthin sowie das Ausladen des Passagiers

Beide Aktivitäten sollen schnellstmöglich durchgeführt werden. Die Simulationsumgebung liefert folgende Informationen:

* 25 mögliche Positionen für das Taxi
* ein Taxi ohne Passagier ist gelb/rot, sonst grün
* 4 mögliche fixe Start- oder Zielorte R,G,B oder Y
* konkreter Startort ist blau, Zielort ist pink
* 5 Positionen, an denen sich ein Passagier befinden kann

Für den Taxi-Agenten sollen 3 verschiedene Verhaltensweisen realisiert werden. In der ersten Aufgabe agiert der Taxi-Agent rein zufällig, in der zweiten Aufgabe basieren seine Entscheidungen auf dem Prinzip des Q-Learning und in der dritten Aufgabe verwendet der Agent das SARSA Lernverfahren. Für alle drei Aufgabe sind kleine Sourcecode-Fragemente vorgegeben. Ergänzen Sie diese an den angegebenen Stellen mit Ihrer Implementierung und überprüfen Sie das gewünschte Verhalten. Dokumentieren Sie für alle 3 Verfahren jeweils Ihre Vorgehensweise. 

In [1]:
import gym
import random

env = gym.make('Taxi-v3').env

## Aufgabe 1

Schreiben Sie eine Python-Anwendung für einen Taxiagenten, der seine Aktionen zufällig auswählt. Geben Sie an, welche Belohnung Sie erhalten und nach wievielen Schritten eine Lösung gefunden wurde.

In [11]:
def execute():
    print ("Ausführungsphase")
    #
    # An dieser Stelle soll Ihre Implementierung des 
    # zufällig agierenden Taxiagenten stehen  
    #
    env.reset()
    done = False
    steps = 0
    score = 0

    while(not done):
        action = random.randint(0, 5)
        #action = env.action_space.sample()  
        next_state, reward, done, info = env.step(action)

        score += reward
        steps += 1

    print(f"Steps: {steps}, Reward: {score}")

Testen Sie das Verhalten Ihrer Implementierung, indem Sie die nachfolgende Zelle ausführen. Mit *env.render()* wird der aktuelle Zustand visualisiert.

In [12]:
execute()
env.render()

Ausführungsphase
Steps: 2165, Reward: -8543
+---------+
|[35m[34;1m[43mR[0m[0m[0m: | : :G|
| : | : : |
| : : : : |
| | : | : |
|Y| : |B: |
+---------+
  (Dropoff)


## Aufgabe 2

Das Verhalten des Taxi-Agenten soll nun so geändert werden, dass die von ihm vorgeschlagenenen Aktionen gemäß dem Q-Learning Algorithmus ermittelt wurden. 

Um Q-Learning anwenden zu können ist zunächst eine Lernphase notwendig. Ergänzen Sie zu diesem Zweck die nachfolgende Methode *learn()* in geeigneter Art und Weise. Die Übergabeparameter dürfen bei Bedarf angepasst werden.

In [8]:
import numpy

def learn(episodes: int = 2000):
    print ("Lernphase mit Q-Learning")
    #
    # An dieser Stelle soll Ihre Implementierung des 
    # Lernvorgangs für Q-Learning stehen  
    # 

    Q = numpy.zeros((5, 5, 6), dtype=float)
    print(Q.shape)

    alpha = 0.05
    gamma = 0.9

    for episode in range(episodes):

        state = env.reset()
        done = False

        while(not done):

            best_action = np.argmax(Q[state, :])
            # random action wählen 

            next_state, reward, done, info = env.step()

            best_future_action = numpy.argmax(Q[state_next, :])
            Q[state, action] = (1 - alpha) * Q[state, action] + alpha * (reward + gamma * best_future_action)

            state = next_state

learn()


Lernphase mit Q-Learning
(5, 5, 6)


Damit der Taxi-Agent von dem gelernten profitieren kann, ist eine entsprechende Ausführungsmethode zu programmieren. Ergänzen Sie zu diesem Zweck die nachfolgende Methode *execute()*. Die Übergabeparameter dürfen bei Bedarf angepasst werden. 

In [None]:
def execute():
    print ("Ausführungsphase mit Q-Learning")
    #
    # An dieser Stelle soll Ihre Implementierung der 
    # Aktionsausführung des Taxi-Agenten gemäß Q-Learning stehen  
    # 

Testen Sie das Verhalten Ihrer Implementierung, indem Sie z.B. die nachfolgende Zelle ausführen. Geben Sie an, welche Belohnung Sie erhalten und nach wievielen Schritten eine Lösung gefunden wurde.

In [None]:
learn()
execute()

## Aufgabe 3

Nun soll das Verhalten des Taxi-Agenten mit dem SARSA Algorithmus implementiert werden. Vergleichen und Interpretieren Sie die Ergebnisse, die Sie mit Q-Learning und mit SARSA erhalten.


In [None]:
def learn():
    print ("Lernphase mit SARSA")
    #
    # An dieser Stelle soll Ihre Implementierung des 
    # Lernvorgangs für SARSA stehen  
    # 

In [None]:
def execute():
    print ("Ausführungsphase mit SARSA")
    #
    # An dieser Stelle soll Ihre Implementierung der 
    # Aktionsausführung des Taxi-Agenten gemäß SARSA stehen  
    # 

In [None]:
learn()
execute()