# Mountain Car Umgebung

## Kennenlernen der Umgebung

Instantiieren der Umgebung

In [None]:
import gym
import time 

env = gym.make("MountainCar-v0")

Ein einfacher Test einer bestehenden Umgebung aus dem gym package

In [None]:
import numpy as np

# Number of steps you run the agent for 
num_steps = 200

obs = env.reset()

for step in range(num_steps):
    # take random action, but you can also do something more intelligent
    # action = my_intelligent_agent_fn(obs) 
    action = env.action_space.sample()
    # apply the action
    obs, reward, done, info = env.step(action)
    
    # Render the env
    env.render()

    # Wait a bit before the next frame unless you want to see a crazy fast video
    time.sleep(0.01)
    
    # If the epsiode is up, then start another one
    if done:
        env.reset()


# Close the env
env.close()

Zunächst betrachten wir das Umgebungssetting, d.h. Aktions- und Zustandsraum, Belohnungsfunktion usw.

In [None]:
help(env.unwrapped)

## Implementieren des Agenten

In [None]:
import gym
import time 

env = gym.make("MountainCar-v0")

Zunächst wird der Agent instantiiert. Die Konfiguration des Agenten erfolgt über ein config-dict.

In [None]:
from dqn_agent import DQNAgent

config = {
    "EPISODES": 1000,
    "REPLAY_MEMORY_SIZE": 1_00_000,
    "MINIMUM_REPLAY_MEMORY": 1_000,
    "MINIBATCH_SIZE": 32,
    "UPDATE_TARGETNW_STEPS": 100,
    "LEARNING_RATE": 0.001,
    "EPSILON": 1,
    "EPSILON_DECAY": 0.99,
    "MINIMUM_EPSILON": 0.001,
    "DISCOUNT": 0.99,
    "VISUALIZATION": False
}


# Our model to solve the mountain-car problem.
agent = DQNAgent(env, config)

Der Trainingsprozess des Agenten wird über die Methode train aufgerufen. Ein Tracken des Fortschrittes ist über tensorboard möglich. Es wird automatisch bei Start ein Ordner angelegt mit dem Datum und der Uhrzeit, in dem die Logs gespeichert werden. 

Achtung: Der Trainingsprozess kann länger dauern. Insbesondere durch die Problematik der Exploration in der vorliegenden Umgebung benötigt der Agent etwas Zeit um den Zustandsraum komplett zu erkunden. In dieser Zeit macht er natürlich keinen großen Lernfortschritt.

In [None]:
agent.train(env)

Haben Sie einen gewissen Lernstand erreicht können Sie ihren Agenten testen. Speichern Sie ihn mittels agent.save_model(...), oder verwenden Sie einen gespeicherten Zwischenstand, der bei einem besonderen Erfolgserlebnis (zum ersten Mal erreichte maximale Score) gespeichert wurde.

In [None]:
from dqn_agent import DQNAgent

agent.test(env, 'final')

Implementieren Sie im dqn_agent.py file eine entsprechende Methode, die Ihnen eine Episode mit vorliegendem Agenten/Policy visualisiert. Sie können zunächst hier im Notebook ausprobieren, was sie dafür benötigen.

In [None]:
import numpy as np

# instantiate the env
env = gym.make("MountainCar-v0")

# load the latest weights of the DQN agent
agent.load_model('final')

# Number of steps you run the agent for 
num_steps = 200

obs = env.reset()

for step in range(num_steps):
    # take random action, but you can also do something more intelligent
    # action = my_intelligent_agent_fn(obs) 
    action = np.argmax(agent.model.predict(np.expand_dims(obs, axis=0)))
    
    # apply the action
    obs, reward, done, info = env.step(action)
    
    # Render the env
    env.render()
    
    # If the epsiode is up, then start another one
    if done:
        env.reset()
        break


# Close the env
env.close()