In [1]:
import numpy as np
import gym
import random
import stable_baselines3
from stable_baselines3 import DQN
import matplotlib.pyplot as plt
from stable_baselines3.common.monitor import Monitor
from stable_baselines3.common import results_plotter
from stable_baselines3.common.evaluation import evaluate_policy
import os
from stable_baselines3.common.env_checker import check_env

In [2]:
# method 1 - build from gym package
env = gym.make("gym_basic:basic-v0")

In [3]:
action_space_size = env.action_space.n
state_space_size = env.observation_space.n

q_table = np.zeros((state_space_size, action_space_size))

print(q_table)

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


In [4]:
print(action_space_size)


81000


In [5]:
check_env(env,warn= True, skip_render_check=True)

In [6]:
log_dir = "/tmp/gym/"
if not os.path.exists(log_dir):
    os.makedirs(log_dir)
env = Monitor(env, log_dir)

In [7]:
# generate the model by DQN
model = DQN("MlpPolicy", env, verbose=1)

Using cpu device
Wrapping the env in a DummyVecEnv.


In [8]:
model.learn(total_timesteps=100, log_interval=4)
# save the model
model.save("dqn_facts")

----------------------------------
| rollout/            |          |
|    ep_len_mean      | 1        |
|    ep_rew_mean      | -0.114   |
|    exploration_rate | 0.62     |
| time/               |          |
|    episodes         | 4        |
|    fps              | 4        |
|    time_elapsed     | 0        |
|    total_timesteps  | 4        |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 1        |
|    ep_rew_mean      | -0.0195  |
|    exploration_rate | 0.24     |
| time/               |          |
|    episodes         | 8        |
|    fps              | 3        |
|    time_elapsed     | 2        |
|    total_timesteps  | 8        |
----------------------------------
----------------------------------
| rollout/            |          |
|    ep_len_mean      | 1        |
|    ep_rew_mean      | -0.13    |
|    exploration_rate | 0.05     |
| time/               |          |
|    episodes       

In [9]:

obs = env.reset()

#check how the model runs
for i in range(100):
    action, _states = model.predict(obs, deterministic=True)
    obs, reward, done, info = env.step(action)
    env.render()
    if done :
      obs = env.reset()

In [10]:
mean_reward_after, std_reward_after = evaluate_policy(model, env, n_eval_episodes=100)
print(f"mean_reward:{mean_reward_after:.2f} +/- std_reward:{std_reward_after:.2f}")

mean_reward:-0.15 +/- std_reward:0.47


In [11]:
print(results_plotter.X_TIMESTEPS)

timesteps


In [12]:
print([log_dir])

['/tmp/gym/']


In [13]:
print(mean_reward_after)

-0.14844265


In [14]:
#results_plotter.plot_results([log_dir], 100, results_plotter.X_TIMESTEPS, "facts_gym")
Monitor.get_episode_rewards(env)

[-0.5178,
 0.7436,
 0.002799999999999806,
 -0.685,
 -0.7048,
 0.0094,
 0.9442,
 0.0518,
 -0.3982000000000002,
 0.15493333333333334,
 -0.7818,
 -0.3795333333333335,
 0.3444,
 0.2132,
 -0.7434666666666667,
 -0.2518666666666667,
 0.1104,
 0.1056,
 -0.6883999999999999,
 -0.3862,
 0.09466666666666666,
 -0.32,
 -0.6324,
 -0.0406,
 -0.16193333333333335,
 -0.825,
 0.4135333333333333,
 -0.5163333333333333,
 -0.238,
 -0.2675333333333335,
 0.7792666666666667,
 0.07746666666666667,
 0.06666666666666667,
 -0.6848,
 -0.6905333333333333,
 -0.6733333333333333,
 -0.04593333333333333,
 0.06506666666666666,
 -0.7711333333333333,
 -0.6879333333333333,
 0.10273333333333333,
 0.09486666666666667,
 -0.7921333333333334,
 -0.7866666666666666,
 -0.46113333333333334,
 -0.5593333333333333,
 -0.3205333333333335,
 0.7548666666666667,
 -0.30866666666666664,
 -0.6201333333333333,
 -0.8444666666666667,
 0.05533333333333333,
 -0.48973333333333335,
 -0.2406,
 0.1484,
 0.1238,
 0.5774666666666667,
 -0.6030666666666666,
 

In [15]:
Monitor.get_episode_times(env)

[0.2624680995941162,
 0.6559503078460693,
 0.9057741165161133,
 1.0616626739501953,
 1.3197612762451172,
 1.5634231567382812,
 1.940079927444458,
 2.2167696952819824,
 2.4073917865753174,
 2.654555320739746,
 2.8122572898864746,
 3.0059292316436768,
 3.303439140319824,
 3.573147773742676,
 3.6973519325256348,
 3.8800721168518066,
 4.124439001083374,
 4.420227527618408,
 4.548230171203613,
 4.733850002288818,
 5.10311484336853,
 5.405600547790527,
 5.547441244125366,
 5.818089485168457,
 6.008604288101196,
 6.164514541625977,
 6.517996788024902,
 6.649372339248657,
 6.8402464389801025,
 7.040246486663818,
 7.424063682556152,
 7.6923322677612305,
 7.943937540054321,
 8.08569860458374,
 8.236514806747437,
 8.388673305511475,
 8.751563549041748,
 9.01892614364624,
 9.160876512527466,
 9.312084197998047,
 9.580267190933228,
 9.832173824310303,
 9.983473777770996,
 10.12765884399414,
 10.383424758911133,
 10.520562887191772,
 10.704566240310669,
 11.056565523147583,
 11.238761186599731,
 11.

In [16]:
'''
import matplotlib.pyplot as plt
reward_y = Monitor.get_episode_rewards(env)
timestep_x = Monitor.get_episode_times(env)
plt.plot(timestep_x,reward_y)
'''

'\nimport matplotlib.pyplot as plt\nreward_y = Monitor.get_episode_rewards(env)\ntimestep_x = Monitor.get_episode_times(env)\nplt.plot(timestep_x,reward_y)\n'

In [19]:
episodes = 100
for episode in range(1, episodes+1):
    state = env.reset()
    done = False
    score = 0 
    
    while not done:
        #env.render()
        action = env.action_space.sample()
        n_state, reward, done, info = env.step(action)
        score+=reward
    print('Episode:{} Score:{}'.format(episode, score))

Episode:1 Score:-0.3752666666666667
Episode:2 Score:0.08193333333333333
Episode:3 Score:0.8266666666666667
Episode:4 Score:0.171
Episode:5 Score:0.09226666666666666
Episode:6 Score:0.5654666666666667
Episode:7 Score:0.8608666666666667
Episode:8 Score:-0.06273333333333334
Episode:9 Score:-0.7655333333333333
Episode:10 Score:-0.28379999999999983
Episode:11 Score:-0.8518
Episode:12 Score:0.18846666666666667
Episode:13 Score:-0.3337999999999998
Episode:14 Score:-0.6481333333333333
Episode:15 Score:-0.6201333333333333
Episode:16 Score:0.6419333333333334
Episode:17 Score:-0.5182
Episode:18 Score:0.0686
Episode:19 Score:0.031733333333333336
Episode:20 Score:0.08353333333333333
Episode:21 Score:0.09926666666666667
Episode:22 Score:-0.6777333333333333
Episode:23 Score:0.0534
Episode:24 Score:-0.19306666666666666
Episode:25 Score:0.007799999999999806
Episode:26 Score:0.1504
Episode:27 Score:-0.017533333333333335
Episode:28 Score:0.11186666666666667
Episode:29 Score:0.4282666666666667
Episode:30 

In [18]:
env.observation_space.sample()

0