# Temporal Difference Demo

In [1]:
from pathlib import Path
from herringbone import Render, MDP, TDZero, Sarsa, QLearning, DeepQLearning

All initialization tests passed.
imported herringbone without any errors :)


In [2]:
print('Map options:\n\t',
      *sorted([m.stem for m in Path("herringbone/env_core/maps").glob('*.csv')]), sep='\n\t- ')

print('\nSupported configurations:\n\t',
      *sorted([c.stem for c in Path("herringbone/env_core/config").glob('*.json')]), sep='\n\t- ')

Map options:
	
	- danger_holes
	- double_fish
	- easy
	- example
	- example2
	- mega
	- slides
	- wall_of_death

Supported configurations:
	
	- action_config
	- old_actions
	- state_config


In [3]:
state_config = "herringbone/env_core/config/state_config.json"
map_ = "herringbone/env_core/maps/double_fish.csv"
action_config = "herringbone/env_core/config/action_config.json"

num_episodes = 10_000
seed = 42

In [4]:
mdp_s = MDP(
    state_config=state_config,
    map=map_,
    action_config=action_config,
    seed=seed,
)

mdp_q = MDP(
    state_config=state_config,
    map=map_,
    action_config=action_config,
    seed=seed,
)

mdp_dq = MDP(
    state_config=state_config,
    map=map_,
    action_config=action_config,
    seed=seed,
)

Render.preview_frame(board=mdp_s.get_board(), agent_state=None, render_mode='rewards')

╔═══════╦═══════╦═══════╦═══════╦═══════╗
║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║ [32m  10 [0m ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║ [34m  -1 [0m ║ [32m  10 [0m ║
╚═══════╩═══════╩═══════╩═══════╩═══════╝[0]


In [5]:
%%time

s = Sarsa(num_episodes, mdp=mdp_s)
q = QLearning(num_episodes, mdp_q)
dq = DeepQLearning(num_episodes, mdp_dq)

s.run()
q.run()
dq.run()

print(s.policy)
print(q.policy)
print(dq.policy)

╔═════════╦═════════╦═════════╦═════════╦═════════╗
║    →    ║    →    ║    →    ║    →    ║ ↑/↓/←/→ ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    →    ║    →    ║    →    ║    →    ║    ↑    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    ↓    ║    ↓    ║    →    ║    →    ║    ↑    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    →    ║    ↓    ║    →    ║    →    ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    →    ║    →    ║    →    ║    →    ║ ↑/↓/←/→ ║
╚═════════╩═════════╩═════════╩═════════╩═════════╝
╔═════════╦═════════╦═════════╦═════════╦═════════╗
║    →    ║    →    ║    →    ║    →    ║ ↑/↓/←/→ ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║   ↑/→   ║   ↑/→   ║   ↑/→   ║   ↑/→   ║    ↑    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║  ↑/↓/→  ║  ↑/↓/→  ║  ↑/↓/→  ║  ↑/↓/→  ║   ↑/↓   ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║   ↓/→   ║   ↓/→   ║   ↓/→   ║   ↓/→   ║    ↓    ║
╠═════════╬═

In [6]:
Render.preview_Q(mdp_s, s.q_values)
Render.preview_Q(mdp_q, q.q_values)
Render.preview_Q(mdp_dq, dq.q_values)

╔═════════════╦═════════════╦═════════════╦═════════════╦═════════════╗
║   ↑: -8.76  ║   ↑: -7.16  ║   ↑: -3.99  ║   ↑: 5.15   ║   ↑: 0.00   ║ 
║   ↓: -8.84  ║   ↓: -8.11  ║   ↓: -7.58  ║   ↓: -4.65  ║   ↓: 0.00   ║ 
║   ←: -8.77  ║   ←: -8.50  ║   ←: -7.63  ║   ←: -4.15  ║   ←: 0.00   ║ 
║   →: -7.68  ║   →: -7.10  ║   →: -3.68  ║   →: 10.00  ║   →: 0.00   ║ 
╠═════════════╬═════════════╬═════════════╬═════════════╬═════════════╣
║   ↑: -8.15  ║   ↑: -8.14  ║   ↑: -7.23  ║   ↑: 2.03   ║   ↑: 10.00  ║ 
║   ↓: -8.78  ║   ↓: -8.84  ║   ↓: -8.21  ║   ↓: -5.85  ║   ↓: -5.59  ║ 
║   ←: -8.53  ║   ←: -8.51  ║   ←: -7.09  ║   ←: -6.93  ║   ←: -2.40  ║ 
║   →: -8.11  ║   →: -4.17  ║   →: -1.85  ║   →: 2.72   ║   →: 0.47   ║ 
╠═════════════╬═════════════╬═════════════╬═════════════╬═════════════╣
║   ↑: -8.55  ║   ↑: -8.14  ║   ↑: -7.20  ║   ↑: -4.84  ║   ↑: 0.90   ║ 
║   ↓: -7.39  ║   ↓: -7.46  ║   ↓: -6.62  ║   ↓: -4.18  ║   ↓: -4.35  ║ 
║   ←: -8.65  ║   ←: -8.79  ║   ←: -8.62  ║   ←: -8.17

In [7]:
%%time

V_s = TDZero(num_episodes, policy=s.policy).run()
V_q = TDZero(num_episodes=num_episodes, policy=q.policy).run()
V_dq = TDZero(num_episodes=num_episodes, policy=dq.policy).run()

Render.preview_V(mdp=mdp_s, learned_V=V_s)
Render.preview_V(mdp=mdp_q, learned_V=V_q)
Render.preview_V(mdp=mdp_q, learned_V=V_dq)

╔═══════╦═══════╦═══════╦═══════╦═══════╗
║ -7.79 ║ -7.27 ║ -6.18 ║ -3.60 ║  0.00 ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ -8.65 ║ -7.26 ║ -6.49 ║ -4.22 ║ -0.60 ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ -8.42 ║ -7.38 ║ -4.34 ║ -3.18 ║ -2.54 ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ -8.54 ║ -7.97 ║ -5.88 ║ -2.77 ║  3.46 ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ -7.23 ║ -5.45 ║  0.79 ║  8.99 ║  0.00 ║
╚═══════╩═══════╩═══════╩═══════╩═══════╝
╔═══════╦═══════╦═══════╦═══════╦═══════╗
║ -8.33 ║ -7.27 ║ -5.58 ║ -0.25 ║  0.00 ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ -7.84 ║ -7.52 ║ -7.44 ║  1.04 ║  6.76 ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ -8.72 ║ -8.26 ║ -7.74 ║ -2.67 ║ -1.58 ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ -8.11 ║ -6.97 ║ -3.49 ║  0.00 ║  3.68 ║
╠═══════╬═══════╬═══════╬═══════╬═══════╣
║ -6.92 ║ -7.23 ║  0.26 ║  7.46 ║  0.00 ║
╚═══════╩═══════╩═══════╩═══════╩═══════╝
╔═══════╦═══════╦═══════╦═══════╦═══════╗
║ -8.63 ║ -7.88 ║ -3.34 ║  4.29 ║ 