# Temporal Difference Demo

In [1]:
from pathlib import Path
from herringbone import Render, MDP, TDZero, Sarsa, QLearning

All initialization tests passed.
imported herringbone without any errors :)


In [2]:
print('Map options:\n\t',
      *sorted([m.stem for m in Path("herringbone/env_core/maps").glob('*.csv')]), sep='\n\t- ')

print('\nSupported configurations:\n\t',
      *sorted([c.stem for c in Path("herringbone/env_core/config").glob('*.json')]), sep='\n\t- ')

Map options:
	
	- danger_holes
	- double_fish
	- easy
	- example
	- example2
	- mega
	- slides
	- wall_of_death

Supported configurations:
	
	- action_config
	- old_actions
	- state_config


In [3]:
map_choice = 'danger_holes'

state_config = "herringbone/env_core/config/state_config.json"
map_ = f"herringbone/env_core/maps/{map_choice}.csv"
action_config = "herringbone/env_core/config/action_config.json"

num_episodes = 10_000
seed = 42
gamma = 1
epsilon = 0.1

In [4]:
mdp_s = MDP(
    state_config=state_config,
    map=map_,
    action_config=action_config,
    seed=seed,
    gamma=gamma,
)

mdp_q = MDP(
    state_config=state_config,
    map=map_,
    action_config=action_config,
    seed=seed,
    gamma=gamma,
)

print(mdp_s.get_board())

╔═════════╦═════════╦═════════╦═════════╦═════════╗
║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [31m  hole [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [34m       [0m ║ [34m       [0m ║ [31m  hole [0m ║ [34m       [0m ║ [34m       [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [31m  hole [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [32m<x)))><[0m ║
╚═════════╩═════════╩═════════╩═════════╩═════════╝


In [5]:
s = Sarsa(num_episodes=num_episodes, mdp=mdp_s, epsilon=epsilon)
q = QLearning(num_episodes=num_episodes, mdp=mdp_q, epsilon=epsilon)

s.run()
q.run()

print(s.policy)
print(q.policy)

╔═════════╦═════════╦═════════╦═════════╦═════════╗
║    →    ║    ↓    ║    →    ║    ↓    ║ ↑/↓/←/→ ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    ↑    ║    ↓    ║    ↑    ║    ↓    ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    ↑    ║    ↓    ║ ↑/↓/←/→ ║    ↓    ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ ↑/↓/←/→ ║    →    ║    ↓    ║    ↓    ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    →    ║    →    ║    →    ║    →    ║ ↑/↓/←/→ ║
╚═════════╩═════════╩═════════╩═════════╩═════════╝
╔═════════╦═════════╦═════════╦═════════╦═════════╗
║    ↓    ║    →    ║    →    ║    ↓    ║ ↑/↓/←/→ ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    ↓    ║    ↓    ║    →    ║   ↓/→   ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    →    ║    ↓    ║ ↑/↓/←/→ ║   ↓/→   ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ ↑/↓/←/→ ║   ↓/→   ║    →    ║   ↓/→   ║    ↓    ║
╠═════════╬═

In [6]:
V_s = TDZero(num_episodes=num_episodes, policy=s.policy).run()
V_q = TDZero(num_episodes=num_episodes, policy=q.policy).run()

Render.preview_V(mdp=mdp_s, learned_V=V_s)
Render.preview_V(mdp=mdp_q, learned_V=V_q)

╔════════╦════════╦════════╦════════╦════════╗
║ -14.81 ║ -13.03 ║  4.49  ║ -14.70 ║  0.00  ║
╠════════╬════════╬════════╬════════╬════════╣
║ -14.03 ║ -11.26 ║  2.15  ║ -13.73 ║  7.61  ║
╠════════╬════════╬════════╬════════╬════════╣
║ -11.54 ║ -6.39  ║  0.00  ║  0.83  ║  8.93  ║
╠════════╬════════╬════════╬════════╬════════╣
║  0.00  ║  1.61  ║  7.07  ║  8.92  ║ 10.00  ║
╠════════╬════════╬════════╬════════╬════════╣
║  6.68  ║ -7.66  ║  8.99  ║ 10.00  ║  0.00  ║
╚════════╩════════╩════════╩════════╩════════╝
╔════════╦════════╦════════╦════════╦════════╗
║  1.50  ║ -5.14  ║  4.09  ║  5.65  ║  0.00  ║
╠════════╬════════╬════════╬════════╬════════╣
║ -12.92 ║  2.91  ║  5.10  ║  6.65  ║  7.81  ║
╠════════╬════════╬════════╬════════╬════════╣
║ -8.41  ║  4.21  ║  0.00  ║  7.90  ║  8.97  ║
╠════════╬════════╬════════╬════════╬════════╣
║  0.00  ║  6.77  ║  7.87  ║  8.94  ║ 10.00  ║
╠════════╬════════╬════════╬════════╬════════╣
║  6.48  ║  7.72  ║  8.84  ║  9.97  ║  0.00  ║
╚════════╩═══