# Temporal Difference Demo

In [1]:
from pathlib import Path
from herringbone import MDP, Sarsa, QLearning, TDZero, Render

All initialization tests passed.
imported herringbone without any errors :)


For the maps, we have the following options.

In [2]:
maps = sorted([m.stem for m in Path("herringbone/env_core/maps").glob('*.csv')])

print(*maps, sep='\n')

danger_holes
double_fish
easy
example
example2
mega
slides
wall_of_death


In [3]:
map_choice = 'danger_holes'

state_config = "herringbone/env_core/config/state_config.json"
map_ = f"herringbone/env_core/maps/{map_choice}.csv"
action_config = "herringbone/env_core/config/action_config.json"

seed = 42
gamma = 1

In [4]:
mdp_s = MDP(
    state_config=state_config,
    map=map_,
    action_config=action_config,
    seed=seed,
    gamma=gamma,
)

mdp_q = MDP(
    state_config=state_config,
    map=map_,
    action_config=action_config,
    seed=seed,
    gamma=gamma,
)

print(mdp_s.get_board())

╔═════════╦═════════╦═════════╦═════════╦═════════╗
║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [31m  hole [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [34m       [0m ║ [34m       [0m ║ [31m  hole [0m ║ [34m       [0m ║ [34m       [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [31m  hole [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [32m<x)))><[0m ║
╚═════════╩═════════╩═════════╩═════════╩═════════╝


In [5]:
s = Sarsa(num_episodes=10_000, mdp=mdp_s, epsilon=.1)
q = QLearning(num_episodes=10_000, mdp=mdp_q)

s.run()
q.run()

print(s.policy)
print(q.policy)

╔═════════╦═════════╦═════════╦═════════╦═════════╗
║    →    ║    ↓    ║    →    ║    ↓    ║ ↑/↓/←/→ ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    ↑    ║    ↓    ║    ↑    ║    ↓    ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    ↑    ║    ↓    ║ ↑/↓/←/→ ║    ↓    ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ ↑/↓/←/→ ║    →    ║    ↓    ║    ↓    ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    →    ║    →    ║    →    ║    →    ║ ↑/↓/←/→ ║
╚═════════╩═════════╩═════════╩═════════╩═════════╝
╔═════════╦═════════╦═════════╦═════════╦═════════╗
║   ↓/→   ║   ↓/→   ║   ↓/→   ║    ↓    ║ ↑/↓/←/→ ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║   ↓/→   ║   ↓/→   ║    →    ║   ↓/→   ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    →    ║    ↓    ║ ↑/↓/←/→ ║   ↓/→   ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ ↑/↓/←/→ ║   ↓/→   ║   ↓/→   ║   ↓/→   ║    ↓    ║
╠═════════╬═

In [6]:
V_s = TDZero(1000, s.policy).run()
V_q = TDZero(1000, q.policy).run()

Render.preview_V(mdp=mdp_s, learned_V=V_s)
Render.preview_V(mdp=mdp_q, learned_V=V_q)

╔════════╦════════╦════════╦════════╦════════╗
║ -13.83 ║ -8.92  ║  2.36  ║  5.51  ║  0.00  ║
╠════════╬════════╬════════╬════════╬════════╣
║ -12.38 ║  0.31  ║ -24.42 ║  6.83  ║  7.82  ║
╠════════╬════════╬════════╬════════╬════════╣
║ -14.15 ║  4.92  ║  0.00  ║  7.92  ║  8.48  ║
╠════════╬════════╬════════╬════════╬════════╣
║  0.00  ║  6.75  ║  7.94  ║  8.97  ║  9.49  ║
╠════════╬════════╬════════╬════════╬════════╣
║  5.97  ║  7.60  ║  8.99  ║ 10.00  ║  0.00  ║
╚════════╩════════╩════════╩════════╩════════╝
╔═════════╦═════════╦═════════╦═════════╦═════════╗
║ -115.45 ║ -109.92 ║ -105.98 ║ -103.51 ║   0.00  ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ -114.59 ║ -108.46 ║ -103.42 ║ -101.39 ║  -91.13 ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ -110.38 ║ -102.71 ║   0.00  ║  -39.94 ║  -29.97 ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║   0.00  ║ -100.98 ║ -101.94 ║  -36.25 ║  -4.83  ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ -100.15 ║  -8