# Temporal Difference Demo

In [1]:
from pathlib import Path
from herringbone import MDP, Sarsa, QLearning, TDZero, Render

All initialization tests passed.
imported herringbone without any errors :)


For the maps, we have the following options.

In [2]:
maps = sorted([m.stem for m in Path("herringbone/env_core/maps").glob('*.csv')])

print(*maps, sep='\n')

danger_holes
double_fish
easy
example
example2
mega
slides
wall_of_death


In [3]:
map_choice = 'danger_holes'

state_config = "herringbone/env_core/config/state_config.json"
map_ = f"herringbone/env_core/maps/{map_choice}.csv"
action_config = "herringbone/env_core/config/action_config.json"

seed = 42
gamma = 1

In [4]:
mdp_s = MDP(
    state_config=state_config,
    map=map_,
    action_config=action_config,
    seed=seed,
    gamma=gamma,
)

mdp_q = MDP(
    state_config=state_config,
    map=map_,
    action_config=action_config,
    seed=seed,
    gamma=gamma,
)

print(mdp_s.get_board())

╔═════════╦═════════╦═════════╦═════════╦═════════╗
║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [31m  hole [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [34m       [0m ║ [34m       [0m ║ [31m  hole [0m ║ [34m       [0m ║ [34m       [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [31m  hole [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [34m       [0m ║ [32m<x)))><[0m ║
╚═════════╩═════════╩═════════╩═════════╩═════════╝


In [5]:
s = Sarsa(num_episodes=10_000, mdp=mdp_s)
q = QLearning(num_episodes=10_000, mdp=mdp_q)

s.run()
q.run()

print(s.policy)
print(q.policy)

╔═════════╦═════════╦═════════╦═════════╦═════════╗
║    ↓    ║    →    ║    →    ║    ↓    ║ ↑/↓/←/→ ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    ↓    ║    →    ║    →    ║    →    ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    ↓    ║    ↓    ║ ↑/↓/←/→ ║    ↓    ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ ↑/↓/←/→ ║    ↓    ║    →    ║    ↓    ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    →    ║    →    ║    →    ║    →    ║ ↑/↓/←/→ ║
╚═════════╩═════════╩═════════╩═════════╩═════════╝
╔═════════╦═════════╦═════════╦═════════╦═════════╗
║   ↓/→   ║   ↓/→   ║   ↓/→   ║    ↓    ║ ↑/↓/←/→ ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║   ↓/→   ║   ↓/→   ║    →    ║   ↓/→   ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║    →    ║    ↓    ║ ↑/↓/←/→ ║   ↓/→   ║    ↓    ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ ↑/↓/←/→ ║   ↓/→   ║   ↓/→   ║   ↓/→   ║    ↓    ║
╠═════════╬═

In [6]:
V_s = TDZero(1000, s.policy).run()
V_q = TDZero(1000, q.policy).run()

Render.preview_V(mdp=mdp_s, learned_V=V_s)
Render.preview_V(mdp=mdp_q, learned_V=V_q)

╔═════════╦═════════╦═════════╦═════════╦═════════╗
║ -112.84 ║ -107.07 ║ -100.70 ║  -99.56 ║   0.00  ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ -105.39 ║ -109.18 ║  -97.91 ║  -93.92 ║  -84.21 ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ -102.52 ║  -99.65 ║   0.00  ║  -90.69 ║  -49.34 ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║   0.00  ║  -97.00 ║  -72.34 ║  -74.49 ║  -14.85 ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║  -94.77 ║  -87.58 ║  -63.16 ║  -39.14 ║   0.00  ║
╚═════════╩═════════╩═════════╩═════════╩═════════╝
╔═════════╦═════════╦═════════╦═════════╦═════════╗
║ -114.43 ║ -112.19 ║ -106.32 ║ -101.17 ║   0.00  ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ -111.70 ║ -105.59 ║ -100.30 ║ -104.53 ║ -101.31 ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║ -104.70 ║ -105.45 ║   0.00  ║  -75.32 ║ -101.50 ║
╠═════════╬═════════╬═════════╬═════════╬═════════╣
║   0.00  ║  -94.30 ║  -82.06 ║  -69.44 ║  -92.94 ║
╠═════════╬═