In [3]:
import argparse
import numpy as np
import gym
import time
from gym.envs.toy_text import frozen_lake
from gym.envs.registration import register

parser = argparse.ArgumentParser(
    description="A program to run assignment 1 implementations.",
    formatter_class=argparse.ArgumentDefaultsHelpFormatter,
)

parser.add_argument(
    "--env",
    help="The name of the environment to run your algorithm on.",
    choices=[
        "Deterministic-4x4-FrozenLake-v1",
        "Stochastic-4x4-FrozenLake-v1",
        "Deterministic-8x8-FrozenLake-v1",
        "Stochastic-8x8-FrozenLake-v1",
    ],
    default="Deterministic-4x4-FrozenLake-v1",
)

parser.add_argument(
    "--algorithm",
    help="The name of the algorithm to run.",
    choices=["both", "policy_iteration", "value_iteration"],
    default="both",
)

# Register custom gym environments
env_dict = gym.envs.registration.registry.copy()
for env in env_dict:
    if "Deterministic-4x4-FrozenLake-v1" in env:
        del gym.envs.registration.registry[env]

    elif "Deterministic-8x8-FrozenLake-v1" in env:
        del gym.envs.registration.registry[env]

    elif "Stochastic-4x4-FrozenLake-v1" in env:
        del gym.envs.registration.registry[env]

    elif "Stochastic-8x8-FrozenLake-v1" in env:
        del gym.envs.registration.registry[env]

register(
    id="Deterministic-4x4-FrozenLake-v1",
    entry_point="gym.envs.toy_text.frozen_lake:FrozenLakeEnv",
    kwargs={"map_name": "4x4", "is_slippery": False},
)

register(
    id="Deterministic-8x8-FrozenLake-v1",
    entry_point="gym.envs.toy_text.frozen_lake:FrozenLakeEnv",
    kwargs={"map_name": "8x8", "is_slippery": False},
)

register(
    id="Stochastic-4x4-FrozenLake-v1",
    entry_point="gym.envs.toy_text.frozen_lake:FrozenLakeEnv",
    kwargs={"map_name": "4x4", "is_slippery": True},
)

register(
    id="Stochastic-8x8-FrozenLake-v1",
    entry_point="gym.envs.toy_text.frozen_lake:FrozenLakeEnv",
    kwargs={"map_name": "8x8", "is_slippery": True},
)

"""
For policy_evaluation, policy_improvement, policy_iteration and value_iteration,
the parameters P, nS, nA, gamma are defined as follows:

	P (dict): From gym.core.Environment
		For each pair of states in [0, nS - 1] and actions in [0, nA - 1], P[state][action] is a
		list of tuples of the form [(probability, nextstate, reward, terminal),...] where
			- probability: float
				the probability of transitioning from "state" to "nextstate" with "action"
			- nextstate: int
				denotes the state we transition to (in range [0, nS - 1])
			- reward: int
				either 0 or 1, the reward for transitioning from "state" to
				"nextstate" with "action"
			- terminal: bool
			  True when "nextstate" is a terminal state (hole or goal), False otherwise
	nS (int): number of states in the environment
	nA (int): number of actions in the environment
	gamma (float): Discount factor. Number in range [0, 1)
"""


In [93]:
#args = parser.parse_args()
env = gym.make("Stochastic-8x8-FrozenLake-v1", render_mode="human")

In [58]:

value_function = np.zeros(env.observation_space.n)
print(value_function)
policy = np.zeros(env.observation_space.n, dtype=int)
print(policy)
new_v_function = np.copy(value_function)
gamma=0.9
tol=1e-3

[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]


In [68]:
for s, a in enumerate(policy):
    print(s,a)

0 0
1 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
9 0
10 0
11 0
12 0
13 0
14 0
15 0


In [67]:
env.P

{0: {0: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 4, 0.0, False)],
  1: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 4, 0.0, False),
   (0.3333333333333333, 1, 0.0, False)],
  2: [(0.3333333333333333, 4, 0.0, False),
   (0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)],
  3: [(0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)]},
 1: {0: [(0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 5, 0.0, True)],
  1: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 5, 0.0, True),
   (0.3333333333333333, 2, 0.0, False)],
  2: [(0.3333333333333333, 5, 0.0, True),
   (0.3333333333333333, 2, 0.0, False),
   (0.3333333333333333, 1, 0.0, False)],
  3: [(0.3333333333333333, 2, 0.0, False),
   (0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)]},
 2:

In [66]:
i= 1
for s, a in enumerate(policy):
    print(s,a)
    for s_a_scenario in env.P[s][a]:
        print(s_a_scenario)
        prob, next_s, reward, terminal = s_a_scenario
        new_v_function[s] += prob * (reward + gamma * value_function[next_s])
print(new_v_function)

(0.3333333333333333, 0, 0.0, False)
(0.3333333333333333, 0, 0.0, False)
(0.3333333333333333, 4, 0.0, False)
(0.3333333333333333, 1, 0.0, False)
(0.3333333333333333, 0, 0.0, False)
(0.3333333333333333, 5, 0.0, True)
(0.3333333333333333, 2, 0.0, False)
(0.3333333333333333, 1, 0.0, False)
(0.3333333333333333, 6, 0.0, False)
(0.3333333333333333, 3, 0.0, False)
(0.3333333333333333, 2, 0.0, False)
(0.3333333333333333, 7, 0.0, True)
(0.3333333333333333, 0, 0.0, False)
(0.3333333333333333, 4, 0.0, False)
(0.3333333333333333, 8, 0.0, False)
(1.0, 5, 0, True)
(0.3333333333333333, 2, 0.0, False)
(0.3333333333333333, 5, 0.0, True)
(0.3333333333333333, 10, 0.0, False)
(1.0, 7, 0, True)
(0.3333333333333333, 4, 0.0, False)
(0.3333333333333333, 8, 0.0, False)
(0.3333333333333333, 12, 0.0, True)
(0.3333333333333333, 5, 0.0, True)
(0.3333333333333333, 8, 0.0, False)
(0.3333333333333333, 13, 0.0, False)
(0.3333333333333333, 6, 0.0, False)
(0.3333333333333333, 9, 0.0, False)
(0.3333333333333333, 14, 0.0, 

In [17]:
print(len(env.P))

print(env.observation_space.n)
print(env.action_space.n)

64
64
4


In [79]:
import src.submission as sub
from importlib import reload
sub = reload(sub)

In [86]:
V_pi, p_pi = sub.policy_iteration(
            env.P, env.observation_space.n, env.action_space.n, gamma=0.9, tol=1e-3
        )

policy changed in 2 states
policy changed in 2 states
policy changed in 3 states
policy changed in 3 states
policy changed in 4 states
policy changed in 4 states
policy changed in 5 states
policy changed in 5 states
policy changed in 4 states
policy changed in 6 states
policy changed in 6 states
policy changed in 5 states
policy changed in 3 states
policy changed in 1 states
policy changed in 0 states


In [87]:
print(V_pi)
print(p_pi)

[0.254 0.282 0.314 0.349 0.387 0.43  0.478 0.531 0.282 0.314 0.349 0.387
 0.43  0.478 0.531 0.59  0.314 0.349 0.387 0.    0.478 0.531 0.59  0.656
 0.349 0.387 0.43  0.478 0.531 0.    0.656 0.729 0.314 0.349 0.387 0.
 0.59  0.656 0.729 0.81  0.282 0.    0.    0.59  0.656 0.729 0.    0.9
 0.314 0.    0.478 0.531 0.    0.81  0.    1.    0.349 0.387 0.43  0.
 0.81  0.9   1.    0.   ]
[1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 0 1 2 1 1 2 2 2 2 1 0 1 1 2 2 3 0 1
 1 2 1 1 0 0 2 2 1 0 1 1 0 2 3 0 1 0 1 2 2 3 0 2 2 2 0]


In [88]:
sub.render_single(env, p_pi, 100)

Episode reward: 1.000000


In [94]:
V_vi, p_vi = sub.value_iteration(env.P, env.observation_space.n, env.action_space.n, gamma=0.9, tol=1e-3)
print(V_vi)
print(p_vi)

[0.006 0.008 0.012 0.018 0.025 0.032 0.039 0.043 0.006 0.007 0.011 0.016
 0.026 0.036 0.049 0.057 0.005 0.006 0.007 0.    0.026 0.039 0.068 0.084
 0.004 0.005 0.006 0.008 0.02  0.    0.092 0.129 0.003 0.003 0.003 0.
 0.034 0.062 0.109 0.21  0.002 0.    0.    0.011 0.032 0.063 0.    0.36
 0.001 0.    0.001 0.004 0.    0.116 0.    0.631 0.001 0.001 0.001 0.
 0.138 0.323 0.614 0.   ]
[3 2 2 2 2 2 2 2 3 3 3 3 2 2 2 1 3 3 0 0 2 3 2 1 3 3 3 1 0 0 2 1 3 3 0 0 2
 1 3 2 0 0 0 1 3 0 0 2 0 0 1 0 0 0 0 2 0 1 0 0 1 1 1 0]


In [95]:
sub.render_single(env, p_vi, 200)

Episode reward: 1.000000
