# Lab 3: Frozen Lake Value Iteration Method


In [1]:
import gym

env = gym.make("FrozenLake-v1", render_mode="human")

In [2]:
print(env.observation_space)

Discrete(16)


In [3]:
print(env.action_space)

Discrete(4)


In [4]:
env.P[0][2]

[(0.3333333333333333, 4, 0.0, False),
 (0.3333333333333333, 1, 0.0, False),
 (0.3333333333333333, 0, 0.0, False)]

In [5]:
import time

state = env.reset()
print("Time stamp-0")
t = 0
env.render()
n = 10
for i in range(n):
    action = env.action_space.sample()
    newstate, reward, done, info, x = env.step(action)
    print("Time stamp {}".format(t + 1))
    t = t + 1
    env.render()
    time.sleep(2)
    if done:
        break

Time stamp-0
Time stamp 1
Time stamp 2
Time stamp 3
Time stamp 4
Time stamp 5


In [6]:
import gym
import time
import numpy as np

env = gym.make("FrozenLake-v1", render_mode="human", is_slippery=False)
# env.reset()
# env.render()

In [7]:
def value_iteration(env):
    n = 100
    threshold = 1e-100
    gamma = 0.9
    value_table = np.zeros(env.observation_space.n)
    for i in range(n):
        updated = np.copy(value_table)
        for j in range(env.observation_space.n):
            q_values = [
                sum([prob * (r + gamma * updated[s]) for prob, s, r, x in env.P[j][a]])
                for a in range(env.action_space.n)
            ]
            value_table[j] = max(q_values)

        if np.sum(np.fabs(updated - value_table)) <= threshold:
            break
    return value_table

In [23]:
def extract_policy(value_table):
    gamma = 0.9
    policy = np.zeros(env.observation_space.n)
    for j in range(env.observation_space.n):
        q_values = [
            sum(prob * (r + gamma * value_table[s]) for prob, s, r, x in env.P[j][a])
            for a in range(env.action_space.n)
        ]
        policy[j] = np.max(np.array(q_values))
    return policy

: 

In [9]:
optimal_function = value_iteration(env)
optimal_policy = extract_policy(optimal_function)
print(optimal_policy)

[1. 2. 1. 0. 1. 0. 1. 0. 2. 1. 1. 0. 0. 2. 2. 0.]


In [10]:
print(type(optimal_policy))

<class 'numpy.ndarray'>


In [11]:
print(type(optimal_policy[0]))

<class 'numpy.float64'>


In [12]:
print(optimal_function)

[0.59049 0.6561  0.729   0.6561  0.6561  0.      0.81    0.      0.729
 0.81    0.9     0.      0.      0.9     1.      0.     ]


In [13]:
print(optimal_function)

[0.59049 0.6561  0.729   0.6561  0.6561  0.      0.81    0.      0.729
 0.81    0.9     0.      0.      0.9     1.      0.     ]


In [14]:
policy = optimal_policy.reshape(4, 4)

In [15]:
def show():
    state = env.reset()[0]
    while True:
        y = (state + 1) % 4 - 1
        x = (state) // 4
        print(x, y)
        action = int(policy[x][y])
        state, reward, done, info, x = env.step(action)
        # print("Time stamp {}".format(i))
        print(state)
        env.render()
        time.sleep(0.5)
        if done:
            env.reset()
            show()

In [None]:
show()

In [None]:
env.P

{0: {0: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 4, 0.0, False)],
  1: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 4, 0.0, False),
   (0.3333333333333333, 1, 0.0, False)],
  2: [(0.3333333333333333, 4, 0.0, False),
   (0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)],
  3: [(0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)]},
 1: {0: [(0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 5, 0.0, True)],
  1: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 5, 0.0, True),
   (0.3333333333333333, 2, 0.0, False)],
  2: [(0.3333333333333333, 5, 0.0, True),
   (0.3333333333333333, 2, 0.0, False),
   (0.3333333333333333, 1, 0.0, False)],
  3: [(0.3333333333333333, 2, 0.0, False),
   (0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)]},
 2: