### Practicing Policy Evaluation, Policy Improvement, Policy Iteration and Value Iteration. 

In [2]:
# Requirements.
import numpy as np
import gymnasium as gym


In [8]:
# Environments. 
frozen_lake_env = gym.make('FrozenLake-v1')
frozen_lake_env = frozen_lake_env.unwrapped.P
frozen_lake_env

{0: {0: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 4, 0.0, False)],
  1: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 4, 0.0, False),
   (0.3333333333333333, 1, 0.0, False)],
  2: [(0.3333333333333333, 4, 0.0, False),
   (0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)],
  3: [(0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)]},
 1: {0: [(0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 5, 0.0, True)],
  1: [(0.3333333333333333, 0, 0.0, False),
   (0.3333333333333333, 5, 0.0, True),
   (0.3333333333333333, 2, 0.0, False)],
  2: [(0.3333333333333333, 5, 0.0, True),
   (0.3333333333333333, 2, 0.0, False),
   (0.3333333333333333, 1, 0.0, False)],
  3: [(0.3333333333333333, 2, 0.0, False),
   (0.3333333333333333, 1, 0.0, False),
   (0.3333333333333333, 0, 0.0, False)]},
 2:

In [None]:
# Policy Evaluation, an algorithm that allows us to compute the value function of a given policy. This allows us to compare policies. 

def policy_evaluation(pi, mdp, gamma=1, theta=1e-3):
    ''' Iterates over the states of an MDP and computes the value according to the policy.'''

    state_space = len(mdp)
    state_values = np.zeros(state_space)

    while True: # Until convergence.

        iteration_state_vals = np.zeros(state_space)

        # Iterate over the states and compute the value of that state. 
        for state in state_space:
            for transition_probability, state_prime, reward, done in mdp[state][pi[state]]: # Accessing the action that is taken in that state using policy pi. 
                iteration_state_vals[state] += transition_probability * (reward + gamma * state_values[state_prime] * (not done))
        
        if np.max(np.absolute(iteration_state_vals - state_values) < theta):
            break
        
        state_values = iteration_state_vals.copy()

    return pi, iteration_state_vals
                

