In [39]:
import numpy as np
import random

# Define the Grid World Environment
class GridWorld:
    def __init__(self, grid_size, start_state, end_state, rewards, gamma=0.9):
        self.grid_size = grid_size
        self.start_state = start_state
        self.end_state = end_state
        self.rewards = rewards
        self.gamma = gamma
    
    def step(self, state, action):
        # Possible actions: 'up', 'down', 'left', 'right'
        x, y = state
        if action == 'up':
            next_state = (max(x - 1, 0), y)
        elif action == 'down':
            next_state = (min(x + 1, self.grid_size - 1), y)
        elif action == 'left':
            next_state = (x, max(y - 1, 0))
        elif action == 'right':
            next_state = (x, min(y + 1, self.grid_size - 1))
        else:
            next_state = state  
        
        reward = self.rewards.get(next_state, 0)  
        done = next_state == self.end_state
        return next_state, reward, done

    def reset(self):
        return self.start_state

# Define a random policy
def random_policy(state):
    return random.choice(['up', 'down', 'left', 'right'])

# Monte Carlo Policy Evaluation
def monte_carlo_policy_evaluation(env, policy, num_episodes=1000, max_steps=50):
    total_rewards = []
    
    for _ in range(num_episodes):
        state = env.reset()
        trajectory = []
        total_reward = 0
        discount = 1
        
        # Generate a trajectory
        for _ in range(max_steps):
            action = policy(state)
            next_state, reward, done = env.step(state, action)
            trajectory.append((state, action, reward))
            total_reward += discount * reward
            discount *= env.gamma
            state = next_state
            if done:
                break
        
        total_rewards.append(total_reward)
    
    # Estimate U(π) as the average return across all episodes
    U_pi = np.mean(total_rewards)
    return U_pi


grid_size = 5
start_state = (0, 0)
end_state = (4, 4)
rewards = {(4, 4): 10}  
gamma = 0.9

env = GridWorld(grid_size, start_state, end_state, rewards, gamma)

# Perform Monte Carlo Policy Evaluation
U_pi = monte_carlo_policy_evaluation(env, random_policy, num_episodes=1000, max_steps=50)

print(f"Estimated value of the policy (U(π)): {U_pi:.2f}")


Estimated value of the policy (U(π)): 0.24


Giải thích:
1.Môi trường (GridWorld):

 Một grid 5×5 với trạng thái bắt đầu ở góc trên trái  (0,0) và mục tiêu ở góc dưới phải (4,4) 
 Phần thưởng là 10 khi đến mục tiêu (4,4) các trạng thái khác không có phần thưởng.
 Agent di chuyển theo chính sách ngẫu nhiên (random policy).

2.Monte Carlo Policy Evaluation:

 Mỗi trajectory bắt đầu từ trạng thái khởi đầu (0,0) và kết thúc khi đạt trạng thái mục tiêu hoặc vượt quá số bước tối đa.
 Giá trị U(π) được tính là trung bình tổng phần thưởng R(τ) trên tất cả các trajectory.

Kết quả:
U(π): Giá trị kỳ vọng của chính sách ngẫu nhiên (random policy), được ước lượng bằng cách lấy trung bình từ 1000
episode.