In [1]:
import numpy as np

In [2]:
class GridWorld:
    def __init__(self):
        self.grid_size = (4, 4)  # Kích thước lưới 4x4
        self.num_actions = 4  # Số lượng hành động: Up, Down, Left, Right
        self.start_state = (0, 0)  # Trạng thái bắt đầu
        self.goal_state = (3, 3)  # Trạng thái đích

    def step(self, state, action):
        """Xác định động lực của môi trường."""
        row, col = state

        if action == 0:  # Up
            row = max(0, row - 1)
        elif action == 1:  # Down
            row = min(self.grid_size[0] - 1, row + 1)
        elif action == 2:  # Left
            col = max(0, col - 1)
        elif action == 3:  # Right
            col = min(self.grid_size[1] - 1, col + 1)

        next_state = (row, col)
        reward = 0
        if next_state == self.goal_state:
            reward = 1  # Nhận phần thưởng khi đến trạng thái đích

        return next_state, reward

In [3]:
def epsilon_greedy_policy(Q, state, epsilon):
    if np.random.rand() < epsilon:
        return np.random.choice(len(Q[state]))  # Chọn ngẫu nhiên (explore)
    else:
        return np.argmax(Q[state])  # Chọn hành động có Q-value cao nhất (exploit)

# Thuật toán SARSA để cập nhật Q-values
def sarsa(grid_world, num_episodes, alpha, gamma, epsilon):
    Q = np.zeros((grid_world.grid_size[0], grid_world.grid_size[1], grid_world.num_actions))

    for _ in range(num_episodes):
        state = grid_world.start_state
        action = epsilon_greedy_policy(Q, state, epsilon)

        done = False
        while not done:
            next_state, reward = grid_world.step(state, action)
            next_action = epsilon_greedy_policy(Q, next_state, epsilon)

            # Cập nhật Q-value theo công thức SARSA
            Q[state][action] += alpha * (
                reward + gamma * Q[next_state][next_action] - Q[state][action]
            )

            state = next_state
            action = next_action

            # Kiểm tra nếu đạt đến trạng thái đích
            if state == grid_world.goal_state:
                done = True

    return Q

# Tạo môi trường grid world
grid_world = GridWorld()

# Thiết lập các hyperparameters
num_episodes = 1000
alpha = 0.1  # Learning rate
gamma = 0.9  # Discount factor
epsilon = 0.1  # Epsilon-greedy exploration

# Chạy thuật toán SARSA để học chính sách tối ưu
Q = sarsa(grid_world, num_episodes, alpha, gamma, epsilon)

# In ra hàm Q-value đã học
print("Learned Q-value Function:")
print(Q)

Learned Q-value Function:
[[[0.42277614 0.24699751 0.4277447  0.52243877]
  [0.48500505 0.35605342 0.39019997 0.58853174]
  [0.54593413 0.38434564 0.45915653 0.67178999]
  [0.63050378 0.7617457  0.54381708 0.62583074]]

 [[0.39332681 0.         0.         0.        ]
  [0.46883541 0.         0.         0.04308315]
  [0.58805111 0.00515822 0.1239044  0.20832903]
  [0.59837119 0.82570472 0.41883791 0.71997597]]

 [[0.         0.         0.         0.        ]
  [0.00784697 0.         0.         0.        ]
  [0.45142986 0.         0.         0.09      ]
  [0.67302946 1.         0.29730233 0.87208858]]

 [[0.         0.         0.         0.        ]
  [0.         0.         0.         0.        ]
  [0.         0.         0.         0.        ]
  [0.         0.         0.         0.        ]]]
