In [1]:
import pygame
import numpy as np
import random
import time
from IPython.display import display, clear_output

# Cài đặt Pygame
pygame.init()

# Kích thước màn hình
WIDTH, HEIGHT = 400, 400
CELL_SIZE = 40
ROWS, COLS = HEIGHT // CELL_SIZE, WIDTH // CELL_SIZE

# Màu sắc
WHITE = (255, 255, 255)
BLUE = (0, 0, 255)
GREEN = (0, 255, 0)

# Tạo màn hình pygame
screen = pygame.Surface((WIDTH, HEIGHT))

# Các hành động (Lên, Xuống, Trái, Phải)
ACTIONS = [(0, -1), (0, 1), (-1, 0), (1, 0)]
Q_table = np.zeros((ROWS, COLS, len(ACTIONS)))

# Tham số Q-learning
alpha = 0.1  # Tốc độ học
gamma = 0.9  # Hệ số chiết khấu
epsilon = 0.1  # Xác suất chọn hành động ngẫu nhiên

# Vị trí robot và đích
robot_pos = [0, 0]
goal_pos = [ROWS - 1, COLS - 1]

# Hàm chọn hành động
def choose_action(state):
    if np.random.rand() < epsilon:
        return random.randint(0, len(ACTIONS) - 1)
    return np.argmax(Q_table[state[0], state[1]])

# Hàm cập nhật Q-table
def update_q_table(state, action, reward, next_state):
    best_next_action = np.argmax(Q_table[next_state[0], next_state[1]])
    Q_table[state[0], state[1], action] += alpha * (
        reward + gamma * Q_table[next_state[0], next_state[1], best_next_action] - Q_table[state[0], state[1], action]
    )

# Hàm vẽ robot và đích
def draw_grid():
    screen.fill(WHITE)
    for x in range(0, WIDTH, CELL_SIZE):
        for y in range(0, HEIGHT, CELL_SIZE):
            pygame.draw.rect(screen, (200, 200, 200), (x, y, CELL_SIZE, CELL_SIZE), 1)
    pygame.draw.rect(screen, GREEN, (goal_pos[1] * CELL_SIZE, goal_pos[0] * CELL_SIZE, CELL_SIZE, CELL_SIZE))
    pygame.draw.circle(screen, BLUE, (robot_pos[1] * CELL_SIZE + CELL_SIZE // 2, robot_pos[0] * CELL_SIZE + CELL_SIZE // 2), 15)

# Hàm chạy mô phỏng
def run_simulation(episodes=10):
    global robot_pos
    for episode in range(episodes):
        robot_pos = [0, 0]
        steps = 0
        while robot_pos != goal_pos and steps < 100:
            state = tuple(robot_pos)
            action = choose_action(state)
            move = ACTIONS[action]
            next_pos = [robot_pos[0] + move[0], robot_pos[1] + move[1]]
            if 0 <= next_pos[0] < ROWS and 0 <= next_pos[1] < COLS:
                robot_pos = next_pos
            reward = 10 if robot_pos == goal_pos else -1
            update_q_table(state, action, reward, tuple(robot_pos))
            steps += 1
            draw_grid()
            clear_output(wait=True)
            display(pygame.surfarray.array3d(screen))
            time.sleep(0.1)
        print(f"Episode {episode + 1}: Steps = {steps}")

# Chạy mô phỏng
run_simulation(episodes=10)
pygame.quit()


ModuleNotFoundError: No module named 'pygame'