# Học Tăng Cường - Reinforcement Learning
## Thực hành 20 đến Thực hành 24
Nội dung bao gồm:
- Tìm đường mê cung bằng DFS và BFS (6x6)
- FSSP_BFS trên lưới và đồ thị
- Q-Learning đơn giản

In [1]:
# TH20: DFS - Tìm đường trong mê cung 6x6
maze_size = 6
obstacles = {(0,1), (1,1), (3,2), (3,3), (3,4), (3,5), (0,4), (4,1), (4,2), (4,3)}
maze = [[0]*maze_size for _ in range(maze_size)]
for (r,c) in obstacles:
    maze[r][c] = 1
start = (0,0)
goal = (0,5)

def is_valid(cell):
    r, c = cell
    return 0 <= r < maze_size and 0 <= c < maze_size and maze[r][c] == 0

visited = set()
path = []
def dfs(cell):
    if cell == goal:
        path.append(cell)
        return True
    visited.add(cell)
    r, c = cell
    for m in [(r-1,c), (r+1,c), (r,c-1), (r,c+1)]:
        if is_valid(m) and m not in visited:
            if dfs(m):
                path.append(cell)
                return True
    return False

if dfs(start):
    path.reverse()
    print("Đường đi tìm bằng DFS:", path)
else:
    print("Không tìm thấy đường đi bằng DFS.")

Đường đi tìm bằng DFS: [(0, 0), (1, 0), (2, 0), (3, 0), (3, 1), (2, 1), (2, 2), (1, 2), (0, 2), (0, 3), (1, 3), (2, 3), (2, 4), (1, 4), (1, 5), (0, 5)]


DFS (Depth-First Search) là thuật toán tìm kiếm theo chiều sâu, thường được sử dụng để tìm đường đi trong mê cung hoặc đồ thị bằng cách khám phá “càng sâu càng tốt” trên mỗi nhánh trước khi quay lui
. Trong đoạn mã trên, chúng ta định nghĩa một mê cung 6x6 với các chướng ngại vật và khởi tạo vị trí bắt đầu start và đích goal. Hàm dfs thực hiện tìm kiếm theo chiều sâu đệ quy: khi cell hiện tại là đích, trả về True và thêm ô đó vào đường đi; nếu không, tiếp tục duyệt các bước di chuyển hợp lệ (lên, xuống, trái, phải). Biến visited theo dõi các ô đã duyệt để tránh lặp vô tận. Cuối cùng, nếu tìm được đường đi từ start đến goal, đường đi được thu được qua biến path (đã được đảo ngược đúng thứ tự) và in ra màn hình.
Mô tả chi tiết: Đầu tiên, ta tạo mê cung dưới dạng ma trận 6x6 và đánh dấu chướng ngại vật. Hàm is_valid(cell) kiểm tra ô có nằm trong tầm hoạt động và không bị chặn. Hàm dfs(cell) duyệt đệ quy: nếu gặp đích thì kết thúc thành công, ngược lại đánh dấu ô hiện tại đã thăm và thử từng ô láng giềng hợp lệ chưa thăm. Nếu bất kỳ đường nào dẫn đến đích, nó thêm cell vào đường đi. Cuối cùng gọi dfs(start) và in ra đường tìm được hoặc thông báo không tìm thấy.

In [2]:
# TH21: BFS - Tìm đường trong mê cung 6x6
from collections import deque

def bfs(start, goal):
    queue = deque([(start, [start])])
    visited = set([start])
    while queue:
        (cell, path) = queue.popleft()
        if cell == goal:
            return path
        r, c = cell
        for m in [(r-1,c), (r+1,c), (r,c-1), (r,c+1)]:
            if is_valid(m) and m not in visited:
                visited.add(m)
                queue.append((m, path + [m]))
    return None

bfs_path = bfs(start, goal)
if bfs_path:
    print("Đường đi tìm bằng BFS:", bfs_path)
else:
    print("Không tìm thấy đường đi bằng BFS.")

Đường đi tìm bằng BFS: [(0, 0), (1, 0), (2, 0), (2, 1), (2, 2), (1, 2), (1, 3), (1, 4), (1, 5), (0, 5)]


BFS (Breadth-First Search) là thuật toán tìm kiếm theo chiều rộng, khám phá các ô (hoặc nút) “tầng tầng lớp lớp” từ vị trí nguồn, bảo đảm thăm hết tất cả các ô ở mức độ hiện tại trước khi đến mức tiếp theo
. Điều này có nghĩa là BFS thường tìm được đường đi ngắn nhất trong mê cung không trọng số. Trong đoạn mã trên, ta sử dụng deque làm hàng đợi để lần lượt duyệt các vị trí. Đầu tiên thêm start vào hàng đợi. Mỗi lần lặp, ta lấy vị trí hiện tại và đường đi đã đi đến đó; nếu vị trí là goal, trả về đường đi. Ngược lại, thử các bước di chuyển (lên, xuống, trái, phải) mà chưa thăm, đánh dấu là đã thăm và thêm vào hàng đợi cùng với đường đi tương ứng. Kết quả là bfs_path lưu đường ngắn nhất từ start đến goal, và được in ra.
Mô tả chi tiết: Thuật toán BFS sử dụng cấu trúc hàng đợi để đảm bảo thăm các ô theo khoảng cách gia tăng từ start
. Biến visited lưu các ô đã thăm để tránh lặp. Tại mỗi bước, ta kiểm tra nếu đã tới đích, ngược lại thêm tất cả ô láng giềng hợp lệ vào cuối hàng đợi cùng với đường đi tới ô đó. Do đặc tính tìm kiếm theo mức độ, kết quả cuối cùng là đường đi ngắn nhất từ đầu đến đích được tìm thấy.

In [3]:
# TH22: BFS trên lưới 5x5 - FSSP
grid = [[0]*5 for _ in range(5)]
grid[1][1] = 1
grid[2][3] = 1
start = (0,0)
goal = (4,4)

def is_valid_grid(cell):
    r, c = cell
    return 0 <= r < 5 and 0 <= c < 5 and grid[r][c] == 0

def bfs_grid(start, goal):
    queue = deque([(start, [start])])
    visited = set([start])
    while queue:
        cell, path = queue.popleft()
        if cell == goal:
            return path
        r, c = cell
        for m in [(r-1,c), (r+1,c), (r,c-1), (r,c+1)]:
            if is_valid_grid(m) and m not in visited:
                visited.add(m)
                queue.append((m, path + [m]))
    return None

fssp_path = bfs_grid(start, goal)
print("Đường đi tìm bằng BFS trên lưới:", fssp_path)

Đường đi tìm bằng BFS trên lưới: [(0, 0), (1, 0), (2, 0), (3, 0), (4, 0), (4, 1), (4, 2), (4, 3), (4, 4)]


FSSP (Forward State Space Planning) là kỹ thuật lập kế hoạch tiến về phía trước, ứng dụng thuật toán tìm kiếm như BFS để khám phá dần các trạng thái của hệ thống từ start tới goal
. Ở đây ta coi mỗi ô trong lưới là một trạng thái. BFS sẽ tìm đường đi ngắn nhất trên lưới bằng cách lần lượt khám phá các ô theo khoảng cách tăng dần từ ban đầu. Đoạn mã trên định nghĩa một lưới 5x5 với vài ô chắn, sử dụng hàm bfs_grid tương tự như BFS thông thường. Ở mỗi bước, nếu vị trí hiện tại là đích, trả về đường đi; nếu không, thêm các ô láng giềng hợp lệ vào hàng đợi và tiếp tục. Kết quả fssp_path là đường tìm được.
Mô tả chi tiết: Chúng ta biểu diễn lưới dưới dạng ma trận và dùng BFS để lần lượt thăm các ô như trong thuật toán FSSP
. Hàm is_valid_grid(cell) kiểm tra ô có trong lưới và không bị chặn. Tương tự BFS thông thường, ta dùng hàng đợi lưu cặp (ô hiện tại, đường đi). Duyệt cho đến khi tới goal. Vì BFS trên lưới không trọng số đảm bảo đường đi tìm được là ngắn nhất, đây là cách tìm đường nhanh chóng trong mô hình trạng thái tiến của bài toán.

In [4]:
# TH23: BFS trên đồ thị
graph = {
    'A': ['B','C'],
    'B': ['D','E'],
    'C': ['F'],
    'D': [],
    'E': ['F'],
    'F': []
}

def bfs_graph(graph, start, goal):
    queue = deque([(start, [start])])
    visited = set([start])
    while queue:
        node, path = queue.popleft()
        if node == goal:
            return path
        for neighbor in graph.get(node, []):
            if neighbor not in visited:
                visited.add(neighbor)
                queue.append((neighbor, path + [neighbor]))
    return None

graph_path = bfs_graph(graph, 'A', 'F')
print("Đường đi trong đồ thị:", graph_path)

Đường đi trong đồ thị: ['A', 'C', 'F']


BFS cũng có thể áp dụng cho tìm đường trên đồ thị (mạng lưới đặc biệt) với cách tiếp cận tương tự. Thuật toán sẽ thăm lần lượt các đỉnh kề nhau và đảm bảo tìm được đường ngắn nhất từ đỉnh bắt đầu đến đỉnh đích trong đồ thị không trọng số
. Đoạn mã định nghĩa một đồ thị dưới dạng danh sách kề (các khóa là nút, giá trị là danh sách nút kề). Hàm bfs_graph thực hiện BFS: mỗi lần lấy một nút, nếu đó là đích thì trả về đường đi; nếu không, thêm các nút kề chưa thăm vào hàng đợi cùng đường đi dẫn tới chúng. Kết quả graph_path là đường từ ‘A’ tới ‘F’, đảm bảo ngắn nhất.
Mô tả chi tiết: Giống như BFS trên lưới, BFS trên đồ thị sử dụng hàng đợi để thăm từng lớp đỉnh một
. Mỗi lần ta xử lý một cặp (đỉnh, đường đi) từ hàng đợi. Nếu đỉnh là goal, giải quyết dừng lại. Ngược lại, các đỉnh kề chưa thăm sẽ được thêm vào hàng đợi. Biến visited ngăn trùng lặp. Nhờ tính chất BFS, đường đi tìm được luôn có số bước nhỏ nhất. Đoạn mã sau cùng in ra đường đi tìm được trong đồ thị này.

In [5]:
# TH24: Q-Learning đơn giản
import numpy as np
import random

n_states = 6
goal_state = n_states - 1
n_actions = 2  # 0: trái, 1: phải

def next_state(state, action):
    if action == 0:
        return 0 if state == 0 else state - 1
    else:
        return goal_state if state == goal_state else state + 1

def reward(state, action, new_state):
    return 1 if new_state == goal_state else 0

Q = np.zeros((n_states, n_actions))
alpha = 0.8
gamma = 0.9
epsilon = 0.1
episodes = 500

for ep in range(episodes):
    state = random.randint(0, n_states - 1)
    while state != goal_state:
        if random.random() < epsilon:
            action = random.randint(0, n_actions - 1)
        else:
            action = int(np.argmax(Q[state]))
        new_state = next_state(state, action)
        r = reward(state, action, new_state)
        Q[state, action] += alpha * (r + gamma * np.max(Q[new_state]) - Q[state, action])
        state = new_state

print("Bảng Q sau huấn luyện:")
print(Q)

Bảng Q sau huấn luyện:
[[0.59048994 0.6561    ]
 [0.59048999 0.729     ]
 [0.65609996 0.81      ]
 [0.729      0.9       ]
 [0.81       1.        ]
 [0.         0.        ]]


Trong Q-learning, tác nhân duy trì một bảng Q-table lưu giá trị kỳ vọng của mỗi cặp (trạng thái, hành động). Mỗi lần thực hiện hành động, tác nhân nhận phần thưởng và cập nhật giá trị Q theo công thức Q(S,A) ← Q(S,A) + α (R + γ max_a Q(S',a) - Q(S,A))
. Ở đoạn mã trên, ta thiết kế môi trường tuyến tính gồm 6 trạng thái (trạng thái 5 là đích). Hai hành động là đi trái hoặc đi phải, phần thưởng chỉ xảy ra khi đến đích. Trong mỗi tập huấn luyện, tác nhân khởi đầu ở một trạng thái ngẫu nhiên và chạy đến khi đến đích. Hành động được chọn theo chiến lược ε-greedy (có xác suất nhỏ khám phá ngẫu nhiên, còn lại chọn hành động tối ưu hiện tại). Sau mỗi bước, bảng Q được cập nhật bằng công thức trên. Sau nhiều tập, giá trị Q ở các trạng thái gần mục tiêu tăng dần, phản ánh rằng các hành động hướng về mục tiêu nhận phần thưởng mong đợi cao hơn
.
Mô tả chi tiết: Đầu tiên khởi tạo bảng Q có kích thước (số trạng thái) × (số hành động) với giá trị ban đầu 0

. Các tham số α (learning rate) và γ (discount) được chọn cố định. Trong vòng lặp huấn luyện, với mỗi tập tác nhân chọn hành động dựa trên ε-greedy (thăm khám hoặc lợi dụng Q hiện tại). Sau khi thực hiện hành động và nhận phần thưởng, Q được cập nhật bằng cách tính sai số temporal difference (dựa trên phần thưởng và giá trị Q lớn nhất tại trạng thái tiếp theo). Quá trình này lặp lại nhiều lần (episodes) để các giá trị Q hội tụ. Kết quả in ra là bảng Q sau khi học, trong đó các giá trị Q ở các trạng thái hướng về đích (ví dụ các bước đi gần đích) được tăng lên nhiều nhất
, chứng tỏ tác nhân đã học được lựa chọn hành động tối ưu để đến đích.
