### **Lesson 3 – Giới thiệu & Grid World**

**🔑 Prerequisite**

* Biết loop + if/else trong Python.
* Biết random một chút.
* Hiểu khái niệm reward (thưởng/phạt) cơ bản.

---

#### ❓ Reinforcement Learning (RL) là gì?

* Khác với SL (có nhãn sẵn) hay UL (gom cụm), RL = **học qua tương tác**.
* Thành phần chính:

  * **Agent**: thằng ra quyết định.
  * **Environment**: thế giới mà agent tương tác.
  * **Action**: hành động agent chọn.
  * **State**: tình trạng hiện tại của môi trường.
  * **Reward**: feedback cho action.

---

#### ❓ RL khác SL/UL ở đâu?

* SL: học từ nhãn đúng.
* UL: học từ dữ liệu chưa có nhãn.
* RL: học từ **trải nghiệm + thưởng/phạt**, không ai đưa nhãn đúng cả.

---

#### ❓ Ví dụ mini: Grid World

* Một bàn cờ 3x3.
* Agent bắt đầu ở góc trái trên (0,0).
* Goal = góc phải dưới (2,2).
* Action = {up, down, left, right}.
* Reward:

  * -1 mỗi bước.
  * +10 khi đến goal.

---

#### ❓ Chính sách (policy) là gì?

* **Policy** = cách agent chọn action tại mỗi state.
* Ban đầu agent random.
* Dần dần học được policy “đi lối ngắn nhất đến goal”.

---

#### 🚀 Practice Exercise

Viết một environment Grid World đơn giản

Yêu cầu:

1. Represent grid 3x3 bằng numpy array hoặc tuple (row, col).
2. State = vị trí hiện tại (row, col).
3. Hàm `step(action)` → trả về `(next_state, reward, done)`.
4. Hành động hợp lệ: up/down/left/right. Nếu đi ra ngoài → ở nguyên, reward = -1.
5. Nếu đến goal (2,2) → done=True, reward=+10.

In [1]:
import random

In [2]:
class GridWorld:
    def __init__(self):
        self.state: tuple[int, int]
        self.cum_reward: int

    def reset(self):
        self.state = (0, 0)
        self.cum_reward = 0
        return self.state

    def step(self, action: str):
        match action:
            case "L":
                next_state = (self.state[0], max(0, self.state[1] - 1))
            case "R":
                next_state = (self.state[0], min(2, self.state[1] + 1))
            case "U":
                next_state = (max(0, self.state[0] - 1), self.state[1])
            case "D":
                next_state = (min(2, self.state[0] + 1), self.state[1])
            case _:
                raise ValueError(f"Invalid action: {action}")

        self.state = next_state

        if next_state[0] == next_state[1] == 2:
            self.cum_reward += 10
            return next_state, 10, True
        else:
            self.cum_reward -= 1
            return next_state, -1, False

In [3]:
# Hyperparameters
epochs, max_steps = 20, 50

In [4]:
# Training
model = GridWorld()

# best = max cum_reward and actions seq
best: tuple[int, list[str]] = (-1 << 30, [])

for _ in range(epochs):
    model.reset()

    actions, done = [], False
    for _ in range(max_steps):
        # Assuming policy = random
        action = random.choice("LRUD")
        actions.append(action)

        _, _, done = model.step(action)
        if done:
            break

    if done and model.cum_reward > best[0]:
        best = (model.cum_reward, actions)

In [5]:
print("Best found solution:")
print(f"* cum_reward: {best[0]}")
print(f"* actions seq: {''.join(best[1])}")

Best found solution:
* cum_reward: 6
* actions seq: LRDRD
