# SARSA & Q-Learning

## SARSA Algorithm

### Ý nghĩa tên gọi
**SARSA** = **S**tate **A**ction **R**eward **S**tate **A**ction

```
S → A → R → S → A
↓   ↓   ↓   ↓   ↓
Sₜ  Aₜ  Rₜ₊₁ Sₜ₊₁ Aₜ₊₁
```

### Cách hoạt động của SARSA

SARSA dự đoán **Q-values** cho các cặp state-action (khác với TD learning chỉ estimate V-values)

**Quy trình 3 bước**:
1. **Chọn action**: Agent chọn action Aₜ ở state Sₜ → tạo cặp (Sₜ, Aₜ)
2. **Quan sát**: Thực hiện action, nhận reward Rₜ₊₁ và next state Sₜ₊₁  
3. **Commit next action**: Agent **chọn trước** Aₜ₊₁ rồi mới update Q-value

**🔑 Key insight**: SARSA update mỗi step thay vì chờ cuối episode!

## SARSA Update Equation

```
Q(Sₜ, Aₜ) ← Q(Sₜ, Aₜ) + α[Rₜ₊₁ + γQ(Sₜ₊₁, Aₜ₊₁) - Q(Sₜ, Aₜ)]
```

**Breakdown**:
- `Q(Sₜ, Aₜ)`: Current Q-value estimate
- `α`: Learning rate
- `Rₜ₊₁ + γQ(Sₜ₊₁, Aₜ₊₁)`: Target value (bootstrap từ next Q-value)
- `[...]`: TD error

**⚠️ Điểm quan trọng**: SARSA dùng action **đã được chọn** Aₜ₊₁ để update → **on-policy**

## Q-Learning vs SARSA

### Sự khác biệt cơ bản

| Aspect | SARSA | Q-Learning |
|--------|-------|------------|
| **Base on** | Bellman Equation | Bellman **Optimality** Equation |
| **Policy type** | On-policy | Off-policy |
| **Action for update** | Actual next action Aₜ₊₁ | **Max** over all actions |
| **Update formula** | `Q(s,a) + α[r + γQ(s',a') - Q(s,a)]` | `Q(s,a) + α[r + γmax Q(s',a) - Q(s,a)]` |

### Q-Learning Algorithm

**Input**: 
- Learning rate α ∈ (0,1]
- Exploration ε > 0

**Steps**:
1. **Init**: Q(s,a) arbitrarily, Q(terminal,·) = 0
2. **Mỗi episode**:
   - Initialize state S
   - **Mỗi step**:
     - Chọn A từ S dùng policy từ Q (vd: ε-greedy)
     - Thực hiện A, quan sát R, S'
     - **Update**: `Q(S,A) ← Q(S,A) + α[R + γmax Q(S',a) - Q(S,A)]`
     - S ← S'
   - Đến khi S terminal

**🔥 Điểm mạnh Q-learning**: Không cần biết policy đang follow, luôn học optimal policy!

## Expected SARSA 

### Ý tưởng
Thay vì sample 1 action như SARSA thông thường, **Expected SARSA** tính **expectation** trên tất cả possible actions theo policy hiện tại.

### Update Formula
```
Q(Sₜ, Aₜ) ← Q(Sₜ, Aₜ) + α[Rₜ₊₁ + γ∑π(a'|Sₜ₊₁)Q(Sₜ₊₁, a') - Q(Sₜ, Aₜ)]

```

**So với SARSA thông thường**:
- SARSA: Dùng Q(Sₜ₊₁, Aₜ₊₁) - **1 action cụ thể**
- Expected SARSA: Dùng ∑π(a'|Sₜ₊₁)Q(Sₜ₊₁, a') - **weighted average tất cả actions**

### Trade-offs

**Ưu điểm**:
- ✅ **Lower variance** (vì dùng expectation thay vì sample)
- ✅ **Học nhanh hơn** policy tốt
- ✅ **Robust** với large step sizes

**Nhược điểm**:
- ❌ **Expensive** hơn (phải tính expectation)
- ❌ Cần biết policy π(a'|s')

## Tổng kết & So sánh

### Khi nào dùng gì?

**SARSA (On-policy)**:
- Khi muốn agent học policy mà nó đang follow
- Safer trong real-world applications
- Tốt cho exploration-exploitation balance

**Q-Learning (Off-policy)**:
- Khi muốn học optimal policy bất kể đang follow policy gì
- Flexible hơn, có thể dùng data từ bất kỳ policy nào
- Converge đến optimal Q* nếu điều kiện thỏa mãn

**Expected SARSA**:
- Khi computational cost không là vấn đề
- Muốn stable learning với lower variance
- Có thể hoạt động như on-policy hoặc off-policy

---

*Personal note: Q-learning thường được dùng nhiều hơn trong practice vì tính flexibility, nhưng SARSA có thể an toàn hơn trong những tình huống real-world. Expected SARSA là middle ground tốt nếu computational budget cho phép.*