<a href="https://colab.research.google.com/github/Bagito999/Deep-Learning/blob/main/Chapter_18_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  Chapter 18 - Reinforcement Learning (RL)

##  Tujuan Bab

Memahami dasar-dasar Reinforcement Learning (RL), yaitu pendekatan Machine Learning di mana **agen belajar dari interaksi dengan lingkungan**.

RL banyak digunakan dalam:
- Game (AlphaGo, Dota2 AI)
- Robotika
- Sistem rekomendasi adaptif
- Navigasi otonom

---

##  Perbedaan RL vs Supervised Learning

| Supervised Learning          | Reinforcement Learning                   |
|-----------------------------|------------------------------------------|
| Diberi label                | Tidak diberi label, hanya reward         |
| Satu langkah prediksi       | Multi-step interaksi                    |
| Tidak interaktif            | Interaktif: tindakan memengaruhi hasil  |

---

##  Komponen Utama RL

1. **Agent**: sistem pembelajar
2. **Environment**: tempat agent beroperasi
3. **State (s)**: representasi lingkungan saat ini
4. **Action (a)**: tindakan yang diambil agent
5. **Reward (r)**: umpan balik dari environment
6. **Policy (π)**: strategi agent (mapping dari state ke action)
7. **Value Function (V(s))**: ekspektasi reward dari suatu state
8. **Q-Function (Q(s, a))**: ekspektasi reward dari state-action pair

---

##  Proses RL - Markov Decision Process (MDP)

MDP mendefinisikan lingkungan RL sebagai:

\[
$(S, A, P, R, \gamma)$
\]

- \($ S $\): ruang state
- \($ A $\): ruang aksi
- \($ P(s'|s,a) $\): probabilitas transisi
- \($ R(s,a) $\): reward
- \($ \gamma $\): discount factor (0 < γ ≤ 1)

---

##  Objective

Tujuan: maksimalkan **expected cumulative reward**:

\[
$G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$
\]

Agent belajar policy \($ \pi(a|s) $\) yang memaksimalkan nilai total ini.

---

##  Value Function

### State Value:

\[
$V^\pi(s) = \mathbb{E}_\pi [G_t | S_t = s]$
\]

### Action Value (Q-value):

\[
$Q^\pi(s, a) = \mathbb{E}_\pi [G_t | S_t = s, A_t = a]$
\]

---

## Bellman Equation

### Untuk \($ V^\pi(s) $\):

\[
$V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^\pi(s')]$
\]

### Untuk \($ Q^\pi(s,a) $\):

\[
$Q^\pi(s,a) = \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s',a')]$
\]

---

##  Policy vs Value-Based Methods

- **Policy-based**: langsung belajar policy \($ \pi $\) (misalnya: REINFORCE, PPO)
- **Value-based**: belajar fungsi nilai, lalu derive policy (misalnya: Q-Learning, DQN)

---

##  Q-Learning

Off-policy algorithm yang memperbarui Q-value:

\[
$Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s,a)]$
\]

- \($ \alpha $\): learning rate

---

##  Deep Q-Network (DQN)

Gunakan Neural Network untuk memapprox Q-function:

\[
$Q(s, a; \theta) \approx Q^\ast(s, a)$
\]

Fitur penting:
- **Experience Replay**: menyimpan pengalaman di buffer
- **Target Network**: stabilkan pembaruan Q dengan parameter tetap

---

##  Policy Gradient

Langsung optimalkan policy parameter \($ \theta $\):

\[
$\nabla_\theta J(\theta) = \mathbb{E}_\pi [\nabla_\theta \log \pi_\theta(a|s) Q^\pi(s,a)]$
\]

Contoh: **REINFORCE** algorithm

---

##  Actor–Critic

Gabungkan:
- **Actor**: mengupdate policy \($ \pi $\)
- **Critic**: mengevaluasi policy dengan fungsi nilai

Lebih stabil dibanding REINFORCE murni

---

##  Advantage Function

Mengukur seberapa bagus suatu aksi dibandingkan rata-rata:

\[
$A(s,a) = Q(s,a) - V(s)$
\]

Digunakan dalam algoritma seperti A2C, PPO

---

##  Algoritma Modern

- **DQN**: Value-based, Deep Learning
- **Double DQN**: kurangi overestimation Q
- **Dueling DQN**: pisahkan V(s) dan A(s,a)
- **PPO (Proximal Policy Optimization)**: policy gradient stabil dan efisien
- **A3C/A2C**: parallel actor–critic

---

##  Kesimpulan

- RL adalah paradigma pembelajaran berbasis interaksi dan reward
- Tujuan: belajar policy optimal yang memaksimalkan cumulative reward
- Banyak pendekatan: Q-learning, Policy Gradient, Actor–Critic
- Deep RL memungkinkan pemecahan masalah kompleks (game, robotik)

---

##  Referensi

- Géron, A. (2019). *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow*
