<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_18_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Reinforcement Learning (RL)**

## Tujuan Bab
Bab ini membahas dasar-dasar Reinforcement Learning (RL), yaitu pendekatan Machine Learning di mana agen belajar melalui interaksi dengan lingkungan guna memaksimalkan reward jangka panjang.

* RL banyak diterapkan dalam:

* Permainan (misalnya: AlphaGo, Dota 2 AI)

* Robotika

* Sistem rekomendasi adaptif

* Navigasi otonom

## Perbedaan RL dan Supervised Learning

| **Supervised Learning**          | **Reinforcement Learning**                  |
| -------------------------------- | ------------------------------------------- |
| Diberikan label secara eksplisit | Tidak ada label eksplisit, hanya reward     |
| Fokus pada prediksi satu langkah | Melibatkan interaksi multi-langkah          |
| Tidak interaktif                 | Interaktif: tindakan memengaruhi lingkungan |

## Komponen Utama RL
1. Agent: entitas yang belajar dan mengambil keputusan

2. Environment: lingkungan tempat agent berinteraksi

3. State (s): representasi kondisi lingkungan saat ini

4. Action (a): tindakan yang dapat diambil oleh agent

5. Reward (r): umpan balik dari lingkungan atas aksi agent

6. Policy (π): strategi yang mengatur pemilihan aksi berdasarkan state

7. Value Function (V(s)): ekspektasi total reward dari suatu state

8. Q-Function (Q(s, a)): ekspektasi total reward dari pasangan state dan action



## Proses RL – Markov Decision Process (MDP)
Lingkungan dalam RL umumnya dimodelkan sebagai Markov Decision Process:

\[
$(S, A, P, R, \gamma)$
\]

* \($ S $\): ruang state
* \($ A $\): ruang aksi
* \($ P(s'|s,a) $\): probabilitas transisi dari state 𝑠 ke '𝑠 ′ dengan aksi 𝑎
* \($ R(s,a) $\): reward yang diterima atas aksi 𝑎 di state 𝑠
* \($ \gamma $\): discount factor, mengatur pentingnya reward masa depan (0 < γ ≤ 1)

## Tujuan RL
Maksimalisasi cumulative expected reward:

\[
$G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1}$
\]

Agent belajar policy 𝜋(𝑎∣𝑠) yang memaksimalkan nilai tersebut.


##  Fungsi Nilai (Value Function)

### State Value Function:

\[
$V^\pi(s) = \mathbb{E}_\pi [G_t | S_t = s]$
\]

###  Action Value Function (Q-Value):

\[
$Q^\pi(s, a) = \mathbb{E}_\pi [G_t | S_t = s, A_t = a]$
\]

## Persamaan Bellman

### Untuk \($ V^\pi(s) $\):

\[
$V^\pi(s) = \sum_{a} \pi(a|s) \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma V^\pi(s')]$
\]

### Untuk \($ Q^\pi(s,a) $\):

\[
$Q^\pi(s,a) = \sum_{s'} P(s'|s,a) [R(s,a,s') + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s',a')]$
\]


## Pendekatan Policy-Based vs Value-Based
* Policy-based: langsung mempelajari policy π (contoh: REINFORCE, PPO)

* Value-based: mempelajari fungsi nilai terlebih dahulu, lalu menurunkan policy (contoh: Q-Learning, DQN)

## Q-Learning
Algoritma off-policy yang memperbarui nilai Q sebagai berikut:

\[
$Q(s,a) \leftarrow Q(s,a) + \alpha [r + \gamma \max_{a'} Q(s', a') - Q(s,a)]$
\]

* \($ \alpha $\): learning rate

---

##  Deep Q-Network (DQN)
Menggunakan Neural Network untuk mengaproksimasi fungsi Q:

\[
$Q(s, a; \theta) \approx Q^\ast(s, a)$
\]

Fitur penting:

* Experience Replay: menyimpan pengalaman dalam buffer untuk pelatihan batch

* Target Network: menjaga stabilitas dengan parameter target yang tidak berubah cepat

##  Policy Gradient

Secara langsung mengoptimalkan parameter policy \($ \theta $\):

\[
$\nabla_\theta J(\theta) = \mathbb{E}_\pi [\nabla_\theta \log \pi_\theta(a|s) Q^\pi(s,a)]$
\]

Contoh: algoritma REINFORCE


##  Actor–Critic

Gabungkan:
* Actor: memperbarui policy \($ \pi $\)
* Critic: mengevaluasi policy melalui fungsi nilai

Lebih stabil dibandingkan metode policy gradient murni.

##  Advantage Function

Mengukur keunggulan suatu aksi dibandingkan ekspektasi rata-rata dari state:

\[
$A(s,a) = Q(s,a) - V(s)$
\]

Digunakan dalam algoritma seperti A2C dan PPO

## Algoritma Modern dalam RL
* DQN: berbasis nilai, menggunakan Deep Learning

* Double DQN: mengurangi estimasi berlebih pada Q-value

* Dueling DQN: memisahkan perhitungan nilai state dan keunggulan aksi

* PPO (Proximal Policy Optimization): policy gradient yang stabil dan efisien

* A2C / A3C: Actor–Critic paralel untuk efisiensi pelatihan

# **Kesimpulan**
* RL adalah paradigma pembelajaran berbasis interaksi agen dengan lingkungan dan feedback berupa reward

* Tujuan utama adalah menemukan policy optimal yang memaksimalkan reward kumulatif

* Pendekatan yang tersedia mencakup Q-learning, policy gradient, dan actor–critic

* Deep Reinforcement Learning memungkinkan penyelesaian masalah kompleks seperti game dan kontrol robotik

# **Referensi**
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.

