
# Chapter 18: Reinforcement Learning

## 1. Pendahuluan

Reinforcement Learning (RL) adalah cabang Machine Learning di mana agen belajar melalui interaksi dengan lingkungan untuk memaksimalkan cumulative reward. Berbeda dengan supervised learning yang memiliki label tetap, RL menggunakan trial and error.

Contoh aplikasi RL:
- Game AI (AlphaGo, Atari)
- Robotik (navigasi, manipulasi)
- Sistem rekomendasi adaptif



## 2. Terminologi Dasar

Elemen dasar Reinforcement Learning:

- Agent: Entitas yang belajar dan membuat keputusan.
- Environment: Dunia tempat agent berinteraksi.
- State (S): Situasi saat ini.
- Action (A): Tindakan yang dapat diambil agent.
- Reward (R): Nilai umpan balik dari environment.
- Policy (π): Strategi yang menentukan aksi berdasarkan state.
- Value Function (V): Estimasi reward jangka panjang dari suatu state.
- Q-Value (Q): Estimasi reward jangka panjang dari kombinasi state-action.



## 3. Markov Decision Process (MDP)

RL sering diformalkan sebagai Markov Decision Process (MDP):
- MDP didefinisikan sebagai tuple (S, A, P, R, γ)
  - S: Set state
  - A: Set action
  - P(s'|s,a): Probabilitas transisi ke state s'
  - R(s,a): Reward saat action a diambil di state s
  - γ: Discount factor

Tujuan: Temukan policy π yang memaksimalkan Expected Return.



## 4. Bellman Equation

Value Function didefinisikan:

$V^π(s) = Eπ [ R_{t+1} + γ V^π(S_{t+1}) | S_t = s ]$

Bellman Optimality Equation:

$V*(s) = max_a E [ R_{t+1} + γ V*(S_{t+1}) | S_t = s, A_t = a ]$



## 5. Policy Iteration

Policy Iteration adalah algoritma iteratif untuk menemukan policy optimal.

Langkah:
1. Policy Evaluation: Hitung $V^π$ untuk policy π
2. Policy Improvement: Perbarui policy dengan memilih action terbaik berdasarkan $V^π$

Ulangi sampai policy konvergen.



## 6. Value Iteration

Alternatif Policy Iteration adalah Value Iteration: memperbarui Value Function langsung dengan Bellman Optimality.

Update:

$V_{k+1}(s) = max_a E [ R_{t+1} + γ V_k(S_{t+1}) ]$

Value Iteration sering lebih cepat dari Policy Iteration untuk masalah besar.



## 7. Q-Learning

Q-Learning adalah algoritma off-policy untuk belajar Q-Value optimal.

Update rule:

$Q(s,a) ← Q(s,a) + α [ r + γ max_{a'} Q(s', a') - Q(s,a) ]$

Dimana:
- α: Learning rate
- r: Reward
- s': Next state

Q-Learning tidak perlu model probabilitas transisi.



## 8. SARSA

SARSA mirip Q-Learning tetapi on-policy: update Q-Value menggunakan aksi yang benar-benar diambil agent.

Update rule:

$Q(s,a) ← Q(s,a) + α [ r + γ Q(s', a') - Q(s,a) ]$



## 9. Exploration vs Exploitation

Agen harus menyeimbangkan:
- Exploration: Mencoba aksi baru untuk pengetahuan baru.
- Exploitation: Memilih aksi terbaik berdasarkan pengalaman saat ini.

Metode umum:
- ε-greedy: Dengan probabilitas ε, pilih aksi acak; sisanya pilih aksi terbaik.



## 10. Deep Q-Network (DQN)

Untuk state besar/kompleks (misalnya gambar), Q-Value diaproksimasi dengan jaringan saraf. Algoritma ini disebut Deep Q-Network (DQN).

Komponen penting DQN:
- Experience Replay Buffer: Menyimpan pengalaman untuk sampling acak.
- Target Network: Jaringan Q kedua untuk stabilitas update.



## 11. Contoh Kode Q-Learning Sederhana


In [None]:

import numpy as np

n_states = 5
n_actions = 2
Q = np.zeros((n_states, n_actions))
alpha = 0.1
gamma = 0.9
epsilon = 0.1

for episode in range(1000):
    state = np.random.randint(0, n_states)
    for step in range(50):
        if np.random.rand() < epsilon:
            action = np.random.randint(0, n_actions)
        else:
            action = np.argmax(Q[state])

        next_state = np.random.randint(0, n_states)
        reward = np.random.randn()

        Q[state, action] += alpha * (
            reward + gamma * np.max(Q[next_state]) - Q[state, action]
        )

        state = next_state



## 12. Aplikasi dan Tantangan

RL banyak digunakan pada:
- Game dan simulasi (AlphaZero)
- Robot navigasi
- Sistem kontrol otomatis

Tantangan utama:
- Data sample inefficiency (butuh banyak iterasi)
- Stabilitas training (terutama dengan deep RL)
- Eksplorasi di state space besar
