# Bab 18: Reinforcement Learning (Pembelajaran Penguatan)

### 1. Pendahuluan

Bab 18 memperkenalkan **Reinforcement Learning (RL)**, paradigma *Machine Learning* yang fundamental berbeda dari *supervised* dan *unsupervised learning*. Dalam RL, sebuah **agen (agent)** belajar bagaimana berperilaku dalam lingkungan dengan melakukan tindakan dan menerima **hadiah (rewards)** atau **hukuman (penalties)**. Tujuannya adalah untuk memaksimalkan total hadiah kumulatif dari waktu ke waktu. RL adalah bidang yang sangat aktif dan telah mencapai keberhasilan luar biasa, terutama dalam permainan (misalnya, AlphaGo, Dota 2) dan robotika.

**Komponen Utama RL:**
* **Agen (Agent):** Pembelajar atau pembuat keputusan.
* **Lingkungan (Environment):** Dunia tempat agen berinteraksi.
* **Tindakan (Actions):** Pilihan yang dapat diambil agen.
* **Keadaan (State):** Deskripsi saat ini dari lingkungan.
* **Hadiah (Reward):** Umpan balik numerik dari lingkungan setelah tindakan.
* **Kebijakan (Policy):** Strategi agen, memetakan keadaan ke tindakan.

### 2. Pembelajaran Penguatan vs Pembelajaran Lainnya (Reinforcement Learning vs. Other Types of Learning)

* **Supervised Learning:** Belajar dari data berlabel. RL tidak memiliki label eksplisit; umpan baliknya adalah hadiah, yang bisa tertunda.
* **Unsupervised Learning:** Mencari pola dalam data tanpa label. RL memiliki tujuan (memaksimalkan hadiah) dan berinteraksi secara dinamis.

### 3. Kebijakan Optimal (Optimal Policy)

Tujuan utama RL adalah menemukan **kebijakan optimal** yang akan memaksimalkan total hadiah jangka panjang (seringkali dengan diskon untuk hadiah di masa depan).

#### a. Fungsi Nilai Tindakan (Action-Value Function - Q-Value)
Fungsi nilai tindakan (sering disebut **Q-value**) adalah fungsi yang mengestimasi total hadiah diskon yang diharapkan yang akan diterima agen jika ia mengambil tindakan $a$ dalam keadaan $s$, kemudian mengikuti kebijakan optimal setelah itu.
$Q^{\ast}(s, a) = \text{max total discounted future rewards if taking action } a \text{ in state } s \text{ and then following the optimal policy.}$

#### b. Persamaan Bellman (Bellman Equation)
Persamaan Bellman adalah hubungan fundamental dalam RL yang secara rekursif mendefinisikan Q-value optimal:
$Q^{\ast}(s, a) = R(s, a) + \gamma \sum_{s'} P(s' | s, a) \max_{a'} Q^{\ast}(s', a')$
di mana:
* $R(s, a)$ adalah hadiah instan setelah mengambil tindakan $a$ dalam keadaan $s$.
* $\gamma$ (gamma) adalah **faktor diskon** (discount factor), nilai antara 0 dan 1. Hadiah di masa depan didiskon agar nilainya berkurang seiring waktu.
* $P(s' | s, a)$ adalah probabilitas transisi dari keadaan $s$ ke $s'$ setelah mengambil tindakan $a$.
* $\max_{a'} Q^{\ast}(s', a')$ adalah Q-value optimal dari keadaan berikutnya $s'$.

### 4. Algoritma RL (RL Algorithms)

Bab ini kemudian membahas beberapa algoritma RL penting:

#### a. Q-Learning

Q-Learning adalah algoritma RL *off-policy* (yaitu, dapat mempelajari kebijakan optimal bahkan saat mengikuti kebijakan eksplorasi yang berbeda) dan *model-free* (tidak memerlukan model lingkungan).

* **Prinsip Kerja:** Agen membangun **Q-Table** (tabel Q) yang menyimpan Q-value untuk setiap pasangan (keadaan, tindakan).
* **Update Q-value:** Pada setiap langkah, agen mengambil tindakan $a$ dalam keadaan $s$, mengamati hadiah $r$ dan keadaan baru $s'$. Kemudian ia memperbarui Q-value-nya menggunakan persamaan:
    $Q(s, a) \leftarrow (1 - \alpha) Q(s, a) + \alpha (r + \gamma \max_{a'} Q(s', a'))$
    di mana $\alpha$ (alpha) adalah *learning rate*.
* **Epsilon-Greedy Policy:** Untuk eksplorasi, agen sering mengikuti kebijakan *epsilon-greedy*: dengan probabilitas $\epsilon$, agen memilih tindakan acak; jika tidak, agen memilih tindakan dengan Q-value tertinggi (eksploitasi). $\epsilon$ biasanya dimulai tinggi dan berkurang seiring waktu.

#### b. Approximate Q-Learning and Deep Q-Networks (DQN)

Untuk masalah dengan ruang keadaan yang besar atau kontinu, Q-Table tidak praktis. Solusinya adalah menggunakan **Jaringan Saraf Tiruan (ANN)** sebagai fungsi perkiraan (function approximator) untuk Q-value. Ini adalah inti dari **Deep Q-Networks (DQNs)**.

* **DQN:** ANN mengambil keadaan sebagai input dan mengembalikan Q-value untuk semua tindakan yang mungkin sebagai output.
* **Experience Replay:** DQNs menggunakan buffer *experience replay* untuk menyimpan transisi (keadaan, tindakan, hadiah, keadaan baru). Selama pelatihan, *mini-batch* diambil secara acak dari buffer ini. Ini membantu:
    * Mengurangi korelasi antar sampel (melanggar asumsi i.i.d. untuk *Gradient Descent*).
    * Memungkinkan penggunaan kembali pengalaman masa lalu.
* **Target Network:** DQNs menggunakan dua jaringan: *online network* (yang terus diperbarui) dan *target network* (salinan *online network* yang diperbarui lebih jarang). Ini membantu menstabilkan pelatihan dengan memberikan target Q-value yang lebih stabil.

#### c. Kebijakan Gradien (Policy Gradients - PG)

Berbeda dengan Q-Learning yang mempelajari fungsi nilai, algoritma *Policy Gradients* langsung mempelajari **kebijakan** yang memetakan keadaan ke probabilitas tindakan.

* **Prinsip Kerja:** Jaringan saraf (Policy Network) mengambil keadaan sebagai input dan mengembalikan probabilitas untuk setiap tindakan sebagai output.
* **Update Kebijakan:** Jaringan dilatih untuk meningkatkan probabilitas tindakan yang mengarah pada hadiah yang lebih tinggi dan mengurangi probabilitas tindakan yang mengarah pada hadiah yang lebih rendah. Ini dilakukan dengan menghitung *gradient* dari *score* kinerja (seringkali total hadiah) terhadap parameter kebijakan.
* **Keuntungan:** Dapat menangani ruang tindakan diskrit dan kontinu, dan dapat mempelajari kebijakan stokastik.
* **REINFORCE Algorithm:** Algoritma PG dasar yang menggunakan Monte Carlo untuk mengestimasi total hadiah.

#### d. Actor-Critic Methods (Metode Aktor-Kritik)

Metode Actor-Critic menggabungkan ide-ide dari Policy Gradients (Actor) dan Q-Learning (Critic).

* **Actor:** Jaringan saraf yang mempelajari kebijakan (mirip Policy Network).
* **Critic:** Jaringan saraf yang mempelajari fungsi nilai (mirip DQN), mengestimasi Q-value atau V-value (nilai keadaan).
* **Interaksi:** Critic memberikan umpan balik (sinyal *error* Temporal-Difference) kepada Actor untuk membimbing pembelajaran kebijakan Actor. Actor menyesuaikan tindakannya berdasarkan umpan balik Critic.
* **Keuntungan:** Seringkali lebih stabil dan efisien daripada Policy Gradients murni karena Critic mengurangi *variance* estimasi hadiah.
* **A2C (Advantage Actor-Critic) / A3C (Asynchronous Advantage Actor-Critic):** Algoritma Actor-Critic populer. A3C menggunakan beberapa agen paralel untuk eksplorasi yang lebih efisien.

#### e. Proximal Policy Optimization (PPO)

PPO adalah salah satu algoritma RL *state-of-the-art* yang paling populer dan seimbang. Ini adalah algoritma *on-policy* (belajar dari pengalaman yang dikumpulkan dengan kebijakan saat ini) dan merupakan ekstensi dari Actor-Critic.

* **Keuntungan:** Relatif sederhana untuk diimplementasikan, berkinerja baik dalam berbagai tugas, dan lebih stabil daripada banyak algoritma PG lainnya. Ini membatasi seberapa banyak kebijakan dapat berubah pada setiap langkah, yang membantu menstabilkan pelatihan.

### 5. Open AI Gym

OpenAI Gym adalah toolkit yang banyak digunakan untuk mengembangkan dan membandingkan algoritma RL. Ini menyediakan berbagai lingkungan simulasi (misalnya, permainan papan, masalah robotika) dengan antarmuka standar. Ini adalah lingkungan yang ideal untuk menguji algoritma RL.

### 6. Kesimpulan

Bab 18 memberikan pengantar yang komprehensif dan mendalam untuk Reinforcement Learning, dari konsep dasar agen, lingkungan, hadiah, dan kebijakan, hingga algoritma kunci seperti Q-Learning (termasuk DQN dengan *experience replay* dan *target networks*), Policy Gradients (REINFORCE), Actor-Critic (A2C/A3C), dan PPO. Pemahaman tentang OpenAI Gym sebagai platform standar untuk eksperimen RL juga ditekankan. Bab ini menjelaskan mengapa RL adalah bidang yang menarik dan menjanjikan, terutama untuk masalah yang melibatkan pengambilan keputusan berurutan dalam lingkungan yang dinamis.

## 1. Setup

In [11]:
# Untuk instalasi OpenAI Gym (dasar):
%pip install gym

# Untuk lingkungan spesifik (misalnya, Box2D untuk LunarLander, atau rendering):
%pip install 'gym[classic_control]'
%pip install 'gym[box2d]'
%pip install pyglet # Or pygame, for rendering if you need it

Collecting pygame==2.1.0 (from gym[classic_control])
  Downloading pygame-2.1.0.tar.gz (5.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.8/5.8 MB[0m [31m48.0 MB/s[0m eta [36m0:00:00[0m
[?25h  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mpython setup.py egg_info[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m See above for output.
  
  [1;35mnote[0m: This error originates from a subprocess, and is likely not a problem with pip.
  Preparing metadata (setup.py) ... [?25l[?25herror
[1;31merror[0m: [1mmetadata-generation-failed[0m

[31m×[0m Encountered error while generating package metadata.
[31m╰─>[0m See above for output.

[1;35mnote[0m: This is an issue with the package mentioned above, not pip.
[1;36mhint[0m: See above for details.
Collecting box2d-py==2.3.5 (from gym[box2d])
  Downloading box2d-py-2.3.5.tar.gz (374 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m

In [12]:
import tensorflow as tf
from tensorflow import keras
import numpy as np
import matplotlib.pyplot as plt
import os
import gym # OpenAI Gym

## 2. The CartPole Environment (Example)

In [13]:
env = gym.make("CartPole-v1")
env.seed(42) # Set seed for reproducibility
env.reset()

  deprecation(
  deprecation(
  deprecation(


array([ 0.0273956 , -0.00611216,  0.03585979,  0.0197368 ], dtype=float32)

In [14]:
# Observation space (e.g., cart position, velocity, pole angle, angular velocity)
env.observation_space

Box([-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], [4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38], (4,), float32)

In [15]:
# Action space (e.g., push left, push right)
env.action_space

Discrete(2)

### Playing a few episodes (example of interaction)

In [17]:
# Running one random episode
frames = []
for step in range(200): # Max steps for CartPole-v1 is 500
    img = env.render(mode="rgb_array")
    frames.append(img)
    action = env.action_space.sample() # Take a random action
    obs, reward, done, info = env.step(action)
    if done:
        break

env.close() # Close the rendering window

See here for more information: https://www.gymlibrary.ml/content/api/[0m
  deprecation(


## 3. Policy Gradients (REINFORCE Algorithm for CartPole)

In [18]:
# Build a simple Policy Network
keras.backend.clear_session()
tf.random.set_seed(42)
np.random.seed(42)

n_inputs = 4 # Number of observations in CartPole-v1
n_outputs = 2 # Number of possible actions (left or right)

model_pg = keras.models.Sequential([
    keras.layers.Dense(32, activation="relu", kernel_initializer="he_normal"),
    keras.layers.Dense(n_outputs, activation="softmax") # Output probabilities for each action
])

### Defining a custom training step for REINFORCE

In [25]:
def play_one_step(env, obs, model, loss_fn):
    with tf.GradientTape() as tape:
        # Predict action probabilities
        logits = model(obs[np.newaxis]) # Add batch dimension
        action_probs = tf.nn.softmax(logits)

        # Sample an action based on probabilities
        action = tf.random.categorical(tf.math.log(action_probs), num_samples=1)[0, 0].numpy()

        # Execute action in environment
        new_obs, reward, done, info = env.step(action)

        # Calculate loss (policy gradient loss)
        # We want to increase the probability of the chosen action if it leads to high reward.
        # This is a bit tricky: it's a "pseudo-loss" that we will multiply by advantage later.
        # The loss should be the negative log probability of the chosen action
        # We'll use this 'pseudo-loss' and multiply by the advantage later in the training loop
        chosen_action_prob = action_probs[0, action]
        # Add a small epsilon to avoid log(0)
        pseudo_loss = -tf.math.log(chosen_action_prob + 1e-8)


    return new_obs, reward, done, action, pseudo_loss # Return pseudo_loss

# Function to play multiple episodes and gather experiences
def play_multiple_episodes(env, n_episodes, model, loss_fn):
    all_rewards = [] # List of lists, each inner list is rewards for one episode
    all_losses = [] # List of lists, each inner list is pseudo_losses for one episode
    for episode in range(n_episodes):
        current_rewards = [] # Rewards for the current episode
        current_losses = []  # Pseudo_losses for the current episode
        obs = env.reset()
        # Ensure obs is a numpy array if it's not already
        if not isinstance(obs, np.ndarray):
            obs = np.array(obs)

        for step in range(200): # Max steps per episode
            obs, reward, done, action, pseudo_loss = play_one_step(env, obs, model, loss_fn)
            current_rewards.append(reward)
            current_losses.append(pseudo_loss)
            if done:
                break
        all_rewards.append(current_rewards) # Append list of rewards for this episode
        all_losses.append(current_losses)   # Append list of pseudo_losses for this episode
    return all_rewards, all_losses

# Function to discount and normalize rewards (advantage calculation)
def discount_and_normalize_rewards(rewards, discount_factor):
    discounted_rewards = np.array(rewards)
    # Apply discount factor from the end to the beginning
    for step in range(len(rewards) - 2, -1, -1):
        discounted_rewards[step] += discounted_rewards[step + 1] * discount_factor

    # Normalize rewards (optional but common for stability)
    # Avoid division by zero if std is zero
    discounted_rewards = (discounted_rewards - discounted_rewards.mean()) / (discounted_rewards.std() + 1e-8)
    return discounted_rewards

### Training Loop for REINFORCE

In [27]:
optimizer = keras.optimizers.Adam(learning_rate=0.01)
# Loss function for policy gradient (custom, as it's weighted by advantage)
# The actual "loss" in REINFORCE is the negative of the policy gradient objective,
# and it needs to be multiplied by the advantage (discounted reward).
# Keras requires a loss function, so we define one that will be scaled later.
# We are not using this pg_loss_fn directly in model.compile, but the concept
# of the loss being -log_prob * advantage is implemented in the training loop.
# We define a placeholder or conceptual loss function here if needed by some Keras utilities,
# but for our custom tape-based training, we'll calculate the objective directly.
def pg_loss_fn(y_true, y_pred):
    # This function is conceptually used in play_one_step to get the log probability of the chosen action.
    # The actual loss with advantage is calculated in the training loop.
    # y_true is not used in the typical sense here; y_pred are the action probabilities.
    # play_one_step calculates the pseudo_loss which is -log_prob(chosen_action)
    return tf.constant(0.0) # Placeholder, as the actual loss is calculated in the training loop


# Compile the model (though we'll use a custom training step)
# model_pg.compile(loss=pg_loss_fn, optimizer=optimizer) # We will use a custom training loop

# Training loop
n_iterations = 100
n_episodes_per_iteration = 10 # Number of episodes to play to collect experience
discount_factor = 0.95

# Initialize the environment here if not already initialized
# import gym
# env = gym.make("CartPole-v1") # Make sure the environment is created

for iteration in range(n_iterations):
    # Collect experiences
    # We need to collect observations, actions, and rewards
    all_rewards = [] # List of lists, each inner list is rewards for one episode
    all_actions = [] # List of lists, each inner list is actions for one episode
    all_observations = [] # List of lists, each inner list is observations for one episode

    for episode in range(n_episodes_per_iteration):
        current_rewards = []
        current_actions = []
        current_observations = []
        obs = env.reset()
        if not isinstance(obs, np.ndarray):
            obs = np.array(obs)

        for step in range(200): # Max steps per episode
            # Collect observation before taking action
            current_observations.append(obs)

            # Predict action probabilities - this will now happen inside the tape later
            logits = model_pg(obs[np.newaxis]) # Still need logits here to sample action
            action_probs = tf.nn.softmax(logits)

            # Sample an action based on probabilities
            action = tf.random.categorical(tf.math.log(action_probs), num_samples=1)[0, 0].numpy()
            current_actions.append(action)

            # Execute action in environment
            obs, reward, done, info = env.step(action)
            current_rewards.append(reward)

            if done:
                break

        all_rewards.append(current_rewards)
        all_actions.append(current_actions)
        all_observations.append(current_observations)


    # Flatten data across episodes
    all_actions_flat = np.concatenate(all_actions)
    all_observations_flat = np.concatenate(all_observations, axis=0)


    # Calculate advantages by processing each episode's step rewards
    discounted_rewards_per_episode = [discount_and_normalize_rewards(rewards, discount_factor) for rewards in all_rewards]
    discounted_rewards_flat = np.concatenate(discounted_rewards_per_episode)


    # Perform one optimization step
    with tf.GradientTape() as tape:
        # Need to re-run the forward pass for all collected observations within the tape
        # This allows the tape to track the gradients from the model's output to the loss
        all_logits = model_pg(tf.constant(all_observations_flat, dtype=tf.float32))
        all_action_probs = tf.nn.softmax(all_logits)

        # Get the probabilities of the actions that were actually taken
        # We need to select the probability of the chosen action for each step
        # Use tf.gather_nd or equivalent to select probabilities based on chosen actions
        action_indices = tf.stack([tf.range(tf.shape(all_actions_flat)[0]), tf.constant(all_actions_flat, dtype=tf.int32)], axis=1)
        chosen_action_probs = tf.gather_nd(all_action_probs, action_indices)

        # Calculate the pseudo_loss for each step (-log_prob(chosen_action))
        pseudo_losses = -tf.math.log(chosen_action_probs + 1e-8)


        # The objective is sum((log_prob * advantage))
        # which is equivalent to minimizing sum((-log_prob) * advantage) = sum(pseudo_loss * advantage)
        # We want to maximize the objective, so we minimize the negative objective:
        # Minimize -sum(pseudo_loss * advantage)
        objective = tf.reduce_sum(pseudo_losses * tf.constant(discounted_rewards_flat, dtype=tf.float32)) # Note: the sign is positive here to minimize -objective


        gradients = tape.gradient(objective, model_pg.trainable_variables)

    optimizer.apply_gradients(zip(gradients, model_pg.trainable_variables))

    if iteration % 10 == 0:
        # Calculate the mean total reward per episode for printing
        mean_reward = np.mean([np.sum(rewards) for rewards in all_rewards])
        print(f"Iteration {iteration}, Mean Reward: {mean_reward}")
        if mean_reward >= 195: # CartPole-v1 solved threshold
            print("CartPole-v1 solved!")
            break

Iteration 0, Mean Reward: 17.4
Iteration 10, Mean Reward: 22.5
Iteration 20, Mean Reward: 39.2
Iteration 30, Mean Reward: 43.1
Iteration 40, Mean Reward: 88.2
Iteration 50, Mean Reward: 75.9
Iteration 60, Mean Reward: 61.8
Iteration 70, Mean Reward: 81.3
Iteration 80, Mean Reward: 99.5
Iteration 90, Mean Reward: 66.3


## 4. Deep Q-Networks (DQN) (Conceptual/Structure)

In [28]:
# Build a DQN (Q-Network)
keras.backend.clear_session()
tf.random.set_seed(42)
np.random.seed(42)

input_shape_dqn = [4] # CartPole observation space
n_outputs_dqn = 2 # CartPole action space

q_model = keras.models.Sequential([
    keras.layers.Dense(32, activation="relu", input_shape=input_shape_dqn),
    keras.layers.Dense(32, activation="relu"),
    keras.layers.Dense(n_outputs_dqn) # Output Q-values for each action
])

# Target network (a copy of the online network)
# target_q_model = keras.models.clone_model(q_model)
# target_q_model.set_weights(q_model.get_weights())

# Experience Replay Buffer (Conceptual)
# from collections import deque
# replay_buffer = deque(maxlen=20000) # Max 20,000 experiences

# Epsilon-greedy policy function
# def epsilon_greedy_policy(obs, epsilon):
#     if np.random.rand() < epsilon:
#         return env.action_space.sample()
#     else:
#         q_values = q_model.predict(obs[np.newaxis])
#         return np.argmax(q_values[0])

# Training loop for DQN is more complex and involves:
# 1. Experience collection
# 2. Sampling from replay buffer
# 3. Training the online Q-network using the target network
# 4. Periodically updating the target network weights

  super().__init__(activity_regularizer=activity_regularizer, **kwargs)
