<a href="https://colab.research.google.com/github/smnizza/machine-learning-guide/blob/main/RL_Q_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Q-Learning – Pembelajaran Berbasis Nilai Q

Q-Learning adalah algoritma **Reinforcement Learning** yang digunakan untuk menemukan kebijakan optimal dalam pengambilan keputusan berbasis nilai **Q**.

## Konsep Dasar Q-Learning
- **Agent**: Entitas yang belajar dari lingkungan.
- **State (S)**: Kondisi tempat agent berada.
- **Action (A)**: Pilihan yang bisa diambil oleh agent.
- **Reward (R)**: Feedback dari lingkungan setelah agent melakukan aksi.
- **Q-Table**: Tabel yang menyimpan nilai Q untuk setiap state-action pair.

## Formula Q-Learning
$$
Q(s, a) = Q(s, a) + \alpha [r + \gamma \max Q(s', a') - Q(s, a)]
$$
di mana:
- $\alpha$ = Learning Rate
- $\gamma$ = Discount Factor
- $r$ = Reward
- $s'$ = State berikutnya

## Implementasi Q-Learning pada Lingkungan GridWorld
Kita akan menggunakan OpenAI Gym untuk mensimulasikan lingkungan GridWorld.

In [4]:
import numpy as np
import gym

# Membuat lingkungan FrozenLake dari OpenAI Gym
env = gym.make("FrozenLake-v1", is_slippery=False)  # Grid 4x4

In [5]:
# Inisialisasi Q-table dengan nilai nol
Q_table = np.zeros([env.observation_space.n, env.action_space.n])

# Hyperparameters
alpha = 0.1   # Learning rate
gamma = 0.9   # Discount factor
epsilon = 1.0 # Exploration-exploitation trade-off
epsilon_decay = 0.99
episodes = 1000

## Inisialisasi Parameter Q-Learning
- **Q-table** digunakan untuk menyimpan nilai Q untuk setiap state-action pair.
- **α (alpha)** mengontrol seberapa cepat pembelajaran.
- **γ (gamma)** menentukan seberapa jauh reward masa depan dipertimbangkan.
- **ε (epsilon)** mengontrol eksplorasi vs eksploitasi.

In [8]:
for episode in range(episodes):
    state = env.reset()[0]  # Reset lingkungan and extract the observation
    done = False

    while not done:
        # Pilih aksi (Eksplorasi atau Eksploitasi)
        if np.random.rand() < epsilon:
            action = env.action_space.sample()  # Eksplorasi
        else:
            action = np.argmax(Q_table[state])  # Eksploitasi

        # Ambil aksi dan dapatkan feedback dari lingkungan
        new_state, reward, done, truncated, info = env.step(action)
        done = bool(done)


        # Update Q-value berdasarkan rumus Q-Learning
        Q_table[state, action] = Q_table[state, action] + alpha * \
            (reward + gamma * np.max(Q_table[new_state]) - Q_table[state, action])

        state = new_state  # Pindah ke state berikutnya

    # Kurangi epsilon untuk lebih banyak eksploitasi setelah eksplorasi cukup
    epsilon *= epsilon_decay

## Training dengan Q-Learning
- **Eksplorasi**: Agent mencoba aksi acak untuk menemukan solusi baru.
- **Eksploitasi**: Agent memilih aksi terbaik berdasarkan Q-table.
- **Epsilon Decay**: Semakin lama agent belajar, semakin sedikit eksplorasi.

In [9]:
# Evaluasi hasil pembelajaran
total_reward = 0
test_episodes = 100

for _ in range(test_episodes):
    state = env.reset()[0]
    done = False

    while not done:
        action = np.argmax(Q_table[state])  # Pilih aksi terbaik
        state, reward, done, _, _ = env.step(action)
        total_reward += reward

print(f"Persentase keberhasilan: {total_reward / test_episodes * 100:.2f}%")

Persentase keberhasilan: 100.00%


## Evaluasi Hasil Q-Learning
- Agent diuji dalam 100 episode.
- Persentase keberhasilan menunjukkan seberapa baik agent mempelajari kebijakan optimal.

## Kesimpulan
- **Q-Learning** adalah metode pembelajaran berbasis nilai yang mencari kebijakan optimal dalam pengambilan keputusan.
- Algoritma ini berguna untuk **pathfinding**, **robotics**, dan **game AI**.
- Untuk masalah yang lebih kompleks, **Deep Q-Network (DQN)** digunakan.

### **Pengembangan Lebih Lanjut**
- **Deep Q-Learning (DQN)** untuk lingkungan yang lebih kompleks.
- **Multi-Agent Q-Learning** untuk sistem dengan banyak agen.