# Ringkasan Pembelajaran Penguatan dan Persamaan Bellman

Mari kita rangkum di mana kita berada. Jika Anda dapat menghitung **state action value function** \( Q(S, A) \), maka Anda akan memiliki cara untuk memilih aksi yang baik dari setiap keadaan. Cukup pilih aksi \( A \) yang memberikan nilai terbesar dari \( Q(S, A) \). Pertanyaannya adalah, bagaimana cara Anda menghitung nilai-nilai \( Q(S, A) \)?

Dalam **reinforcement learning**, ada satu persamaan kunci yang disebut **Bellman Equation** yang akan membantu kita menghitung **state action value function**. Mari kita lihat apa persamaan ini.

## Definisi \( Q(S, A) \)

Sebagai pengingat, ini adalah definisi dari \( Q(S, A) \). Ini adalah *return* jika kita mulai di state \( S \), mengambil aksi \( A \) sekali dan kemudian berperilaku optimal setelah itu. Untuk menjelaskan **Bellman Equation**, saya akan menggunakan notasi berikut:

- **S**: Menunjukkan state saat ini.
- **R(S)**: Menunjukkan reward dari state saat ini.
- **A**: Menunjukkan aksi yang diambil di state \( S \).
- **S'**: Menunjukkan state baru setelah mengambil aksi \( A \).
- **A'**: Menunjukkan aksi yang mungkin Anda ambil di state \( S' \).

Konvensi notasi, \( S, A \) berkorespondensi dengan state dan aksi saat ini. Ketika kita menambahkan tanda prime, itu adalah state dan aksi berikutnya.

## Persamaan Bellman

**Bellman Equation** adalah sebagai berikut:

\[
Q(S, A) = R(S) + \gamma \max_{A'} Q(S', A')
\]

Di mana:
- \( R(S) \): Reward yang Anda dapatkan untuk berada di state tersebut.
- \( \gamma \): Discount factor.
- \( \max_{A'} Q(S', A') \): Nilai maksimum dari semua aksi yang mungkin dilakukan dari state baru \( S' \).

## Contoh

Mari kita lihat contoh dengan **State 2** dan aksi untuk bergerak ke kanan:

- Jika state saat ini adalah **State 2** dan aksinya adalah pergi ke kanan, maka state berikutnya \( S' \) adalah **State 3**.
  
Maka kita dapat menerapkan **Bellman Equation**:

\[
Q(2, \text{right}) = R(2) + \gamma \max_{A'} Q(3, A')
\]

Dengan \( R(2) = 0 \), \( \gamma = 0.5 \), dan \( \max(Q(3, \text{A'})) = \max(25, 6.25) = 25 \):

\[
Q(2, \text{right}) = 0 + 0.5 \times 25 = 12.5
\]

Sekarang, mari kita lihat contoh lainnya dengan **State 4** dan aksi untuk pergi ke kiri:

- Jika state saat ini adalah **State 4** dan aksinya adalah pergi ke kiri, maka \( S' \) juga akan menjadi **State 3**.

\[
Q(4, \text{left}) = R(4) + \gamma \max_{A'} Q(3, A')
\]

Dengan \( R(4) = 0 \), \( \gamma = 0.5 \), dan \( \max(Q(3, A')) = 25 \):

\[
Q(4, \text{left}) = 0 + 0.5 \times 25 = 12.5
\]

## Keadaan Terminal

Jika Anda berada di **terminal state**, maka **Bellman Equation** menyederhanakan menjadi:

\[
Q(S, A) = R(S)
\]

Karena tidak ada state \( S' \) dan sehingga istilah kedua akan hilang. Misalnya, \( Q(S, A) \) di terminal state adalah 100, 100 atau 40, 40.

## Intuisi dari Bellman Equation

Intuisi yang ditangkap oleh persamaan ini adalah bahwa jika Anda mulai dari state \( S \) dan akan mengambil aksi \( A \) dan kemudian berperilaku optimal setelah itu, maka Anda akan melihat urutan reward seiring waktu. Total *return* akan dihitung dari reward di langkah pertama, ditambah \( \gamma \) kali reward di langkah kedua, dan seterusnya.

### Pembagian Total Return

Total return memiliki dua bagian:
1. **Reward yang Anda dapatkan langsung**: \( R(S) \)
2. **Return dari state berikutnya \( S' \)**: \( \gamma \times \text{Return dari } S' \)

Dengan dua komponen ini bersama-sama, \( R(S) + \gamma \times \text{Return dari } S' \) sama dengan total return dari state saat ini \( S \).

## Kesimpulan

Sebagai kesimpulan, **Bellman Equation** adalah cara untuk menghitung nilai dari **state action value function** dengan membagi total return menjadi reward yang didapat langsung dan reward yang akan didapat dari state berikutnya. Jika ini terasa rumit, tidak perlu khawatir. Selama Anda menerapkan persamaan ini, Anda akan mendapatkan hasil yang tepat.

Sebelum melanjutkan untuk mengembangkan algoritma **reinforcement learning**, kami akan memiliki video opsional tentang **Stochastic Markov Decision Processes** atau aplikasi **reinforcement learning** di mana aksi yang diambil dapat memiliki efek yang sedikit acak. Silakan tonton video opsional tersebut jika Anda mau. Setelah itu, kita akan mulai mengembangkan algoritma **reinforcement learning**.

![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
![image-4.png](attachment:image-4.png)