# Fungsi Nilai Aksi Status dalam Pembelajaran Penguatan

Ketika kita mulai mengembangkan pembelajaran penguatan, beberapa jam ke depan minggu ini, Anda akan melihat bahwa ada satu kuantitas kunci yang akan coba dihitung oleh algoritma pembelajaran penguatan, yang disebut **fungsi nilai aksi status**. Mari kita lihat apa itu fungsi ini.

## Apa itu Fungsi Nilai Aksi Status?

Fungsi nilai aksi status biasanya dilambangkan dengan huruf **Q** besar. Ini adalah fungsi dari status yang mungkin Anda temui, serta aksi yang mungkin Anda pilih untuk diambil dalam status tersebut. Nilai \( Q(s, a) \) akan memberikan angka yang sama dengan *return* jika Anda mulai dari status \( s \) dan mengambil aksi \( a \) hanya sekali, dan setelah mengambil aksi \( a \) tersebut, Anda berperilaku secara optimal setelahnya. 

Artinya, setelah itu, Anda akan mengambil aksi yang menghasilkan *return* tertinggi yang mungkin. Anda mungkin berpikir ada sesuatu yang aneh tentang definisi ini karena bagaimana kita tahu apa perilaku optimal itu? Dan jika kita sudah tahu perilaku optimal, mengapa kita masih perlu menghitung \( Q(s, a) \)? Karena kita sudah memiliki kebijakan optimal.

Saya ingin mengakui bahwa ada sesuatu yang sedikit aneh tentang definisi ini. Terdapat sedikit sirkularitas dalam definisi ini, tetapi jangan khawatir. Ketika kita melihat algoritma pembelajaran penguatan tertentu nanti, kita akan menyelesaikan definisi sirkular ini dan menemukan cara untuk menghitung fungsi \( Q \) bahkan sebelum kita memiliki kebijakan optimal.

## Contoh Kasus

Mari kita lihat contoh yang telah kita lihat sebelumnya. Ini adalah kebijakan yang cukup baik: pergi ke kiri dari status 2, 3, dan 4, dan pergi ke kanan dari status 5. Ternyata, ini adalah kebijakan optimal untuk aplikasi Mars Rover ketika faktor diskonto \( \gamma \) adalah 0.5.

### Menghitung \( Q(s, a) \)

Mari kita tentukan \( Q(s, a) \) untuk beberapa status berbeda. 

1. **Status 2 dan Aksi ke Kanan**: 
   - Jika Anda berada di status 2 dan pergi ke kanan, Anda akan berakhir di status 3. Setelah itu, Anda berperilaku secara optimal: pergi ke kiri dari status 3, kemudian kembali ke status 2, dan akhirnya mendapatkan hadiah 100.
   - Dengan demikian, return Anda akan menjadi:
     \[
     0 + 0.5 \times 0 + 0.5^2 \times 0 + 0.5^3 \times 100 = 12.5
     \]
   - Jadi, \( Q(2, \text{kanan}) = 12.5 \).

2. **Status 2 dan Aksi ke Kiri**: 
   - Jika Anda berada di status 2 dan pergi ke kiri, urutan hadiah yang Anda dapatkan adalah:
     \[
     0 \text{ (status 2)} + 100 \text{ (terminal state)}
     \]
   - Return-nya:
     \[
     0 + 0.5 \times 100 = 50
     \]
   - Jadi, \( Q(2, \text{kiri}) = 50 \).

3. **Status 4 dan Aksi ke Kiri**:
   - Jika Anda berada di status 4 dan pergi ke kiri:
     \[
     0 \text{ (status 4)} + 0 + 0 + 100
     \]
   - Return-nya:
     \[
     0 + 0.5 \times 0 + 0.5^2 \times 0 + 0.5^3 \times 100 = 12.5
     \]
   - Jadi, \( Q(4, \text{kiri}) = 12.5 \).

Jika Anda melakukan latihan ini untuk semua status dan semua aksi, Anda akan mendapatkan nilai \( Q(s, a) \) untuk status dan aksi yang berbeda.

### Nilai Terminal

Di terminal state, tidak peduli apa yang Anda lakukan, Anda hanya mendapatkan hadiah terminal 100 atau 40. Anda dapat menuliskan hadiah terminal tersebut.

### Kesimpulan tentang Fungsi Q

Karena fungsi nilai aksi status hampir selalu dilambangkan dengan huruf **Q**, istilah **fungsi Q** dan **fungsi nilai aksi status** digunakan secara bergantian. Fungsi ini memberi tahu Anda tentang return Anda atau seberapa baiknya mengambil aksi \( a \) di status \( s \) dan kemudian berperilaku secara optimal setelahnya.

Sekarang, setelah Anda dapat menghitung fungsi \( Q \), ini akan memberikan Anda cara untuk memilih aksi. Anda akan melihat bahwa jika Anda dapat menghitung \( Q(s, a) \) untuk setiap status dan setiap aksi, ketika Anda berada di status \( s \), semua yang perlu Anda lakukan adalah melihat berbagai aksi \( a \) dan memilih aksi \( a \) yang memaksimalkan \( Q(s, a) \).

## Mengapa Ini Penting?

Dengan kata lain, aksi terbaik dari status \( s \) adalah aksi \( a \) yang memaksimalkan \( Q(s, a) \). Jika Anda dapat menghitung \( Q(s, a) \) untuk setiap status dan setiap aksi, maka ini memberi Anda cara yang baik untuk menghitung kebijakan optimal \( \pi(s) \).

### Ringkasan

- **Fungsi Q** memberikan nilai return untuk setiap kombinasi status dan aksi.
- **Kebijakan optimal** dapat ditentukan dengan memilih aksi yang memaksimalkan fungsi \( Q \).
- **Notasi Q\*** merujuk pada fungsi Q optimal, tetapi Anda tidak perlu khawatir tentang terminologi ini untuk kursus ini.

Mari kita lihat contoh spesifik dari nilai \( Q(s, a) \) di video berikutnya.

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)