# Pengenalan Return dalam Reinforcement Learning

Anda telah melihat di video sebelumnya tentang **state** dalam aplikasi **reinforcement learning**, serta bagaimana tindakan yang Anda ambil dapat membawa Anda melalui berbagai state dan menikmati berbagai reward. Tapi bagaimana cara Anda mengetahui apakah satu set reward tertentu lebih baik atau lebih buruk daripada set reward lainnya? 

**Return** dalam reinforcement learning, yang akan kita definisikan dalam video ini, memungkinkan kita untuk menangkap hal tersebut. Sebuah analogi yang mungkin berguna adalah membayangkan Anda menemukan uang lima dolar di kaki Anda. Anda bisa meraihnya, atau berjalan selama setengah jam melintasi kota untuk mengambil uang sepuluh dolar. Mana yang akan Anda pilih? 

Sepuluh dolar tentu lebih baik daripada lima dolar, tetapi jika Anda perlu berjalan setengah jam untuk mengambil uang sepuluh dolar itu, mungkin lebih nyaman untuk hanya mengambil uang lima dolar saja. Konsep **return** menangkap bahwa reward yang bisa Anda dapatkan lebih cepat mungkin lebih menarik daripada reward yang membutuhkan waktu lama untuk didapatkan.

## Contoh Mars Rover

Mari kita lihat bagaimana itu bekerja. Jika mulai dari **state 4** Anda pergi ke kiri, kita melihat bahwa reward yang Anda dapatkan adalah nol pada langkah pertama dari state 4, nol dari state 3, nol dari state 2, dan kemudian 100 pada state 1, yaitu state terminal. **Return** didefinisikan sebagai jumlah dari reward-reward ini, tetapi dibobot dengan satu faktor tambahan yang disebut **discount factor**. 

**Discount factor** adalah angka yang sedikit kurang dari 1. Saya akan memilih 0.9 sebagai discount factor. Saya akan membobot reward pada langkah pertama yang hanya nol, reward pada langkah kedua adalah discount factor, 0.9 dikali reward tersebut, kemudian ditambah discount factor^2 dikali reward itu, dan seterusnya. Jika Anda menghitung ini, hasilnya adalah 0.729 dikali 100, yang sama dengan 72.9.

## Formula Umum untuk Return

Formula yang lebih umum untuk **return** adalah jika robot Anda melalui beberapa urutan state dan mendapatkan reward R_1 pada langkah pertama, dan R_2 pada langkah kedua, dan R_3 pada langkah ketiga, dan seterusnya, maka return adalah:
\[ 
\text{Return} = R_1 + \gamma R_2 + \gamma^2 R_3 + \gamma^3 R_4 + \ldots 
\]
di mana \(\gamma\) adalah discount factor yang telah saya atur ke 0.9 dalam contoh ini. Apa yang dilakukan discount factor \(\gamma\) adalah membuat algoritma reinforcement learning sedikit tidak sabar. Karena return memberikan kredit penuh untuk reward pertama, yaitu 100 persen atau 1 dikali R_1, tetapi kemudian memberikan kredit sedikit lebih rendah untuk reward yang Anda dapatkan pada langkah kedua, yang dikalikan dengan 0.9, dan semakin sedikit kredit untuk reward yang Anda dapatkan di langkah berikutnya R_3, dan seterusnya. 

Mendapatkan reward lebih cepat menghasilkan nilai yang lebih tinggi untuk total return. Dalam banyak algoritma reinforcement learning, pilihan umum untuk discount factor akan berada di angka yang cukup dekat dengan 1, seperti 0.9, 0.99, atau bahkan 0.999. Namun, untuk tujuan ilustratif dalam contoh yang sedang saya gunakan, saya akan menggunakan discount factor 0.5. Ini sangat mendiskontokan reward di masa depan, karena dengan setiap tambahan waktu yang berlalu, Anda hanya mendapatkan setengah kredit dari reward yang Anda dapatkan satu langkah lebih awal.

## Contoh Konkrit dari Return

Mari kita lihat beberapa contoh konkret dari return. Return yang Anda dapatkan tergantung pada reward, dan reward tergantung pada tindakan yang Anda ambil, jadi return tergantung pada tindakan yang Anda ambil. Mari kita gunakan contoh biasa kita dan katakan bahwa untuk contoh ini, saya akan selalu pergi ke kiri.

Kita telah melihat sebelumnya bahwa jika robot dimulai di **state 4**, returnnya adalah 12.5 seperti yang telah kita hitung di slide sebelumnya. Ternyata jika dimulai di **state 3**, returnnya akan menjadi 25 karena ia sampai ke reward 100 satu langkah lebih cepat, sehingga diskontonya lebih sedikit. Jika dimulai di **state 2**, returnnya adalah 50. Jika dimulai di **state 1**, ia mendapatkan reward 100 langsung, jadi tidak ada diskon sama sekali. 

- **Return dari State 1:** 100
- **Return dari State 2:** 50
- **Return dari State 3:** 25
- **Return dari State 4:** 12.5
- **Return dari State 5:** 20
- **Return dari State 6 (Terminal State):** 40

Jika Anda mengambil set tindakan yang berbeda, returnnya akan berbeda. Misalnya, jika kita selalu pergi ke kanan, jika itu adalah tindakan kita, maka jika Anda mulai di **state 4**, Anda akan mendapatkan reward 0. Kemudian Anda sampai di **state 5** dan mendapatkan reward 0, lalu sampai di **state 6** dan mendapatkan reward 40. Dalam hal ini, returnnya akan menjadi:
\[ 
0 + 0.5 \times 0 + 0.5^2 \times 40 
\]
dan itu sama dengan 10.

## Ringkasan

Untuk merangkum, **return** dalam reinforcement learning adalah jumlah reward yang diperoleh sistem, dibobot oleh discount factor, di mana reward di masa depan dibobot dengan discount factor yang dipangkatkan. Ini memiliki efek menarik ketika Anda memiliki sistem dengan reward negatif. Jika ada reward yang negatif, discount factor sebenarnya mendorong sistem untuk menunda reward negatif sejauh mungkin ke masa depan. 

Dengan contoh finansial, jika Anda harus membayar seseorang $10, mungkin itu adalah reward negatif -10. Tetapi jika Anda bisa menunda pembayaran selama beberapa tahun, maka Anda sebenarnya lebih baik karena $10 di masa depan, karena suku bunga, sebenarnya bernilai lebih sedikit dibandingkan dengan $10 yang harus Anda bayar hari ini. 

Untuk aplikasi finansial dan aplikasi lainnya, itu ternyata adalah hal yang benar untuk dilakukan oleh sistem. Sekarang Anda sudah mengetahui apa itu return dalam reinforcement learning, mari kita lanjutkan ke video berikutnya untuk memformalkan tujuan dari algoritma reinforcement learning.


![image.png](attachment:image.png)

![|](attachment:image-2.png)