# Monte Carlo vs Temporal Difference Learning

Q-Learning'e geçmeden önce tartışmamız gereken son şey iki öğrenme stratejisidir.

Bir RL ajanının **çevresiyle etkileşime girerek öğrendiğini unutmayın.** Buradaki fikir, **deneyim ve alınan ödül göz önüne alındığında, ajanın değer fonksiyonunu veya politikasını güncelleyeceğidir.**

Monte Carlo ve Temporal Difference Learning, değer fonksiyonumuzu veya politika fonksiyonumuzu nasıl eğiteceğimize dair iki farklı **stratejidir.** Her ikisi de **RL problemini çözmek için deneyimi kullanır.**

Bir yandan, Monte Carlo öğrenmeden önce **tüm bir deneyim bölümünü kullanır.** Diğer yandan, Temporal Difference öğrenmek için **sadece bir adım ( $S_t, A_t, R_{t+1}, S_{t+1}$ ) kullanır.**

Her ikisini de **değer tabanlı bir yöntem örneği kullanarak açıklayacağız.**

## Monte Carlo: learning at the end of the episode

Monte Carlo **bölümün sonuna kadar bekler**, $G_t$ (return) hesaplar ve bunu $V(S_t)$ güncellemesi için bir hedef olarak kullanır.**

Dolayısıyla, değer fonksiyonumuzu güncellemeden önce **tam bir etkileşim bölümü gerektirir.**

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/monte-carlo-approach.jpg)

Bir örnek verecek olursak:

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-2.jpg)

- Bölümü her zaman **aynı başlangıç noktasında başlatırız.** 
- **Ajan politikayı kullanarak eylemler gerçekleştirir**. Örneğin, keşif (rastgele eylemler) ve sömürü arasında değişen bir politika olan EEpsilon Greedy Strategy kullanarak 
- **Ödülü ve bir sonraki durumu** alırız.
- Kedi fareyi yerse veya fare > 10 adım hareket ederse bölümü sonlandırırız.

- Bölümün sonunda, **Durum, Eylemler, Ödüller ve Sonraki Durumlar tuple'larının bir listesine sahibiz** Örneğin [[Durum karosu 3 alt, Sola Git, +1, Durum karosu 2 alt], [Durum karosu 2 alt, Sola Git, +0, Durum karosu 1 alt]...]

- Temsilci toplam ödülleri $G_t$** toplayacaktır (ne kadar iyi yaptığını görmek için) 
- Daha sonra **formüle göre $V(s_t)$'yi güncelleyecektir**

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-3.jpg)

- Sonra bu yeni bilgiyle yeni bir oyuna başlayın

Daha fazla bölüm yürüterek, ajan daha iyi ve daha iyi oynamayı öğrenecektir.

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-3p.jpg)

Örneğin, Monte Carlo kullanarak bir durum-değer fonksiyonunu eğitirsek:

- Değer fonksiyonumuzu **her durum için 0 değeri döndürecek şekilde** başlatırız 
- Öğrenme oranımız (lr) 0,1 ve iskonto oranımız 1'dir (= iskonto yok) 
- Faremiz **çevreyi keşfeder ve rastgele eylemler gerçekleştirir**

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-4.jpg)

- Fare 10'dan fazla adım attı, böylece bölüm sona erdi.

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-4p.jpg)

- Elimizde durum, eylem, ödüller, sonraki_durum listesi var, **geri dönüşü hesaplamamız gerekiyor $G{t=0}$**

$G_t = R_{t+1} + R_{t+2} + R_{t+3} ...$ (basitlik için ödülleri iskonto etmiyoruz)

$G_0 = R_{1} + R_{2} + R_{3}...$

$G_0 = 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 0 + 0$

$G_0 = 3$

- Şimdi **yeni** $V(S_0)$ değerini hesaplayabiliriz:

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-5.jpg)

$V(S_0) = V(S_0) + lr * [G_0 — V(S_0)]$

$V(S_0) = 0 + 0.1 * [3 – 0]$

$V(S_0) = 0.3$

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/MC-5p.jpg)

## Temporal Difference Learning: learning at each step

Öte yandan **Temporal Difference, TD hedefi oluşturmak ve $R_{t+1}$ ve $ \gamma * V(S_{t+1})$ kullanarak $V(S_t)$'yi güncellemek için yalnızca bir etkileşim (bir adım) $S_{t+1}$** bekler.

TD ile fikir, **$V(S_t)$'yi her adımda güncellemektir**.

Ancak tüm bir dönemi deneyimlemediğimiz için $G_t$ (beklenen getiri) değerine sahip değiliz. Bunun yerine, **$R_{t+1}$ ve bir sonraki durumun iskonto edilmiş değerini ekleyerek $G_t$ değerini tahmin ederiz.**

Buna bootstrapping denir. TD, güncellemesini tam bir $G_t$ örneğine değil, kısmen mevcut bir $V(S_{t+1})$ tahminine dayandırdığı için **bu şekilde adlandırılır.**

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-1.jpg)

Bu yönteme TD(0) veya tek adımlı TD (her bir adımdan sonra değer fonksiyonunun güncellenmesi) adı verilir.

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-1p.jpg)

Aynı örneği ele alırsak,

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-2.jpg)

- Değer fonksiyonumuzu her durum için 0 değerini döndürecek şekilde başlatıyoruz 
- Öğrenme oranımız (lr) 0,1 ve iskonto oranımız 1 (iskonto yok) 
- Faremiz çevreyi keşfetmeye başlar ve rastgele bir eylemde bulunur: **Sola doğru gidiyor** 
- Bir parça peynir yediği için $R_{t+1} = 1$ ödülünü alıyor**

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-2p.jpg)
![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-3.jpg)

Şimdi $V(S_0)$'ı güncelleyebiliriz:

Yeni $V(S_0) = V(S_0) + lr * [R_1 + \gamma * V(S_1) - V(S_0)]$

Yeni $V(S_0) = 0 + 0,1 * [1 + 1 * 0-0]$

Yeni $V(S_0) = 0,1$

Böylece 0. Durum için değer fonksiyonumuzu güncelledik.

Şimdi **güncellenmiş değer fonksiyonumuzla bu ortamla etkileşime devam ediyoruz.**

![](https://huggingface.co/datasets/huggingface-deep-rl-course/course-images/resolve/main/en/unit3/TD-3p.jpg)

Özetlemek gerekirse:

  - Monte Carlo* ile, değer fonksiyonunu tam bir bölümden güncelleriz ve böylece **bu bölümün gerçek doğru indirgenmiş getirisini kullanırız.** 
  
  - *TD Öğrenme* ile, değer fonksiyonunu bir adımdan güncelleriz ve bilmediğimiz $(G_t)$ yerine **TD hedefi adı verilen tahmini bir getiri koyarız.**