Update 6.1.DDPG.tex

Fix #9 typo
FortsAndMills · Oct 1, 2022 · 45fa597 · 45fa597
1 parent d630e5e
commit 45fa597
Showing 1 changed file with 2 additions and 2 deletions.
diff --git a/src/6.ContinuousControl/6.1.DDPG.tex b/src/6.ContinuousControl/6.1.DDPG.tex
@@ -153,7 +153,7 @@ \subsection{Deep Deterministic Policy Gradient (DDPG)}
     $$y(\T ) \coloneqq r + \gamma (1 - \done) Q_{\theta^{-}} \left( s', \pi_{\omega^{-}} \left( s' \right) \right)$$
     \item сделать один шаг градиентного спуска по $\theta$:
     $$\frac{1}{B}\sum_{\T} \left( Q_{\theta}(s, a) - y(\T ) \right) ^2 \to \min_\theta$$
-    \item если $t \operatorname{mod} K = 0$: 
+    \item обновить таргет-сети: 
         $$\theta^{-} \gets (1 - \beta) \theta^{-} + \beta \theta$$
         $$\omega^{-} \gets (1 - \beta) \omega^{-} + \beta \omega$$
 \end{enumerate}
@@ -340,4 +340,4 @@ \subsection{Обучение стохастичных политик}\label{subs
 
 И в policy gradient алгоритмах часто в формулу градиента добавляют слагаемое $\nabla_{\theta} \entropy(\pi_\theta(\cdot \mid s))$, которое поощряет высокую энтропию стратегии. Однако в on-policy режиме Q-функция заменялась на оценку и была стохастичной. В off-policy же актёр имеет куда больше шансов <<переобучиться>> под критика, и энтропийный лосс придётся тогда выставлять с большим коэффициентом.
 
-Вместо подобных плясок с бубном хотелось бы, чтобы подобных проблем в принципе не возникало. Конечно, детерминированность оптимальной стратегии --- особенность постановки задачи RL, и поэтому если мы хотим, чтобы таких эффектов в оптимизационных процессах не было, нам придётся найти какую-то альтернативную постановку задачи. Оказывается, такая альтернативная формулировка есть, и она бывает крайне удобна. В ней оптимальные стратегии уже будут стохастичны, и ряд численных проблем, а также проблем с exploration-ом, отпадёт; в частности, она <<обоснует>> добавку градиента энтропии в формулу градиента.
+Вместо подобных плясок с бубном хотелось бы, чтобы подобных проблем в принципе не возникало. Конечно, детерминированность оптимальной стратегии --- особенность постановки задачи RL, и поэтому если мы хотим, чтобы таких эффектов в оптимизационных процессах не было, нам придётся найти какую-то альтернативную постановку задачи. Оказывается, такая альтернативная формулировка есть, и она бывает крайне удобна. В ней оптимальные стратегии уже будут стохастичны, и ряд численных проблем, а также проблем с exploration-ом, отпадёт; в частности, она <<обоснует>> добавку градиента энтропии в формулу градиента.