Skip to content

Commit

Permalink
Update 6.1.DDPG.tex
Browse files Browse the repository at this point in the history
Fix #9 typo
  • Loading branch information
FortsAndMills committed Oct 1, 2022
1 parent d630e5e commit 45fa597
Showing 1 changed file with 2 additions and 2 deletions.
4 changes: 2 additions & 2 deletions src/6.ContinuousControl/6.1.DDPG.tex
Expand Up @@ -153,7 +153,7 @@ \subsection{Deep Deterministic Policy Gradient (DDPG)}
$$y(\T ) \coloneqq r + \gamma (1 - \done) Q_{\theta^{-}} \left( s', \pi_{\omega^{-}} \left( s' \right) \right)$$
\item сделать один шаг градиентного спуска по $\theta$:
$$\frac{1}{B}\sum_{\T} \left( Q_{\theta}(s, a) - y(\T ) \right) ^2 \to \min_\theta$$
\item если $t \operatorname{mod} K = 0$:
\item обновить таргет-сети:
$$\theta^{-} \gets (1 - \beta) \theta^{-} + \beta \theta$$
$$\omega^{-} \gets (1 - \beta) \omega^{-} + \beta \omega$$
\end{enumerate}
Expand Down Expand Up @@ -340,4 +340,4 @@ \subsection{Обучение стохастичных политик}\label{subs

И в policy gradient алгоритмах часто в формулу градиента добавляют слагаемое $\nabla_{\theta} \entropy(\pi_\theta(\cdot \mid s))$, которое поощряет высокую энтропию стратегии. Однако в on-policy режиме Q-функция заменялась на оценку и была стохастичной. В off-policy же актёр имеет куда больше шансов <<переобучиться>> под критика, и энтропийный лосс придётся тогда выставлять с большим коэффициентом.

Вместо подобных плясок с бубном хотелось бы, чтобы подобных проблем в принципе не возникало. Конечно, детерминированность оптимальной стратегии --- особенность постановки задачи RL, и поэтому если мы хотим, чтобы таких эффектов в оптимизационных процессах не было, нам придётся найти какую-то альтернативную постановку задачи. Оказывается, такая альтернативная формулировка есть, и она бывает крайне удобна. В ней оптимальные стратегии уже будут стохастичны, и ряд численных проблем, а также проблем с exploration-ом, отпадёт; в частности, она <<обоснует>> добавку градиента энтропии в формулу градиента.
Вместо подобных плясок с бубном хотелось бы, чтобы подобных проблем в принципе не возникало. Конечно, детерминированность оптимальной стратегии --- особенность постановки задачи RL, и поэтому если мы хотим, чтобы таких эффектов в оптимизационных процессах не было, нам придётся найти какую-то альтернативную постановку задачи. Оказывается, такая альтернативная формулировка есть, и она бывает крайне удобна. В ней оптимальные стратегии уже будут стохастичны, и ряд численных проблем, а также проблем с exploration-ом, отпадёт; в частности, она <<обоснует>> добавку градиента энтропии в формулу градиента.

0 comments on commit 45fa597

Please sign in to comment.