Skip to content

Commit

Permalink
fix #6
Browse files Browse the repository at this point in the history
  • Loading branch information
FortsAndMills committed Jan 12, 2022
1 parent 333795e commit 8d408d9
Showing 1 changed file with 1 addition and 1 deletion.
2 changes: 1 addition & 1 deletion src/5.PolicyGradient/5.1.PolicyGradientTheorem.tex
Original file line number Diff line number Diff line change
Expand Up @@ -268,7 +268,7 @@ \subsection{State visitation frequency}

\subsection{Расцепление внешней и внутренней стохастики}

Итак, давайте попробуем формально понять, из какого распределения приходят состояния в формуле градиента \eqref{gradient}, и отличается ли оно от $\mu_{\pi}(s)$. Для этого мы сейчас придумаем, как можно записывать функционалы вида
Итак, давайте попробуем формально понять, из какого распределения приходят состояния в формуле градиента \eqref{pgt_firstproof}, и отличается ли оно от $\mu_{\pi}(s)$. Для этого мы сейчас придумаем, как можно записывать функционалы вида
$$\E_{\Traj \sim \pi} \sum_{t \ge 0} \gamma^t f(s_t, a_t),$$
где $f$ --- какая-то функция от пар состояние-действие, немного по-другому.

Expand Down

0 comments on commit 8d408d9

Please sign in to comment.