# Policy Gradient

## 복습

## Value function

### Value Function Approch

- State value function
  - agent가 특정 state에 있을 때, 특정 state부터 action을 취하고 이동하면서 받는 reward의 평균
$$ G_t = R_{t + 1} + \gamma R_{t + 2} ... = \sum^{\infty}_{k = 0} \gamma^k R_{t + k + 1} $$
- 따라서, state value function \\(v(s)\\)는 어떤 상태 s의 가치이다. 따라서 agent는 다음으로 갈 수 있는 state들 중 높은 가치를 선택한다.
<br><br>
$$ v(s) = \mathbb{E}[G_t \;|\; S_t = s] $$

### Action value function

- 위 방법을 사용하려면 state에 대한 정보를 모두 알고 있어야한다. 하지만 이것을 몰라도 학습한다는 것이 강화학습의 개념이기 때문에 어느쪽으로 가는 것이 더 나은지에 대한 정보만 있으면 행동할 수 있다. Action value function
  - 특정 state s에서 action a를 취했을 때 받는 return의 기대값. 어떤 행동이 얼마나 좋은지에 대한 판단.
  <br><br>
  $$ q_\pi(s, a) = \mathbb{E}_\pi[G_t \;|\; S_t = s, A_t = a] $$

### 문제점

- greedy action-selection policy는 deterministic한 policy를 찾는 것으로 수렴하게 되지만, 종종 optimal policy는 stochastic한 성질을 갖게 됨으로 최적의 policy를 찾을 수 없다고 한다.
  - 위 문제는 \\(\epsilon-greedy\\) action-selection method로 개선 가능하다.
- value function의 수시로 변하는 값들 때문에 action이 크게 변할 수 있다.
  - 위 문제 때문에 수렴을 안할 수도 있다. 따라서 policy search라는 기법이 제안되었다.

## Policy Search

- gradient based optimization
  - policy의 변화를 제어하는 parameter를 통해서 policy를 변화시킨다. policy 변화를 모델링하기 위해서 parameter \\(\theta\\)를 사용하여 policy를 \\(\pi_{\theta}\\)로 표현한다.
  - 최적의 policy를 찾기 위해서 expected return \\(E[R|\theta]\\)를 최대화하도록 parameter를 optimization한다.<br><br>
  $$ \pi^* = arg \max_{\pi} \mathbb{E}[R\;|\;\pi] $$
  <br>
  $$ \pi_{\theta}: \Theta \to \Pi $$
  <br>
  $$ \pi^* = arg \max_{\theta} \mathbb{E}[R \;|\; \theta] $$
- gradient free optimization

## Expected Return

- deterministic approximation
  - Markov decision process의 dynamics를 모델링한 후 수식을 통해서 구한다.
- monte carlo estimation
  - 많은 sample을 얻은 후 empirical하게 expected return을 계산한다.
  - likelihood-ratio estimate 사용한다.

- dynamics에 대한 모델이 어렵거나 변화가 큰 경우에는 monte carlo estimation이 좋을 수 있다. 하지만 gradient estimation 방법을 고안하는 것도 무척 어렵다.

### Monte Carlo Gradient Estimation

- parameter \\(\theta\\)를 가지는 random variable \\(X\\)가 있음. \\(X: \Omega \mapsto \mathcal{X} \\)
- 이 \\(x\\)에 대한 함수 \\(f\\)가 있다. \\(f: \mathcal{X} \mapsto \mathbb{R} \\)
- expected return과 같이 \\(E[f(x)]\\)를 최대화 하고자 한다. 따라서, \\(\nabla_{\theta}E[f(x)]\\)를 구해야한다.

\\( \begin{align} \nabla_{\theta} E_{p(x;\theta)}\left[ {f(x)} \right] &= \nabla_\theta\int{f\left( x \right)p\left( {x;\theta} \right) dx} \\ &= \int { {\nabla_\theta }p\left( {x;\theta } \right)f\left( x \right)dx} \\ &= \int {\frac{ {p\left( {x;\theta } \right)} }{ {p\left( {x;\theta } \right)} }{\nabla_\theta }p\left( {x;\theta } \right)f\left( x \right)dx} \\ &= \int {p\left( {x;\theta } \right){\nabla_\theta }\log p\left( {x;\theta } \right)f\left( x \right)dx} \\ &= E_{p(x;\theta)}[f(x)\nabla_\theta \log p({x;\theta})] \end{align} \\)

- Expectation은 많은 sample을 모아서 평균취하는 것으로 근사화 할 수 있음. 따라서,<br><br>
$$ {\nabla_{\theta} }{E_{p\left( {x;\theta } \right)} }\left[ {f\left( x \right)} \right] = \frac{1}{N}\sum_{n=1}^N f\left(X_n\right)\nabla_\theta\log p\left(X_n;\theta\right) $$

- 위 식으로 바꿀 수 있다. 하지만 monte carlo estimation의 경우 하나의 epsiode에 대한 모든 reward를 가지고 계산하기 때문에 variance가 높을 수 있다.

## Policy Gradient Approach

- \\(\rho\\)는 \\(\theta\\)에 대해서 미분 가능하고,
- 아래 식으로 gradient가 update되며 policy는 수렴한다.<br><br>
$$ \Delta\theta \approx \alpha\frac{\partial\rho}{\partial\theta} $$

- 따라서, reward를 표현하는 \\(\rho\\)에 대해서 알아보자.

#### Average Reward Formulation

- 시간의 흐름에 따른 reward 표현이 아니라, 모든 시간의 reward를 평균내서 표현하는 방법이다.
$$ \rho(\pi)=\lim_{n\to\infty}\frac{1}{n}E[r_1+r_2+\cdots+r_n|\pi] = \sum_s d^\pi(s)\sum_a\pi(s,a)\mathcal{R}_s^a $$

#### Start-State Formulation

- start-state formulation은 시간의 흐름에 따라 감소하는 reward를 표현한다.

# 참조

[RLKorea 글 참조](https://reinforcement-learning-kr.github.io/2018/06/28/1_sutton-pg/)