# Continuous control with deep reinforcement learning

## 목표

- action space가 discrete space가 아닌 continuous space에 적용할 수 있다.

## DDPG란?

- DQN에서 neural network를 사용하면서 기본적으로 발생하는 parameter의 수가 많아서 학습에 지장이 간다. 그래서 학습을 하는데 사용되는 sample은 i.i.d 특징을 가져야하고 이것을 해결하기 위해서 replay buffer를 사용하였다. 또한, target network을 따로 두는 방법도 사용하였다.

- 하지만, DDPG에서는 target network의 parameter update를 soft하게 하는 soft target update방법을 채택하였고,
  - \\(\theta' \leftarrow \tau \theta + (1 - \tau) \theta'\\)
- network 학습에서 order of magnitude 문제를 해결하기 위해서 batch norm도 적용하였다.
- 마지막으로, exploration을 하기 위해서 noise process(Ornstein-Uhlenbeck)를 도입하였다.
  - \\(\mu'(s_t) = \mu(s_t|\theta^{\mu}_t) + N \\)

## DQN

- 장점
  - sensor로 부터 나오는 전처리를 거친 input 대신에 raw pixel input을 사용한다. 이렇게 함으로써 high dimensional observation space문제를 해결한다.
- 단점
  - discrete & low dimensional action space만 가능하다. Continuous action space를 다루기 위해서 매 step마다 iterative optimization precess를 거쳐야한다.

## Continuous space를 해결하기 위해서

- model-free, off-policy, actor-critic 알고리즘을 사용한다.
- DPG를 기반으로 한다.
- DQN에서 좋았던, Replay buffer와 target Q network를 actor-critic에 사용한다.

## 기호

- Observation: \\(x_t\\)
- Action: \\(a_t \in {IR}^N\\)
- Reward: \\(r_t\\)
- Discount factor: \\(\gamma\\)
- Environment: \\(E\\)
- Policy: \\(\pi : S \rightarrow P(A)\\)
- Transition dynamics: \\(p(s_{t+1}|s_t, a_t)\\)
- Reward function: \\(r(s_t, a_t)\\)
- Return: \\(\sum^{T}_{i=t} \gamma^{(i - t)} r(s_i, a_i)\\)
- Discounted state visitation distribution for a policy: \\(\rho^\pi\\)

## Bellman Equation

- 상태 \\(s_t\\)에서 행동 \\(a_t\\)를 취했을 때 Expected return은 아래의 식과 같다.
  - \\( Q^{\pi}(s_t, a_t)={\rm E}_{r_{i \geqq t},s_{i \geqq t} \backsim E, a_{i \geqq t} \backsim \pi } [R_{t} \vert s_t, a_t] \\)
- Bellman equation을 이용해서 위 식을 변형한다.
  - \\(Q^{\pi}(s_t, a_t)={\rm E}_{r_{t},s_{t} \backsim E } [r(s_t,a_t)+\gamma {\rm E}_{a_{t+1} \backsim \pi } [ Q^{\pi}(s_{t+1}, a_{t+1}) ] ]\\)
- Deterministic policy를 가정한다
  - \\(Q^{\mu}(s_t, a_t)={\rm E}_{r_{t},s_{t} \backsim E } [r(s_t,a_t)+\gamma Q^{\mu}(s_{t+1}, \mu (s_{t+1})) ]\\)

### Bellman equation

$$ \begin{split} v(s) &= \mathbb{E}[G_t | S_t = s] \\
&= \mathbb{E}[R_{t + 1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... | S_t = s] \\
&= \mathbb{E}[R_{t + 1} + \gamma(R_{t + 2} + \gamma R_{t + 3} + ...) | S_t = s] \\
&= \mathbb{E}[R_{t + 1} + \gamma G_{t + 1} | S_t = s] \\
&= \mathbb{E}[R_{t + 1} + \gamma v(S_{t + 1}) | S_t = s] \end{split} $$

### Determinisitc Policy

- Stochastic policy gradient는 policy를 state space와 action space의 확률분포를 고려한다.
- Deterministic policy는 policy를 생각할 때 action space에서 특정 action을 선택(deterministic)하면서 policy를 발전시킬 수 있다.
  - 이때 action 선택은 off-policy 방법을 사용하고,
  - stochastic 방법보다 action 부분을 제거할 수 있기 때문에 간단하게 policy를 향상 시킬 수 있다.

# Reference

- [Deterministic policy 개념 참조](https://jay.tech.blog/2018/10/08/deterministic-policy-gradient/)
- [DDPG 개념 참조](https://reinforcement-learning-kr.github.io/2018/06/26/3_ddpg/)