#  Markov Processes

- 전제조건으로 agent가 환경에서 발생되는 모든 정보를 볼 수 있다고 가정한다.
- 우리가 살고 있는 세상은 모든 정보를 알기는 힘들다. 하지만 특정 시점에서는 모든 환경을 다 볼 수 있기 때문에 완전히 특성을 갖추고 있다.

# Markov property

- 미래는 과거와 독립적이다. $$ \mathbb{P}[S_{t+1}|S_t] = \mathbb{P}[S_(t+1)|S_1, ... , S_t] $$
- 현재 상태는 과거의 어떤 과정에 의해서 발생된 것이기 때문에 현재 상태는 과거의 중요 정보를 포함하고 있다.
- 따라서 의사 결정을 할때는 현재 정보에 집중하면 된다. 현재 정보가 Markov property를 가지고 있기 때문
- 이것을 통해서 RL은 현재 시점에서 미래 reward를 예측하고 그것에 따라서 의사결정 할 수 있게 된다.

- 현재 상태 s와 다음 상태를 s'이라 했을 때 s -> s'으로 상태가 바뀔 확률은 조건부 확률을 통해서 표현가능하다. $$ \mathcal{P}_{ss'} = \mathbb{P}[S_{t+1}=s'|S_t=s] $$
- State transition matrix(현재 상태 s에서 다음 상태 s'으로 가는 모든 가능한 경우) \\(\mathcal{P}\\)를 matrix형태로 정의할 수 있다. $$ \mathcal{P} = \begin{bmatrix} \mathcal{P}_{11} & \cdots & \mathcal{P}_{1n} \\ \vdots & \vdots \\ \mathcal{P}_{n1} & \cdots & \mathcal{P}_{nn} \end{bmatrix} $$

- Markov process는 기본적으로 random process라고 생각한다. 과거에 어떤 action을 취했는지 기억하지 않고 현재 상태에서 랜덤으로 선택한다.
- 모든 상태를 고려하여 앞으로 변경될 확률을 생각한 것이 Markov process, Markov chain이라 한다. $$ \mathcal{P}_{ss'} = \mathbb{P}[S_{t+1} = s'|S_t=s]$$

![pic](https://user-images.githubusercontent.com/22078438/48101102-42811780-e269-11e8-8f07-481b4657b560.PNG)

- 위 왼쪽 그림에서 이동 가능한 상태에 대해서 \\(\mathcal{P}\\)로 나타내면 오른쪽 matrix와 같이 됩니다.

# Markov Reward Processes

- 앞서 언급했던 Markov chain에 reward를 추가한 개념이다.
- value를 판단하기 위해서 reward와 discounted factor가 사용된다.
- reward는 현재 상태를 기준으로 다음 상태에 받게 될 expectation reward이고, discounted factor는 현재 받는 reward의 가치와 미래에 받을 reward의 가치는 다르기 때문에 적용시켜준다.
- reward function, \\( \mathcal{R}_s=\mathbb{E}[R_(t+1)\;|\;S_t=s]\\)
- discounted factor, \\( \gamma \in[0,1]\\)

### reward 관점에서 본다면

- \\(G_t\\)는 time-step t로 부터 total discounted reward
$$ G_t = R_{t+1} + \gamma R_{t+2} + ... = \sum_{k=1}^{\infty}\gamma^k R_{t+k+1}$$
- 현재 시점에서 앞으로 내가 받을 보상의 모든 합을 계산한다.
- time-step이 무한대로 진행한다고 위의 식에서 되어있지만 time-step이 커질수록 0으로 수렴하기 때문에 결국은 유한하다.
- \\(\gamma\\)가 0에 가까우면 'myopic' 평가, 근시안적 평가
- \\(\gamma\\)가 1에 가까우면 'far-sighted' 평가

### 그렇다면, 왜 discounted factor를 사용하나?

- 계산이 편하다.
- 무한대로 진행되더라도 markov reward 계산이 가능하다.
- discounted factor를 적용하지 않는 경우도 있다. 현재 상태를 유지하는 어떤 것을 하는 경우에 적용된다.

# Value function

- 현재 상태 s에서 앞으로 발생할 것으로 기대되는 expectation(E) 모든 reward의 합을 value라 한다. $$ v(s) = \mathbb{E}[G_t\;|\;S_t=s]$$
- value function은 현재 상태에서 미래의 모든 expectation reward를 표현한다.
- 강화학습에서 찾고자 하는 것은 value function을 최대한 optimal하게 찾는 것이다.

# Bellman Equation

- value function은 두 가지 파트로 나뉠 수 있다. 이때 사용되는 것이 bellman equation이다.<br>
    immediate reward, \\(R_{t+1}\\)<br>
    discounted value of successor state \\(\gamma v(S_{t+1})\\)<br>
$$ \begin{split} v(s) &= \mathbb{E}[G_t\;|\;S_t=s] \\ &= \mathbb{E}[R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ... \;|\; S_t=s] \\ &= \mathbb{E}[R_{t+1} + \gamma(R_{t+2} + \gamma R_{t+3} + ...) \;|\; S_t = s] \\ &= \mathbb{E}[R_{t+1} + \gamma G_{t+1} \;|\; S_t=s]   \\ &= \mathbb{E}[R_{t+1} + \gamma v(S_{t+1}) \;|\; S_t=s] \end{split}$$
- 따라서 bellman equation을 통해서 현재 시점의 value는 현재의 reward와 다음 시점의 value로 표현할 수 있다.
- 결과적으로, $$ v(s) = \mathcal{R}_s + \gamma \sum_{s' \in S} \mathcal{P}_{ss'}v(s') $$ 현재 상태 s에서 받을 reward + discounted factor * 다음 상태 s'으로 갈 확률 * s'에서 value function의 합

#### Example

![pic1](https://user-images.githubusercontent.com/22078438/48103349-14540580-e272-11e8-96a9-ab334107723d.PNG)

- 앞서 확인 했던 수식을 위와 같이 계산 가능함.

# Bellman equation 표현 using matrix

- 앞서서 하나의 state 단위로 수식을 보았는데, 여러 state단위로 해서 matrix로 표현
- 간단하게 Bellman equation을 나타내면 $$ v = \mathcal{R} + \gamma \mathcal{P}v $$
- 각 state마다 표현하면 
$$
\begin{bmatrix}
v(1) \\
\vdots \\
v(n)
\end{bmatrix}
=
\begin{bmatrix}
\mathcal{R}_1 \\
\vdots \\
\mathcal{R}_n
\end{bmatrix}
+
\gamma
\begin{bmatrix}
\mathcal{P}_{11} & \cdots &  \mathcal{P}_{1n} \\
\vdots \\
\mathcal{P}_{n1} & \cdots &  \mathcal{P}_{nn}
\end{bmatrix}
\begin{bmatrix}
v(1) \\
\vdots \\
v(n)
\end{bmatrix}
$$

# 실제 구현 equation

- Bellman equation은 linear equation이다. $$ \begin{split} v &= \mathcal{R} + \gamma \mathcal{P}v \\ (I - \gamma \mathcal{P})v &= \mathcal{R} \\
v &= (I - \gamma \mathcal{P})^{-1} \mathcal{R}
\end{split}$$

- 위 방식으로 직접 푸는 것은 사이즈가 작은 MRP에서 가능하다.
- 따라서, 우리는 Dynamic programming, Monte-Carlo evaluation, Temporal-Difference learning을 사용할 예정이다.