# Chapter 3. MDP and DP
## 1. Markov Chain and Markov Process

- Markov Property : 미래 상태가 현재 상태에만 의존
- Markov Chain : 오로지 현재 상태에만 의존하여 다음 상태를 예측하는 확률 모델

> ### 용어
> - Transition : 한 상태에서 다른 상태로 옮겨가는 것
> - Transition Probability : 다른 상태로 옮겨갈 확률

## 2. MDP(Markov Decision Process)

> ### A. Value and Return
> - Value(r) : 수행한 행동의 보상
> - Return(R) : 환경으로 받느 미래 보상의 총합  
> $$ R_{t} = r_{t+1} + r_{t+2} + ... + r_{T} $$

> ### B. Episodic and Nonepisodic Task
> - Episodic : 최종 상태가 있는 작업
> - Nonepisodic : 최종 상택 없는 작업

> ### C. Discount Factor
> - 이유 : Continuous 작업에서는 $R_{t}$이 $ \infty $가 될 수 있음
> - 해결  
> $$ R_{t} = \sum_{k}^{\infty} \gamma ^{k}r_{t+k+1} $$

> ### D. Policy Function($\pi$)
> - $\pi_{s} : s \rightarrow a $  
> - 목표 : Optimal Policy를 찾는 것

> ### E. Stable-Value Function(=Value Function)
> - $\pi$로 행동하는 에이전트가 특정 상태에 있는 것이 얼마나 가치 있는지 알려줌  
> $$ V^{\pi}{(s)} = E_{\pi}[R_{t}|s_{t} = s] = E_{\pi}[\sum_{k}^{\infty} \gamma ^{k}r_{t+k+1}|s_{t} = s]$$

> ### G. State-Action Function(=Q Function)
> - $\pi$로 행동할 때, 각 상태에서 특정 행동을 하는 것이 얼마나 가치 있는지 나타내는 함수
> $$ Q^{\pi}{(s,a)} = E_{\pi}[R_{t}|s_{t} = s, a_{t} = a] $$

>> ### 용어
>> - State($S$) : 에이전트가 놓일 수 있는 상태($s$)의 집합
>> - Action($A$) : 에이전트가 한 상태에서 다른 상태로 옮겨가기 위해 행할 수 있는 행동($a$)의 집합  
>> - Transition Probability($P_{ss^{'}}^{a}$) : $a : s \rightarrow s^{'}$로 옮겨가는 전이확률  
>> - Reward Probability($R_{ss^{'}}^{a}$) : $a : s \rightarrow s^{'}$로 옮겨가며 받는 보상확률
>> - Discount Factor($\gamma$) : 현재와 미래 보상의 중요도제어

## 3. Bellman Equation

- MDP의 해를 찾을 수 있음
- MDP의 해 : 최적 정책과 최적 가치 함수를 찾는 것

- 최적 가치 함수 : 항상 큰 가치를 갖는 가치함수 = 큐함수의 최댓값

$$ V^{*}(s) = \max_{\pi} V^{*}(s) = \max_{a} Q^{\pi}(s,a) $$  

- 가치함수에 대한 벨만 방정식

$$ V^{\pi}(s) = \sum_{a} \pi(s,a) \sum_{s^{'}} P_{ss^{'}}^{a}[R_{ss^{'}}^{a} + \gamma V^{\pi}(s^{'})] $$

- 큐함수에 대한 벨만 방정식

$$ Q^{\pi}(s,a) = \sum_{s^{'}} P_{ss^{'}}^{a}[R_{ss^{'}}^{a} + \gamma Q^{\pi}(s^{'},a^{'})] $$

- 다시 표현한 최적 가치 함수의 벨만 최적 방정식

$$ V^{*}(s) = \max_{a} \sum_{s^{'}} P_{ss^{'}}^{a}[R_{ss^{'}}^{a} + \gamma Q^{\pi}(s^{'},a^{'})] $$


## 4. Solution of Bellman Equation

> ### Dynamic Programming
> - 문제를 여러개의 하위 문제로 나누고, 각 하위 문제의 해를 저장하며 이를 재활용하는 방식
>
>> #### Value Iteration
>> - 랜덤 가치함수로 시작
>> - 여러번의 반복을 통해 최적 가치 함수 찾아감
>> 
>> <img src="Theory%20images/VI.png" /> 
>
>> #### Policy Iteration
>> - 랜덤 정책으로 시작
>> - 여러번의 반복을 통해 최적 가치 함수 찾아감
>>
>> 1. Policy Evaluation : 현재 정책의 가치함수 평가
>> 2. Policy Improvement : 평가된 가치함수가 최적이 아니면 새 정책으로 갱신
>> 
>> <img src="Theory%20images/PI.png">