# Markov Decision Process

Reward를 구하는 공식<br>
$ R(s, s^{\prime}, a) $

새로운 state인 $ s^{\prime} $는 선택된 action에 의해서 영향을 받습니다.<br>
그리고 action의 선택은 state transition function에 의해서 <br>
$ P(s, s^{\prime}, a) $

Markov Decision Process는 4 tuple &lt;S, A, P, R&gt; 입니다.

* **S** a finite set of states
* **A** a finite set of actions
* $ P(s, s^{\prime}, a) = Pr(s_{t+1} = s^{\prime} | s_t = s, a_t = a) $ <br>state s안에서 action a를 time t에 취할때, time t+1에 그 다음 state $ s^{\prime} $를 갖게 될 확률
* $ R(s, s^{\prime}, a) $ 또는 $ R(s^{\prime}, a) $ <br>이거슨.. states 그리고 action a를 했을때, state $ s^{\prime} $으로 넘어간후 (transition) 받게될 expected reward의 값

### Algorithms

MDP는 Linear Programming 또는 Dynamic Programming으로 해결할수 있습니다. 여기서는 Dynamic Programming 방식으로 해결을 합니다.

$$ \pi(s) = argmax_a\{ \sum_{s^{\prime}}{ P_a(s, s^{\prime}) R_a(s, s^{\prime} + \gamma V(s^{\prime})) }  \} $$

$$ V(s) = \sum_{s^{\prime}}{ P_{\pi(s)}(s, s^{\prime})} ( R_{\pi(s)}(s, s^{\prime}) + \gamma V(s^{\prime})) $$

In [28]:
import numpy as np
import mdptoolbox
from pprint import pprint as pp

In [38]:
P = np.array([[[0.5, 0.5],[0.8, 0.2]],[[0, 1],[0.1, 0.9]]])
R = np.array([[5, 10], [-1, 2]])
vi = mdptoolbox.mdp.QLearning(P, R, 0.9)
vi.run()
print 'policy:', vi.policy
print vi.V

policy: (1, 0)
(42.040598593539244, 35.58520097768905)
