# MDP2 Markov Reward Process(MRP)

MDP로 가기 위한 전 단계

- Markov Chain with a Reward r
- State to State 의 sequence 처럼 Reward 에대한 sequence 도 존재
- Discount factor $\gamma$



## MRP Definition
**Definition: A MRP is a tuple $<S, P, R, \gamma > $**

- S, State의 유한 집합 (finite set of states)
- P, State 간의 이동 확률 행렬 (state transition probability matrix)  
$ P_{ss'} = P[S_{t+1} = s' | S_t = s]$  
  
- R, 보상 함수(Reward Function), $ R = E[R_{t+1} | S_t = s] $ state 's' 에서 시작했을 때 얻을 수 있는 Reward 기댓값
- $\gamma$, Discount factor $\gamma \in [0, 1]$

ex)
Student MRP
![Student_MRP](./StudentMRP.png)

빨간색으로 된 R 의 값이 각 State에서의 보상

## "Return" - Reward over Multiple Transitions

*Definition: Return $G_t$ is the total discounted reward from time-step t*

$$G_t = R_{t+1} + \gamma R_{t+2} + \cdots = \sum_{k=0}^{\infty}{\gamma^kR_{t+k+1}}$$

$R_{t+1}$ 해당 time에 얻게 되는 immediate reward!  


## Discount Factor $\gamma$

- Reasonable(합리적이다.) Both 보상의 합의 최대화 And 미래의 보상 보다 현재의 보상이 더 선호됨
- 해결 -> rewards decay exponentially
- Mathematically convenient (Return 과 value 가 발산하는 것을 피함)

## Value Function

- Value Function 은 State s 로부터 긴시간 에피소드가 진행 되었을 때 얻어진 Return의 기댓값이다.

**Definition: Expected Return starting from State s**

$$v(s) = E[ G_t \ | \ S_t = s]  = E [R_{t+1} + \gamma R_{t+2} + \cdots \ | \ S_t = s] $$

### Computing Value Function of MRP (Smart and Efficient <-> Naive)

- Value Function $v(S_t)$ -> two parts
    - Immediate reward $R_{t+1}$ at state $S_t$ 해당 State에서 받는 즉각 보상
    - Discounted value of successor state $\gamma v(S_{t+1})$  그 다음 State에서 부터의 Value Function에 $\gamma$ 만큼 감쇄 된 값
    
$
v(s) = E[G_t \ | \ S_t = s] \\  
\ \ \ \ \ \ = E[R_{t+1} + \gamma R_{t+2} + \gamma^2R_{t+3} + \cdots \ | \ S_t = s] \\
\ \ \ \ \ \ = E[R_{t+1} +\gamma(R_{t+2} + \gamma R_{t+3} + \cdots) \ | \ S_t = s] \\
\ \ \ \ \ \ = E[R_{t+1} + \gamma G_{t+1} \ | \ S_t = s] \\
\ \ \ \ \ \ = E[R_{t+1} + \gamma v(S_{t+1}) \ | \ S_t = s] \ (Bellman Equation)
$
로 유도 될 수 있다.  
즉, 현재 State 로 부터의 Value 는 다음 State에 대한 Reward 그리고 다음 State 에서 Value의 합인 것.  
  
Bellman Equation for MRP 를 도출 해낸다.  
$$v(s) = R_s + \gamma \sum_{s'\in S}{P_{ss'}v(s')}$$

보상 + 다음 스테이트에 대한 Value 기댓값 {Discount 모든스테이트에 대한 합계 (다음스테이트 에서의 Value * 넘어갈 확률)}

### Bellman Equation in Matrix Form

$v = R + \gamma Pv$ (행렬식)

$$ 
\begin{bmatrix} v(1)  \\ \vdots \\ v(n) \end{bmatrix} = 
\begin{bmatrix} R_1  \\ \vdots \\ R_n \end{bmatrix} + \gamma
\begin{bmatrix} p_{11} & \cdots & p_{1n}  \\ \vdots \\ p_{n1} & \cdots & p_{nn} \end{bmatrix}
\begin{bmatrix} v(1)  \\ \vdots \\ v(n) \end{bmatrix}
$$

위 행렬식으로, Fixed Point Iteration 수치적 계산을 통해 계산할 수 있다.  

In [22]:
import numpy as np

In [23]:
# [C1 C2 C3 Pass Pub FB Sleep] = [0 1 2 3 4 5 6]

R = [-2, -2, -2, 10, 1, -1, 0]
gamma = 0.9

# if a sequence is given (Episode
S = [0, 1, 2, 4, 2, 4]

G = 0 # Return

for i in range(6):
    G = G + (gamma**i)*R[S[i]] # gamma를 적용한 return 계산
    
print(G)

-5.41271


In [24]:
P = [[0, 0.5, 0, 0, 0, 0.5, 0],
    [0, 0, 0.8, 0, 0, 0, 0.2],
    [0, 0, 0, 0.6, 0.4, 0, 0],
    [0, 0, 0, 0, 0, 0, 1],
    [0.2, 0.4, 0.4, 0, 0, 0, 0],
    [0.1, 0, 0, 0, 0, 0.9, 0],
    [0, 0, 0, 0, 0, 0, 1]]

R = [-2, -2, -2, 10, 1, -1, 0]
gamma = 0.9

#  sequence generated by Markov chain
# [C1 C2 C3 Pass Pub FB Sleep] = [0 1 2 3 4 5 6]

# starting from 0
x = 0
S = []
S.append(x)

for i in range(5):
    x = np.random.choice(len(P), 1, p=P[x][:])[0]
    S.append(x)

G = 0
for i in range(5):
    G = G + (gamma**i)*R[S[i]]
print(S)
print(G)

[0, 1, 6, 6, 6, 6]
-3.8


Student MRP With Values
![student_MRP_with_values](./StudentMRP_with_value.png)

### Value Function 대수적 방법

$$ v = R + \gamma Pv \Longleftrightarrow
(I - \gamma P)v = R \Longleftrightarrow
v = (I - \gamma P)^{-1} R
$$

In [25]:
P = [[0, 0.5, 0, 0, 0, 0.5, 0],
    [0, 0, 0.8, 0, 0, 0, 0.2],
    [0, 0, 0, 0.6, 0.4, 0, 0],
    [0, 0, 0, 0, 0, 0, 1],
    [0.2, 0.4, 0.4, 0, 0, 0, 0],
    [0.1, 0, 0, 0, 0, 0.9, 0],
    [0, 0, 0, 0, 0, 0, 1]]

R = [-2, -2, -2, 10, 1, -1, 0]

P = np.asmatrix(P)
R = np.asmatrix(R)
R = R.T # Transpose

gamma = 0.9

v = (np.eye(7) - gamma*P).I*R
print(v)

[[-5.01272891]
 [ 0.9426553 ]
 [ 4.08702125]
 [10.        ]
 [ 1.90839235]
 [-7.63760843]
 [ 0.        ]]


### Fixed Point Iteration 수치해석적 방법 (효율적 계산)

$$v_{k+1}(s) \longleftarrow R(s) + \gamma \sum_{s'\in S}{p(s'|s)v_k(s')}$$

In [26]:
gamma = 0.9

v = np.zeros([7, 1])
for i in range(50):
    v = R + gamma*P*v
    
print(v)

[[-5.01073295]
 [ 0.9428713 ]
 [ 4.08727922]
 [10.        ]
 [ 1.90900857]
 [-7.63401027]
 [ 0.        ]]
