# Markov Process (MDP1)

강화학습의 시작 알고리즘

## Sequential Process

시간에 따른 State 들의 집합으로, 다음 State로 넘어갈 확률이 이전의 있었던 모든 State들의 경우에 의해 영향이 미치는 Process 이다.  

곧, $p(q_0, q_1, \cdots , q_T) = p(q_0)p(q_1|q_0)p(q_2|q_1q_0) \cdots $ 인 것인데, 이경우는 수학적으로 계산하는 것이 불가능 하다.

## Markov Chain (Process)
Sequential Process의 한계를 극복하기 위하여 제시.  
$$ Markovian property(assumption): p(q_{t+1} | q_t, \cdots , q_0) = [(q_{t+1} | q_t) $$

Markovian Property로 가정 하는 것은, 현 상태에서 그 이전 상태의 확률만 고려한다는 것, 과거의 것은 바로 이전 State에 축적이 되어 있다 라는 관점  

*information state(바로 이전 State): sufficient statistic of history*  
* Given current state, the past does not matter
* The state captures all relevant information from the history
* The state is a sufficient statistic of the future

### State Transition Matirx
from State s to State s' 가 될 확률 p(s -> s'), 즉 $P_{ss'} = P[S_{t+1} = s' | S_t =. ]$  
즉, State Transition Matrix 란 N개의 State 사이에서 Transition이 일어날 확률을 값으로 하는 행렬이다.  
$$ P = from 
\begin{bmatrix} 
    P_{11}& \cdots & P_{1n} \\
    \vdots \\
    P_{n1}& \cdots & P_{nn} 
\end{bmatrix}
$$

### Definition: Markov Process
Markove Process는 (memoryless random process)기억상실 랜덤 과정  
수동적 활률론적 행동 (Passive Stochastic Behavior)  
랜덤 State의 연속  

3가지 요약!
* finite set of N states, $S = {S_1, \cdots , S_N}$
* state transition probability, $P = {p_{ij}}_{MxM}, 1 \leq i, j \leq M$
* initial state (초기 상태) probability distribution , $\pi = {\pi_{i}}$

예시)
Episodes Example
![Property of P Matrix](./Markovian_Property_ex.png)

Episode1 : S_1 -> S_3 -> S_2 -> ...

## Chapman-Kolmogorov Equation

- finite state space , $S={S_1, \cdots , S_N}$
- transition probability matrix = P $
\begin{bmatrix} 
    p_{11}& p_{12} & p_{13} \\
    p_{21}& p_{22} & p_{23} \\
    p_{31}& p_{32} & p_{33}
\end{bmatrix}
$
- initial distribution $\pi = {\pi_i(0)}$ 

*one-step transition probabilities*  
$ [\pi_1(1)\ \pi_2(1)\ \pi_3(1)] = [\pi_1(0)\ \pi_2(0)\  \pi_3(0)]P$

***N-step transition probabilities***  
$ [\pi_1(n)\ \pi_2(n)\ \pi_3(n)] = [\pi_1(n-1)\  \pi_2(n-1)\ \pi_3(n-1)]P^n$

Key recursion : $$ p_{ij}(n) = \sum_{k=1}^{N}{p_{ik}(n-1)p_{kj}(1)} $$

### Stationary Distribution (정적 분배)
Steady-state behavior, $p_{ij}(n) 은 어떤 \pi_j 로 수렴할까? $  

무수히 많은 경우가 지나고나서 해당 State에 있을 활률을 구하는 것! n -> $\infty$ 로 간다고 하자!  

$$ p_{ij}(n) = \sum_{k=1}^{N}{p_{ik}(n-1)p_{kj}(1)}$$
$$\pi_j = \sum_{k=1}^{N}{\pi_kp_{kj}}$$
$$\pi = \pi P \ [행렬곱!]$$

## Question
- [ ] 아이겐 벨류, 아이겐 벡터?
- [ ] Eigen-analysis  
- [ ] Fixed-point iteration

Fixed Point Iteration -> f(x) = 0 의 해를 구하기 위해 x = g(x) 의 꼴로 변형하고, $x_{k+1} = g(x_k)$ 로 update 를 iteration 해줌으로써, 해에 근접할 수 있다!  

이때, x = Ax + b 라는 식의 행렬로도 나타내 지는데, $A^k$ 이 수렴해야지 해에 근접해 진다.  $A^k$ 가 수렴하는 것은 행렬 A 의 Eigen Value 가 모두 1 보다 작으면 된다.  

## Lab

In [2]:
import numpy as np

P = [[0,0,1],
    [1/2, 1/2, 0],
    [1/3, 2/3, 0]]

In [3]:
print(P[1][:])

[0.5, 0.5, 0]


In [4]:
s = np.random.choice(3, 1, p = P[1][:])[0] # 1st par a = arrange(a)
print(s)

1


In [5]:
# sequential Processes
# sequence generated by Markov chain
# S1 = 0, S2 = 1, S3 = 2

#starting from 0
x = 0
S = []
S.append(x)
# get episode which get 10 sequences of state
for i in range(10):
    x = np.random.choice(3, 1, p = P[x][:])[0]
    S.append(x)
    
print(S)

[0, 2, 1, 1, 0, 2, 1, 1, 1, 0, 2]


In [9]:
P = [[0, 0.5, 0, 0, 0, 0.5 ,0],
    [0, 0, 0.8, 0, 0, 0, 0.2],
    [0, 0, 0, 0.6, 0.4, 0, 0],
    [0, 0, 0, 0, 0, 0, 1],
    [0.2, 0.4, 0.4, 0, 0, 0, 0],
    [0.1, 0, 0, 0, 0, 0.9, 0],
    [0, 0, 0, 0, 0, 0, 1]]

# sequential Processes
# sequence generated by Markov chain
# [C1 C2 C3 Pass Pub FB Sleep] = [0 1 2 3 4 5 6]

name = ['C1', 'C2', 'C3', 'Pass', 'Pub', 'FB', 'Sleep']

# starting from 0
x = 0
S = []
S.append(x)

for i in range(5):
    x = np.random.choice(7, 1, p=P[x][:])[0]
    S.append(x)
    
print(S)

[0, 1, 2, 3, 6, 6]


In [10]:
episode = []

for i in S:
    episode.append(name[i])
    
print(episode)

['C1', 'C2', 'C3', 'Pass', 'Sleep', 'Sleep']


In [13]:
P = [[0, 0, 1],
    [1/2, 1/2, 0],
    [1/3, 2/3, 0]]

u = [0, 1, 0] # State distribution probability

P = np.asmatrix(P)
u = np.asmatrix(u)

for i in range(100):
    u = u*P # 행렬곱!
    
print(u)

[[0.3 0.4 0.3]]


In [14]:
u = [0, 1, 0]

u = u*P**10
print(u)

[[0.3000217  0.39989632 0.30008198]]


In [15]:
# eigenvalue = 1 and associated eigenvector

d, v = np.linalg.eig(P.T) # Transpose!

print(d)

[-0.25+0.32274861j -0.25-0.32274861j  1.  +0.j        ]


In [17]:
v[:, 2]/np.sum(v[:,2])

matrix([[0.3-0.j],
        [0.4-0.j],
        [0.3-0.j]])