In [1]:
import numpy as np
import matplotlib.pyplot as plt

# 1. Markov Process

### 1-1. Markov Process (Weather Model)
맑음과 비, 두 가지 상태를 가진 마르코프 프로세스를 시뮬레이션 해 보자.  

In [2]:
# weather model
# state transition probability matrix
# index 0: Sunny, index 1: Rainy
P = [[0.8, 0.2],
     [0.1, 0.9]]

In [3]:
# generate a random number between 0 and 1 from uniform distribution
# run this cell many times and observe how number varies
np.random.uniform()

0.5506204096605429

In [4]:
# sampling of Markov process (2 states)
num_episodes = 7 # 에피소드의 갯수 (예: 7일 동안의 관찰)
list_episodes = [] # 에피소드들을 모아놓기 위한 리스트
length_episode = 24 # 한 에피소드의 길이 (예: 24시간 동안 날씨 관찰)

for i in range(num_episodes):

    # start of a new episode
    episode = [] # 한 에피소드를 기록하기 위한 리스트
    s = 0 # current state
    for t in range(length_episode):
        prob = np.random.uniform()
        s = 0 if prob <= P[s][0] else 1
        episode.append(s)
    
    list_episodes.append(episode)

list_episodes

[[0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0],
 [0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
 [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
 [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1],
 [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 1],
 [0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1],
 [1, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]

샘플링 결과는 매 번 실행할 때마다 바뀐다(random process).  
행렬 P의 대각선(diagonal) 값들이 각각 0.8, 0.9로 크다는 것은 현재 상태(0 또는 1)가 한동안 계속 유지될 가능성이 높다는 뜻.  
P의 원소들을 임의로 바꿔 가면서 실험해 보자(단, 각 row 방향의 합은 항상 1이 되어야 한다).  
많은 반복을 거듭했을 때, 평균적으로 각 상태에 머무는 비율(확률)은 얼마가 되는가?  

### 1-2. Markov Process (Employee Model)
집, 커피, 대화, 컴퓨터라는 4개의 상태를 가진 회사원 모델을 마르코프 프로세스로 시뮬레이션 해 보자.  
임의의 n개의 상태를 가진 Markov process를 시뮬레이션하기 위해  
상태변화확률이 n x n 행렬로 주어질 때, 상태 변화를 결정하는 함수를 만들어 보자.  

In [5]:
# employee model
# state transition matrix
# index: 0: home, 1: coffee, 2: chat, 3: computer
P = [[0.6, 0.4, 0.0, 0.0],
     [0.0, 0.1, 0.7, 0.2],
     [0.0, 0.2, 0.5, 0.3],
     [0.2, 0.2, 0.1, 0.5]]

csP = np.cumsum(P, axis=1)
print(csP)

[[0.6 1.  1.  1. ]
 [0.  0.1 0.8 1. ]
 [0.  0.2 0.7 1. ]
 [0.2 0.4 0.5 1. ]]


In [6]:
zero_vec = np.zeros((4, 1))
print(zero_vec)

[[0.]
 [0.]
 [0.]
 [0.]]


In [7]:
csP = np.concatenate((zero_vec, csP), axis=1)
print(csP)

[[0.  0.6 1.  1.  1. ]
 [0.  0.  0.1 0.8 1. ]
 [0.  0.  0.2 0.7 1. ]
 [0.  0.2 0.4 0.5 1. ]]


In [8]:
def next_state(s, P):
    '''
    현재 상태 s와 state transition matrix P가 주어질 때,
    다음 상태 s를 반환하는 함수

    input:
    s: 0에서 n-1까지의 값을 가질 수 있는 정수 (상태)
    P: n x n 행렬 (state transtion matrix)

    output:
    next_s: 확률에 의해 결정된 다음 상태
    '''

    n = len(P) # P 행렬의 행의 갯수 (= 상태의 갯수)

    # cumulative sum of the state transition matrix 
    csP = np.cumsum(P, axis=1) # sum along rows
    zero_vec = np.zeros((n, 1)) # a column vector (nx1 matrix) with zero elements
    csP = np.concatenate((zero_vec, csP), axis=1) # concatenate two matrices

    prob = np.random.uniform()
    for k in range(n):
        if (prob >= csP[s][k]) and (prob < csP[s][k+1]):
            next_s = k
            break

    return next_s    

In [9]:
# sampling of Markov process (4 states)
num_episodes = 7
list_episodes = []
length_episode = 24

for i in range(num_episodes):

    # start of a new episode
    episode = []
    s = 0 # current state
    for t in range(length_episode):
        s = next_state(s, P) # 다음 상태를 다시 s로 업데이트
        episode.append(s)
    
    list_episodes.append(episode)

list_episodes

[[0, 1, 2, 1, 3, 3, 2, 3, 3, 2, 1, 2, 3, 1, 2, 1, 2, 2, 1, 3, 3, 0, 0, 0],
 [0, 0, 0, 0, 1, 2, 3, 0, 1, 3, 3, 3, 1, 1, 2, 2, 2, 3, 0, 1, 2, 1, 3, 2],
 [0, 0, 0, 0, 1, 2, 2, 3, 3, 3, 2, 2, 3, 0, 1, 1, 3, 3, 3, 2, 1, 3, 0, 1],
 [0, 0, 1, 2, 2, 2, 2, 2, 3, 3, 0, 0, 0, 0, 1, 2, 2, 1, 2, 2, 1, 2, 2, 3],
 [0, 0, 1, 2, 3, 0, 0, 0, 0, 1, 3, 2, 3, 3, 3, 3, 2, 3, 1, 2, 1, 3, 2, 2],
 [0, 1, 2, 3, 3, 1, 2, 1, 2, 3, 0, 1, 2, 2, 2, 3, 3, 0, 1, 3, 3, 3, 1, 1],
 [0, 1, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 1, 2, 2, 2, 1, 1, 2, 2]]

지금까지의 예시에서는, 어떤 상태도 최종적이지 않고 다시 다른 상태로 바뀔 수 있었다.  
따라서 이론적으로는 마르코프 프로세스가 무한히 반복될 수 있으므로, 하나의 에피소드 길이를 고정해서 시뮬레이션 했다.  
만약 어떤 상태가 자기 자신으로 돌아오는 확률이 1이면 나머지로 변할 확률이 자연히 0이 되고, 이 경우 이 상태에 도달하면 다른 상태로 바뀔 수 없다.  
이러한 상태를 최종 상태(terminal state)라 하고, 한 에피소드는 최종 상태에 도달하면 유한한 횟수 안에 끝나게 된다.  

이제, 위의 회사원 예제에서 시작 상태가 3(컴퓨터)이고 상태 0(집)에 도달하게 되면, 한 에피소드 (예: 하루)의 끝이 되게 만들어 보자.  
이를 위해 상태변환 행렬 P의 값을 수정한다.  

In [10]:
# employee model - 2
# new state transition matrix
# index: 0: home, 1: coffee, 2: chat, 3: computer
# changed the first row of P
P = [[1.0, 0.0, 0.0, 0.0],
     [0.0, 0.1, 0.7, 0.2],
     [0.0, 0.2, 0.5, 0.3],
     [0.2, 0.2, 0.1, 0.5]]

마르코프 프로세스를 시뮬레이션 할 때, 에피소드 길이의 제한을 아주 크게 두고 최종 상태(0)에 도달하게 하면 한 에피소드가 끝나도록 코드를 수정하자.  

In [19]:
# sampling of Markov process (4 states)
num_episodes = 7
list_episodes = []
length_episode = 100000 # 최대 에피소드 길이

for i in range(num_episodes):

    # start of a new episode
    episode = []
    s = 3 # current state (computer)
    t = 0 # episode counter (time)
    while (t < length_episode) and (s != 0):
        s = next_state(s, P) # 다음 상태를 다시 s로 업데이트
        episode.append(s)
        t += 1
        
    list_episodes.append(episode)

list_episodes

[[3, 0],
 [3, 0],
 [1, 1, 3, 3, 1, 3, 0],
 [1, 2, 2, 2, 2, 1, 3, 3, 3, 0],
 [0],
 [3, 3, 3, 0],
 [1, 2, 2, 3, 0]]

결과에서 보듯이, 일반적으로 각 에피소드의 길이가 달라지게 된다.  