In [68]:
import numpy as np
from random import randint, choice

In [69]:
# 랜덤으로 장애물 위치 정하기

def gen_stop(sz, num):
    x, y = sz
    if num > x * y // 4:
        print("Too many num value.")
        return
    
    s = set()
    
    while len(s) != num:
        a, b = randint(0, x - 1), randint(0, y - 1)
        if (a, b) in s:
            continue
        if (a, b) == (0, 0) or (a, b) == (x - 1, y - 1):
            continue
            
        s.add((a, b))
        
    return list(s)

In [70]:
## initialize condition

sz = (7, 7)
r, c = sz

stop = [(0, 5), (2, 2), (3, 4), (6, 0)]
# stop = gen_stop(sz, 1)
    
gamma = 0.95
## 감가율

In [71]:
'''
보상 값을 저장하는 테이블
사실 보상은 상태 s 와 행동 a 에 관한 값이므로 인자가 상태와 행동이여야 하지만, 우리의 환경에서는 상태 변환 확률이 1이다.
따라서 다음 상태로 보상을 알 수 있으므로 편의를 위해 보상 테이블을 만들자.
'''
def get_reward_table(sz, stop):
    r, c = sz
    
    reward_table = np.zeros(sz)
    for x in stop:
        reward_table[x] = -1
    reward_table[r - 1][c - 1] = 1
    
    return reward_table


'''
지금까지 배운 dp 방법을 이용해 가치 이터레이션 구현
'''
def get_vtable(sz, stop, gamma, itr_num):
    r, c = sz
    dr = [(-1, 0), (0, -1), (1, 0), (0, 1)]
    # 각 방향
    
    rtable = get_reward_table(sz, stop)
    vtable = np.zeros(sz)
    # k 번째 타임스텝에 대한 가치가 들어갈 테이블
    
    for itr in range(itr_num):
        new_vtable = np.zeros(sz)
        # k + 1 번째 타임스텝에 대한 가치가 들어갈 테이블
        
        for i in range(r):
            for j in range(c):
                if (i, j) == (r - 1, c - 1) or (i, j) in stop:
                    # 상태가 도착 지점이거나 장애물이면 끝나는 지점이기 때문에, 가치를 감안 할 필요가 없다.
                    continue
                
                val_list = []
                for dx, dy in dr:
                    x, y = i + dx, j + dy
                    if x < 0 or y < 0 or x >= r or y >= r:
                        # 인덱싱 에러 방지
                        continue
                        
                    # 벨만 최적 방정식에 따른 점화식을 이용한다.
                    val = rtable[x][y] + gamma * vtable[x][y]
                    val_list.append(val)
                    
                # 가치 이터레이션이기 때문에 max 값만 취한다.
                new_vtable[i][j] = round(max(val_list), 3)
        
        vtable = new_vtable
        
    return vtable                   

In [72]:
'''
가치 테이블에 인자로 주어지면 이에 따라 탐욕 정책으로 행동하는 에이전트의 에피소드를 출력하는 함수
'''
def print_episode(table, stop, gamma):
    src = (0, 0)
    timestep = 0
    
    r, c = table.shape
    dr = [(-1, 0), (0, -1), (1, 0), (0, 1)]
    rtable = get_reward_table(sz, stop)
    
    while src not in stop and src != (r - 1, c - 1):
        print("timestep: {} current posion: {}".format(timestep, src))
        val_list = []
        act_list = []
        for dx, dy in dr:
            x, y = src[0] + dx, src[1] + dy
            if x < 0 or y < 0 or x >= r or y >= r:
                continue
            val = rtable[x][y] + gamma * table[x][y]
            val_list.append(val)
            act_list.append((x, y))
            
        candidate = []
        mx = max(val_list)
        for v, a in zip(val_list, act_list):
            if v == mx:
                candidate.append(a)
                
        src = choice(candidate)
        timestep += 1
        
    print("timestep: {} current posion: {}".format(timestep, src))

In [83]:
vtb = get_vtable(sz, stop, gamma, 35)

vtb

array([[0.568, 0.598, 0.629, 0.662, 0.697, 0.   , 0.773],
       [0.598, 0.629, 0.662, 0.697, 0.734, 0.773, 0.814],
       [0.629, 0.662, 0.   , 0.734, 0.773, 0.814, 0.857],
       [0.662, 0.697, 0.734, 0.773, 0.   , 0.857, 0.902],
       [0.697, 0.734, 0.773, 0.814, 0.857, 0.902, 0.95 ],
       [0.734, 0.773, 0.814, 0.857, 0.902, 0.95 , 1.   ],
       [0.   , 0.814, 0.857, 0.902, 0.95 , 1.   , 0.   ]])

In [86]:
print_episode(vtb, stop, gamma)

timestep: 0 current posion: (0, 0)
timestep: 1 current posion: (0, 1)
timestep: 2 current posion: (1, 1)
timestep: 3 current posion: (1, 2)
timestep: 4 current posion: (1, 3)
timestep: 5 current posion: (1, 4)
timestep: 6 current posion: (2, 4)
timestep: 7 current posion: (2, 5)
timestep: 8 current posion: (3, 5)
timestep: 9 current posion: (3, 6)
timestep: 10 current posion: (4, 6)
timestep: 11 current posion: (5, 6)
timestep: 12 current posion: (6, 6)
