In [4]:
# 라이브러리 import
import random

In [5]:
# Grid World 클래스 
# https://questionet.tistory.com/65
class GridWorld():
    # 테이블은 4x4 크기. 에이전트의 초기 위치는 테이블의 Left-top이므로
    # x,y 좌표값은 0,0으로 초기화
    # 따라서 x,y 값의 범위는 0~3 까지라는 것을 알 수 있다.
    # x,y는 에이전트가 테이블의 각 상태에 총 몇번 방문했는지 기록하는 역할을 한다.

    def __init__(self):
        self.x=0
        self.y=0
    
    
    # 위 메인함수의 16번 라인에서 에이전트가 동서남북 중 한쪽 방향으로 액션을 하면
    # 에이전트의 액션을 받은 환경 그리드월드는 상태변이를 일으키고 보상을 에이전트에게 줘야 하는데
    # 이 역할을 하는게 step 함수다.
    # 에이전트가 랜덤 정책에 따라 액션을 하면 위 에이전트 클래스의 select_action 메서드에 따라 
    # 서쪽은 0, 북쪽은 1, 동쪽은 2, 남쪽은 3을 반환하고
    # 각 숫자가 환경 GridWorld 클래스의 step 메서드의 인자 a에 입력된다.    
    def step(self,a):
        if a==0:
            self.move_right()
        elif a==1:
            self.move_left()
        elif a==2:
            self.move_up()
        elif a==3:
            self.move_down()
        
        reward=-1
        done=self.is_done()
        return(self.x,self.y), reward, done
    
    # 이하 4개의 메서드는 에이전트가 매 에피소드마다 시작점에서 도착점까지 지나간 모든 좌표를
    # 다시 기록할 수 있게 하는 함수들이다.
    # 다시 말해 각 상태를 몇번 방문했는지 기록
    
    # 동쪽으로 움직이면 y를 +1
    # 테이블이 4x4 크기이므로 테이블 동쪽 끝에서 에이전트가 오른쪽 액션을 취하면 제자리에 위치
    
    # 서쪽으로 움직이면 y를 -1
    # 북쪽으로 움직이면 x를 +1
    # 남쪽으로 움직이면 x를 -1
    def move_right(self):
        self.y+=1
        if self.y>3:
            self.y=3
    
    def move_left(self):
        self.y-=1
        if self.y<0:
            self.y=0
    
    def move_up(self):
        self.x-=1
        if self.x<0:
            self.x=0
    
    def move_down(self):
        self.x+=1
        if self.x>3:
            self.x=3
    
    # 에이전트의 액션에 따른 보상을 주고 에이전트의 위치를 기록한 후 
    # 에이전트가 계속 움직여야 하는지 결정하는 메서드다.
    # 만약 에이전트가 도착점에 위치해 있다면
    # True를 반환하고 위 24번 코드라인에 따라 done=True가 되어
    # 메인함수에서 하나의 에피소드를 실시하는 while 반복문이 종료된다.
    def is_done(self):
        if self.x==3 and self.y==3:
            return True
    
        else:
            return False
    
    def get_state(self):
        return (self.x, self.y)
    
    # 매 에피소드가 끝날 때마다 에이전트의 위치를 시작점으로 초기화하는 메서드
    def reset(self):
        self.x=0
        self.y=0
        return (self.x, self.y)
    
class Agent():
    def __init__(self):
        pass
    
    def select_action(self):
        coin=random.random()
        if coin<0.25:
            action=0
        elif coin<0.5:
            action=1
        elif coin<0.75:
            action=2
        else:
            action=3
        return action

In [10]:
# 메인함수
def main():
    env=GridWorld()
    agent=Agent()
    data=[[0,0,0,0],[0,0,0,0],[0,0,0,0],[0,0,0,0]]
    gamma=1.0
    alpha=0.01 #MC에 비해 큰 값을 사용
    
    for k in range(50000): # 총 5만번의 에피소드 진행
        done=False
        while not done:
            x,y=env.get_state()
            action=agent.select_action()
            (x_prime, y_prime), reward, done=env.step(action)
            x_prime, y_prime=env.get_state()
            
            # 한 번의 step이 진행되자 마자 바로 테이블의 데이터를 업데이트 해줌
            data[x][y]=data[x][y]+alpha*(reward+gamma*data[x_prime][y_prime]-data[x][y])
            
        env.reset()
        
    # 학습이 끝나고 난 후 데이터를 출력해보기 위한 코드
    for row in data:
        print(row)

In [11]:
if __name__=="__main__":
    main()

[-59.9739162736744, -58.289321359353984, -54.798060488804985, -51.661928846005814]
[-58.402437442200934, -55.58984354422542, -50.68086756061721, -45.25806815891918]
[-55.030299916073865, -50.347906205252315, -41.52505044878813, -29.758825593005835]
[-51.69176633315127, -44.66795064549866, -29.842893710611204, 0]
