# Temporal Difference 학습 구현

## 라이브러리 import와 클래스
라이브러리 import, Grid World와 Agent 클래스 구현까지의 과정은 Monte Carlo Method를 구현할 때와 동일하므로 재사용 한다.

In [1]:
import random

In [3]:
class GridWorld():
    def __init__(self):
        self.x = 0
        self.y = 0
    
    def step(self, a):
        if a == 0:
            self.move_right()
        elif a == 1:
            self.move_left()
        elif a == 2:
            self.move_up()
        elif a == 3:
            self.move_down()
        
        reward = -1
        done = self.is_done()
        return (self.x, self.y), reward, done

    def move_right(self):
        self.y += 1
        if (self.y > 3):
            self.y = 3
        
    def move_left(self):
        self.y -= 1
        if (self.y < 0):
            self.y = 0
    
    def move_up(self):
        self.x -= 1
        if self.x < 0:
            self.x = 0
            
    def move_down(self):
        self.x += 1
        if(self.x > 3):
            self.x = 3
    
    def is_done(self):
        if self.x == 3 and self.y == 3:
            return True
        else:
            return False
        
    def get_state(self):
        return (self.x, self.y)
    
    def reset(self):
        self.x = 0
        self.y = 0
        return (self.x, self.y)

In [2]:
class Agent():
    def __init__(self):
        pass
    
    def select_action(self):
        coin = random.random()
        if coin < 0.25:
            action = 0
        elif coin < 0.5:
            action = 1
        elif coin < 0.75:
            action = 2
        else:
            action = 3
        return action

## Main function

In [8]:
def main():
    env = GridWorld()
    agent = Agent()
    data = [[0,0,0,0],[0,0,0,0],[0,0,0,0],[0,0,0,0]] # 테이블 초기화
    gamma = 1.0
    alpha = 0.01 # Grid World에 비해 큰 값을 사용
    
    for k in range(80000): # 총 5만번의 에피소드 진행
        done = False
        while not done:
            x, y = env.get_state()
            action = agent.select_action()
            (x_prime, y_prime), reward, done = env.step(action)
            x_prime, y_prime = env.get_state()
            
            # 한번의 step이 끝나자마자 바로 테이블 데이터를 업데이트
            data[x][y] = data[x][y] + alpha * (reward + gamma * data[x_prime][y_prime] - data[x][y])
        env.reset()
            
    # 학습이 끝난 뒤 데이터 출력
    for row in data:
        print(row)

In [9]:
main()

[-58.252691304926216, -56.00881663761438, -52.65830349145866, -49.494757198330234]
[-56.3742907810427, -53.65965150141889, -47.18332933909267, -42.320454454860865]
[-53.361946680622886, -48.30432764016661, -38.406860060836706, -27.052844132953965]
[-50.65885812534927, -44.74509380956842, -28.783641755713244, 0]
