In [1]:
import numpy as np

In [25]:
class Environment2:
    def __init__(self):
        # 다른 객체 변수 필요없음!
        self.q_table = np.zeros((5, 5, 4))
        self.gamma = 0.9

    def update(self):
        # update를 할 때마다 식 3.20에 따라 q_table의 값을 변경
        gamma = self.gamma
        q_table = self.q_table
        for row in range(5):
            for col in range(5):
                for action in range(4):
                    r, c, reward = self.get_next_state((row, col), action)
                    q_table[row, col, action] = reward + gamma * np.max(q_table[r, c, :])
        self.q_table = q_table
        

    def get_next_state(self, state:tuple[int, int], action:int)->tuple[int, int, int]:
        # update 함수에 사용할 state와 action을 넣으면 next state와 reward를 반환하는 함수
        if state == (0, 1):
            row, col = (4, 1)
            reward = 10
            return (row, col, reward)
        elif state == (0, 3):
            row, col = (2, 3)
            reward = 5
            return (row, col, reward)
        else:
            try:
                if action == 0:
                    row, col = state[0]-1, state[1]
                elif action == 1:
                    row, col = state[0]+1, state[1]
                elif action == 2:
                    row, col = state[0], state[1]-1
                else:
                    row, col = state[0], state[1]+1
                value = self.q_table[row, col, :]
                reward = 0
            except IndexError:
                row, col = state[0], state[1]
                reward = -1 
            return (row, col, reward)
        
    def get_policy(self):
        # q_table 값에 따라 정책 화살표로 print
        dir_dict = {0: "↑", 1: "↓", 2: "←", 3: "→"}
        direction_list = []
        for row in range(5):
            direction_list_row = []
            for col in range(5):
                if row == 0 and col == 1 or row == 0 and col == 3:
                    direction_list_row.append("* ")
                    continue
                action_value = ""
                
                # 최대값을 가지는 행동의 모든 인덱스를 가져옴
                max_idx_list = np.argwhere(self.q_table[row, col, :] == np.max(self.q_table[row, col, :])).flatten().tolist()

                for i in max_idx_list:
                    action_value += dir_dict[i]
                action_value += " " * (2-len(max_idx_list))

                direction_list_row.append(action_value)

            direction_list.append(direction_list_row)
        return direction_list



In [27]:
env = Environment2()
print("초기 상태 가치 함수")
print(np.max(env.q_table, axis=2))

for i in range(100):
    env.update()

print("\n최적 행동 가치 함수로 계산한 최적 상태 가치 함수  (100번 반복)")
print(np.max(env.q_table, axis=2))

print("\n최적 행동 가치 함수로 계산한 정책")
print(np.array(env.get_policy()))

초기 상태 가치 함수
[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]

최적 행동 가치 함수로 계산한 최적 상태 가치 함수  (100번 반복)
[[21.97748529 24.4194281  21.97748529 19.4194281  17.47748529]
 [19.77973676 21.97748529 19.77973676 17.80176308 16.02158677]
 [17.80176308 19.77973676 17.80176308 16.02158677 14.4194281 ]
 [16.02158677 17.80176308 16.02158677 14.4194281  12.97748529]
 [14.4194281  16.02158677 14.4194281  12.97748529 11.67973676]]

최적 행동 가치 함수로 계산한 정책
[['→ ' '* ' '← ' '* ' '← ']
 ['↑→' '↑ ' '↑←' '← ' '← ']
 ['↑→' '↑ ' '↑←' '↑←' '↑←']
 ['↑→' '↑ ' '↑←' '↑←' '↑←']
 ['↑→' '↑ ' '↑←' '↑←' '↑←']]
