In [1]:
import numpy as np
#GUI로 그리드월드 환경을 보여주는 클래스
from environment_policy import GraphicDisplay, Env


class PolicyIteration:
    def __init__(self, env):
        # 환경에 대한 객체 선언
        self.env = env
        # 모든 state에 대해 가치함수를 계산하기 때문에 가치함수를 2차원 리스트로 초기화
        #env.width , env.height 너비와 높이
        self.value_table = [[0.0] * env.width for _ in range(env.height)]
        # 상 하 좌 우 동일한 확률로 정책 초기화
        self.policy_table = [[[0.25, 0.25, 0.25, 0.25]] * env.width
                            for _ in range(env.height)]
        # 마침 상태의 설정
        self.policy_table[2][2] = []
        # 할인율
        self.discount_factor = 0.9

    # 벨만 기대 방정식을 통해 다음 가치함수를 계산하는 정책 평가
    '''
    모든 상태의 value_function을 업데이트하기 위해 next_value_table을 선언한 다음 계산 결과를
    next_balue_table에 저장
    
    '''
    def policy_evaluation(self):
        # 다음 가치함수 초기화
        next_value_table = [[0.00] * self.env.width
                           for _ in range(self.env.height)]

        # 모든 상태에 대해서 벨만 기대방정식을 계산
        for state in self.env.get_all_states():
            value = 0.0
            # 마침 상태의 가치 함수 = 0
            if state == [2, 2]:
                next_value_table[state[0]][state[1]] = value
                continue

            # 벨만 기대 방정식
            #env.possible_actions : 상, 하 좌, 우
            #env.state_after_action 특정 상태에서 특정 행동을 했을 때 에이전트가 가는 다음 상태
            #get_policy 함수를 통해 각 state에 각 action에 대한 확률값을 구함
            
            for action in self.env.possible_actions:
                next_state = self.env.state_after_action(state, action)
                reward = self.env.get_reward(state, action)
                next_value = self.get_value(next_state)
                #다음 state로 갔을 때 받을 보상 + 다음 상태의 감마를 곱해 더함
                #모든 행동에 대해 value값을 계산하고 더하면 기댓값을 계산한 것이 됨
                value += (self.get_policy(state)[action] *
                          (reward + self.discount_factor * next_value))

            next_value_table[state[0]][state[1]] = value

        self.value_table = next_value_table

    # 현재 가치 함수에 대해서 탐욕 정책 발전
    #정책 평가를 통해 평가하면 그에 따른 새로운 가치함수를 얻음
    def policy_improvement(self):
        next_policy = self.policy_table
        for state in self.env.get_all_states():
            if state == [2, 2]:
                continue
            
            value_list = []
            # 반환할 정책 초기화
            result = [0.0, 0.0, 0.0, 0.0]

            # 모든 행동에 대해서 [보상 + (할인율 * 다음 상태 가치함수)] 계산
            for index, action in enumerate(self.env.possible_actions):
                next_state = self.env.state_after_action(state, action)
                reward = self.env.get_reward(state, action)
                next_value = self.get_value(next_state)
                #r_s,a + γ *V(s`)
                value = reward + self.discount_factor * next_value
                value_list.append(value)
            
            #list 담긴 값들 중 max 함수를 통해 가장 큰 값을 알아냄
            # 받을 보상이 최대인 행동들에 대해 탐욕 정책 발전
            #np.argwhere  : 특정 데이터의 위치 value_list의 가장 큰 값의 위치(index)
            # 가장 큰 값이 여러개라면 여러개의 index값을 반환
            max_idx_list = np.argwhere(value_list == np.amax(value_list))
            max_idx_list = max_idx_list.flatten().tolist()
            prob = 1 / len(max_idx_list)

            for idx in max_idx_list:
                result[idx] = prob

            next_policy[state[0]][state[1]] = result

        self.policy_table = next_policy

    # 특정 상태에서 정책에 따라 무작위로 행동을 반환
    def get_action(self, state):
        policy = self.get_policy(state)
        policy = np.array(policy)
        return np.random.choice(4, 1, p=policy)[0]

    # 상태에 따른 정책 반환
    def get_policy(self, state):
        return self.policy_table[state[0]][state[1]]

    # 가치 함수의 값을 반환
    def get_value(self, state):
        return self.value_table[state[0]][state[1]]


if __name__ == "__main__":
    env = Env()
    policy_iteration = PolicyIteration(env)
    grid_world = GraphicDisplay(policy_iteration)
    grid_world.mainloop()
    
'''
env.state_after_action  : 다음 상태로 가는지 환경에 속한 정보
env.get_all_state : 모든 state를 알 수 있음
env.get_reward : 환경이 주는 보상
env.possible_actions  : agent 의 가능한 모든 행동

'''

'\nenv.state_after_action  : 다음 상태로 가는지 환경에 속한 정보\nenv.get_all_state : 모든 state를 알 수 있음\nenv.get_reward : 환경이 주는 보상\nenv.possible_actions  : agent 의 가능한 모든 행동\n\n'