# Value Iteration
- **벨만최적방정식**을 통해 가치함수를 업데이트

$$v_{k+1}(s) = max_a[R_s^a + \gamma v_k(s')]$$

- 수렴한 가치함수에 대해 greedy policy

$$\pi^*(s) = argmax_{a\in A} E [R_s^a + \gamma v^*(s')]$$

- 결론 : 최적의 정책과 최적의 가치함수라는 가정 -> Q-Learning으로 연결

In [1]:
from environment import GraphicDisplay, Env

In [2]:
class ValueIteration:
    def __init__(self, env):
        # 환경 객체
        self.env = env
        
        # 가치 함수를 2차원 리스트로 생성
        self.value_table = [[0.0] * env.width for _ in range(env.height)]
        
        # 감가율 설정
        self.discount_factor = 0.9
    
    # 가치 이터레이션
    # 벨만 최적 방정식을 통해 다음 가치 함수를 계산
    def value_iteration(self):
        next_value_table = [[0, 0] * self.env.width for _ in range(env.height)]
        for state in self.env.get_all_states():
            # state가 terminal state라면 값을 업데이트 하지 않음
            if state == [2, 2]:
                next_value_table[state[0]][state[1]] = 0.0
                continue
        
            # 가치 함수를 위한 빈 리스트
            value_list = []
            
            # 가능한 모든 행동에 대한 계산
            for action in self.env.possible_actions:
                next_state = self.env.state_after_action(state, action)
                reward = self.env.get_reward(state, action)
                next_value = self.get_value(next_state)
                value_list.append((reward + self.discount_factor * next_value))
        
            # 최대값을 다음 가치함수로 대입
            next_value_table[state[0]][state[1]] = round(max(value_list), 2)
        self.value_table = next_value_table
    
    # 현재 가치 함수로부터 행동을 반환
    def get_action(self, state):
        """
        1. argmax a를 담을 action_list를 선언, 
        비교를 위한 max_value를 최소값으로 선언
        terminal state인 경우는 반 list를 리턴
        """
        action_list = []
        max_value = -9999
        
        if state == [2, 2]:
            return []
        
        """
        2. 모든 가능한 action에 대해서 R_s^a + gammaV_k(s')
        를 계산하여  value라는 임시변수에 저장
        """
        for action in self.env.possible_actions:
            next_state = self.env.state_after_action(state, action)
            reward = self.env.get_reward(state, action)
            next_value = self.get_value(next_state)
            value = (reward + self.discount_factor * next_value)
            
            if value > max_value:
                action_list.clear()
                action_list.append(action)
                max_value = value
            elif value == max_value:
                action_list.append(action)

        return action_list
        
    def get_value(self, state):
        return round(self.value_table[state[0]][state[1]], 2)

In [3]:
if __name__ == '__main__':
    env = Env()
    value_iteration = ValueIteration(env)
    grid_world = GraphicDisplay(value_iteration)
    grid_world.mainloop()