In [None]:
import numpy as np
from environment_value import GraphicDisplay, Env

class ValueIteration:
    def __init__(self,env):
        self.env = env
        
        #가치함수 2차원 리스트로 초기화
        self.value_table=[[0.0]*env.width for _ in range(env.height)]
        
        self.discount_factor =0.9

    def value_iteration(self):
        
        #다음 가치함수 초기화
        next_value_table = [[0.0]*self.env.width for _ in range(self.env.height)]
        
        #모든 상태에 벨만 최적 방정식 계산
        for state in self.env.get_all_states():
            
            #마침 상태의 가치함수 =0
            if state==[2,2]:
                next_value_table[state[0]][state[1]]=0.0
                continue
        
            #벨만 최적 방정식
            value_list=[]
            for action in self.env.posiible_actions:
                #다음 state = 현 state, 현 action
                next_state = self.env.state_after_action(state,action)
                #현 보상
                reward =self.env.get_reward(state,action)
                next_value = self.get_value(next_state)
                #보상에 다음 value값에 discountfactor를 곱해줌
                value_list.append((reward+self.discount_factor * next_value))
                
            #최대값을 다음 가치함수로 대입
            next_value_table[state[0]][state[1]]=max(value_list)
            
        self.value_table =next_value_table
        
    
    #현재 가치함수로부터 action 반환
    def get_action(self,state):
        if state ==[2,2]:
            return []
        
        #모든 행동에 대해 큐함수를 계산
        value_list = []
        
        for action in self.env.possible_actions:
            
            
            next_state = self.env.state_after_action(state,action)
            reward = self.env.get_reward(state,action)
            next_value = self.get_value(next_state)
            value = (reward + self.discount_factor * next_value)
            value_list.append(value)
            
        #최대 q함수를 가진 행동을 반환
        max_idx_list = np.argwhere(value_list == np.argmax(value_list))
        action_list = max_idx_list.flatten().tolist()
        return action_list
    
    def get_value(self,state):
        return self.value_table[state[0]][state[1]]
    
if __name__ == "__main__":
    env=Env()
    value_iteration = ValueIteration(env)
    grid_world = GraphicDisplay(value_iteration)
    grid_world.mainloop()