In [1]:
import numpy as np

from lib.envs.gridworld import GridworldEnv # 상위 폴더내의 lib 폴더 -> env 폴더 -> gridworld.py 파일에서 GridwordlEnv 를 가져옴

In [2]:
env = GridworldEnv() # 강화학습을 위한 환경을 env 변수에 넣음

In [4]:
def value_iteration(env, theta=0.0001, discount_factor=1.0):
    
    # Policy iteration 과 같다 (q 값을 구해주는 부분)
    def one_step_lookahead(state, State_Value):
        action_value = np.zeros(env.nA)
        for action in range(env.nA):
            for transition_prob, next_state, reward, done in env.P[state][action]:
                # 교재 251 page의 max 안쪽 부분
                action_value[action] += reward + (discount_factor * transition_prob * State_Value[next_state])
        return action_value
    
    
# ============================================================================================
    # Value Iteration 시작!!!
    # 각 state 의 value 값을 0으로 초기화
    state_value = np.zeros(env.nS)
    
    while True:
        # while loop 가 언제 멈출지 알기 위해 delta 를 설정
        # delta 의 경우 iteration 전과 후의 차이의 절대값으로 설정된다 
        delta = 0
        
        # Optimal Value 를 찾기 위해 loop 를 돌며 value 값 update 실행
        for state in range(env.nS):
            print("======================================================")
            print("State =>", state)
            # lookahead 방법을 통해 update
            # state 마다 돌면서 value 값을 update 해준다 # 교재 251 page의 max 안쪽 부분
            
            # 현재 V로 현재 state의 Q값 업데이트. 
            action_value = one_step_lookahead(state, state_value)
            
            # Q값 가지고, 현재 V를 다시 업데이트. 
            # 교재 251 page max 부분 수행
            max_value = np.max(action_value)
            print("action_value", action_value)
            print("max_value", max_value)
            
            # 기존 value 값과 새로 update 한 value 값이 얼마나 변했는지 구해준다 (이후에 theshold 값과 비교 할 것임)
            delta = max(delta, np.abs(max_value - state_value[state]))
            
            # Value fucntion 을 update
            state_value[state] = max_value      
            print("state", state , "의 value는 ", state_value[state], "\n") 
            
                   
        # while loop 를 멈출지 더 실행시킬지 확인해본다 
        if delta < theta:
            print("delta 값이",delta,"이므로 while 문 멈춤\n")
            break
        else:
            print("delta 값이",delta,"이므로 while 문 계속해서 수행\n")
                
    
# ============================================================================================
    # State 별로 최적의 value 값을 구했다면 optimal value 값을 따라 policy 를 찾아준다
    # policy.shape = (16, 4)
    # 즉, state 별로 초기값을 0으로 설정한 policy 를 할당 해주는 것
    # 잘 이해가 안된다면 4번 cell의 코드를 실행시켜보자
    policy = np.zeros([env.nS, env.nA]) 
    
    print("Optimal Value 를 따라 policy 를 찾아주도록 한다.\n")
    for state in range(env.nS):
        
        print("Optimal value =>\n", state_value.reshape([4,4]))
        
        # Optimal Value 값을 찾았으니 optimal policy를 찾아주도록 하자
        action_value = one_step_lookahead(state, state_value)
        print("state",state,"에서 모든 action 에 관한 Action_value =>", action_value)
        best_action = np.argmax(action_value)
        print("Best action 은?", best_action, "\n")
        # 항상 best action 을 선택할 수 있도록 해당 state 의 해당 action 확률을 1로 해준다.
        policy[state, best_action] = 1.0
        # print(policy)
    
    return policy, state_value

In [5]:
policy, v = value_iteration(env)

State => 0
action_value [0. 0. 0. 0.]
max_value 0.0
state 0 의 value는  0.0 

State => 1
action_value [-1. -1. -1. -1.]
max_value -1.0
state 1 의 value는  -1.0 

State => 2
action_value [-1. -1. -1. -2.]
max_value -1.0
state 2 의 value는  -1.0 

State => 3
action_value [-1. -1. -1. -2.]
max_value -1.0
state 3 의 value는  -1.0 

State => 4
action_value [-1. -1. -1. -1.]
max_value -1.0
state 4 의 value는  -1.0 

State => 5
action_value [-2. -1. -1. -2.]
max_value -1.0
state 5 의 value는  -1.0 

State => 6
action_value [-2. -1. -1. -2.]
max_value -1.0
state 6 의 value는  -1.0 

State => 7
action_value [-2. -1. -1. -2.]
max_value -1.0
state 7 의 value는  -1.0 

State => 8
action_value [-2. -1. -1. -1.]
max_value -1.0
state 8 의 value는  -1.0 

State => 9
action_value [-2. -1. -1. -2.]
max_value -1.0
state 9 의 value는  -1.0 

State => 10
action_value [-2. -1. -1. -2.]
max_value -1.0
state 10 의 value는  -1.0 

State => 11
action_value [-2. -1. -1. -2.]
max_value -1.0
state 11 의 value는  -1.0 

State => 12
action

In [6]:
print("Policy Probability Distribution:")
print(policy)
print("")

print("Reshaped Grid Policy (0=up, 1=right, 2=down, 3=left):")
print(np.reshape(np.argmax(policy, axis=1), env.shape)) # axis = 1 이면 행끼리 연산을 수행
print("")

Policy Probability Distribution:
[[1. 0. 0. 0.]
 [0. 0. 0. 1.]
 [0. 0. 0. 1.]
 [0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 1. 0. 0.]
 [1. 0. 0. 0.]]

Reshaped Grid Policy (0=up, 1=right, 2=down, 3=left):
[[0 3 3 2]
 [0 0 0 2]
 [0 0 1 2]
 [0 1 1 0]]



In [7]:
print("Value Function:")
print(v)
print("")

print("Reshaped Grid Value Function:")
print(v.reshape(env.shape))
print("")

Value Function:
[ 0. -1. -2. -3. -1. -2. -3. -2. -2. -3. -2. -1. -3. -2. -1.  0.]

Reshaped Grid Value Function:
[[ 0. -1. -2. -3.]
 [-1. -2. -3. -2.]
 [-2. -3. -2. -1.]
 [-3. -2. -1.  0.]]

