### **계산항 정리** 

$S_t =$ State의 집합 {$(1,1), (1,2), (1,3)$}

$A_t =$ Action의 집합

$r^a_s = E[r_{t+1} | S_t = s, A_t = a]$

$G_t = r_{t+1} + r_{t+2} + r_{t+3} ... r_{t+n}$

$P^a_{ss'} = P[S_{t+1} = s' | S_t = s, A_t = a]$

$\gamma$ = Discount Factor

$\pi(a|s) = P[A_t = a | S_t = s]$



### **벨만 기대 방정식(해당 state에서 얻을 수 있는 가치의 합계)**
$$v_\pi(s) = E(G_t)$$  
$$v_\pi(s) = \sum_{a{\in}A}\pi(a|s)q_\pi(s,a)$$  
$$q_\pi(s,a) = r^a_s + \gamma\sum_{s'{\in}S}P^a_{ss'}\sum_{a'{\in}A}\pi(a'|s')q_{\pi}(s',a')$$
$$v_\pi(s) = \sum_{a{\in}A}\pi(a|s)\biggl(r^a_s + \gamma\sum_{s'{\in}S}P^a_{ss'}v_{\pi}(s')\biggl)$$ 

#### -> 벨만 기대방정식(상태가치함수)을 크게 두 항으로 나누면  1) 특정 state에서 특정 action을 할 확률과, 2) 그 state 에서 action을 했을 때 얻을 수 있는 보상(현재 + 미래)으로 이루어지며, 이들의 합으로 상태가치함수를 구할 수 있음


**MDP를 알 때**

1. 보상함수  -> state에 따른 penalty와 reward를 알고 있다.(-1, 1 등)

2. 상태전이확률 -> s에서 a를 했을 때 s'으로 전이할 확률을 알고 있다. (1로 고정)

**최고의 정책 찾기**


- **정책 평가**와 **정책 개선**을 번갈아 수행하여 정책이 수렴할 때까지 **반복**한다.(정책 수렴 = 최적의 정책을 찾을 때 까지 -> $\pi(a|s)$업데이트)
- 위 과정의 반복을 통해 기존 정책 $\pi$에 비해 새로운 정책 $\pi'$가 개선되는 것이 핵심(교재엔 없지만 방법론을 증명하는 수많은 정리와 증명이 존재함)
- 특정 state마다 greedy한 선택을 하면 결국 최종적으로 얻는 가치함수도 클 것이다.  
($s_t$ 주변에서 가치함수가 가장 높은 state로 가는 선택을 한다.  -> $s_t+1$에서도 그렇게 한다. -> 결국 최적의 가치를 주는 state로 움직일 것이다.)
- 벨만 '기대' 방정식 활용

In [1]:
import numpy as np
from environment import GraphicDisplay, Env


class PolicyIteration:
    def __init__(self, env):
        # 환경에 대한 객체 선언
        self.env = env
        # 가치함수를 2차원 리스트로 초기화
        self.value_table = [[0.0] * env.width for _ in range(env.height)]
        # 상 하 좌 우 동일한 확률로 정책 초기화
        self.policy_table = [[[0.25, 0.25, 0.25, 0.25]] * env.width
                            for _ in range(env.height)]
        # 마침 상태의 설정
        self.policy_table[2][2] = []
        # 할인율
        self.discount_factor = 0.9
        
        
    # 벨만 기대 방정식을 통해 다음 상태 가치 함수를 계산하는 정책 평가
    def policy_evaluation(self):
        # 다음 가치함수 초기화

        next_value_table = [[0.00] * self.env.width
                           for _ in range(self.env.height)]
        
        
        # 모든 상태에 대해서 벨만 기대방정식을 계산 - 상태별로 좌우상하에 대한 벨만방정식을 계산하여 합산한 값이 칸칸에 있는 값
        print("------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------")
        print("------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------")
        for state in self.env.get_all_states():
            value = 0.0
            # 마침 상태의 가치 함수 = 0
            if state == [2, 2]:
                next_value_table[state[0]][state[1]] = value
                continue

            # 벨만 기대 방정식
            for action in self.env.possible_actions:
                next_state = self.env.state_after_action(state, action)
                reward = self.env.get_reward(state, action)
                next_value = self.get_value(next_state)
                value += (self.get_policy(state)[action] *
                          (reward + self.discount_factor * next_value))

            next_value_table[state[0]][state[1]] = value
            print("벨만기대방정식을 통해 state = {}의 상태가치함수 계산(열,행 순서): ".format(state), value)
        
        
        self.value_table = next_value_table

    # 현재 가치 함수에 대해서 탐욕 정책 발전
    # 해당 state에서 한 스텝을 그리디하게 움직이고 이후에는 기존 정책을 따르는 것이 좋다는 말은 결국 모든 state에서 그리디한 것이 좋다는 의미
    def policy_improvement(self):
        next_policy = self.policy_table
        
        for state in self.env.get_all_states():
            if state == [2, 2]:
                continue
            
            value_list = []
            # 반환할 정책 초기화
            result = [0.0, 0.0, 0.0, 0.0]

            # 모든 행동에 대해서 [보상 + (할인율 * 다음 상태 가치함수)] 계산
            for index, action in enumerate(self.env.possible_actions):
                next_state = self.env.state_after_action(state, action)
                reward = self.env.get_reward(state, action)
                next_value = self.get_value(next_state)
                #현재 상태에서 가능한 행동에 대한 r+discounted_future_value
                value = reward + self.discount_factor * next_value
                value_list.append(value)
                
            # 받을 보상이 최대인 행동들에 대해 탐욕 정책 발전(np.amx(value_list))
            max_idx_list = np.argwhere(value_list == np.amax(value_list))
            max_idx_list = max_idx_list.flatten().tolist()
            prob = 1 / len(max_idx_list)

            for idx in max_idx_list:
                result[idx] = prob

            next_policy[state[0]][state[1]] = result
            print("state = "+"["+str(state[0])+", "+str(state[1])+"]"+"의 action policy(열,행 / 좌우상하 순서): " + str(next_policy[state[0]][state[1]]))
            #좌우상하 순서고, 열/행 순서임
            

        self.policy_table = next_policy
#        print(self.policy_table)

    # 특정 상태에서 정책에 따라 무작위로 행동을 반환
    def get_action(self, state):
        policy = self.get_policy(state)
        policy = np.array(policy)
        #choice 이후 4는 행동의 개수(좌우상하), 1은 몇 개의 행동을 샘플링 할지, 세 번째는 랜덤이지만 각 행동을 얼마의 확률에 기반해서 샘플링할 것인가? 이걸 넣으면 행동이 정해짐
        return np.random.choice(4, 1, p=policy)[0]
        
        
    # 상태에 따른 정책 반환
    def get_policy(self, state):
        return self.policy_table[state[0]][state[1]]
        
    # 가치 함수의 값을 반환
    def get_value(self, state):
        return self.value_table[state[0]][state[1]]
        print(self.value_table[state[0]][state[1]])

In [2]:
#그리드 월드 칸칸의 값 = 해당 state 이후의 state에서 액션 좌우상하를 했을 때 얻을 수 있는 가치의 합계
# e.g. k = 1일때, (3,1)은 v = -0.25인데, 이는 pi(a|s) * (t+1시점의 reward + 감가율 * 미래가치 합계로 계산됨)
# 상태전환확률을 1로 가정하기 때문에, 좌로 이동시 -> 0.25 * (-1 + (0.9 * 0)) = -0.25 
# 상태전환확률을 1로 가정하기 때문에, 우로 이동시 -> 0.25 * (0 + (0.9 * 0)) = 0
# 상태전환확률을 1로 가정하기 때문에, 상으로 이동시 -> 0.25 * (0 + (0.9 * 0)) = 0
# 상태전환확률을 1로 가정하기 때문에, 하로 이동시 -> 0.25 * (0 + (0.9 * 0)) = 0
# -> SUM(상하좌우v) = 0.25 -> 해당 state의 k=1 상태가치함수의 값은 -0.25

# e.g. k = 2일때, (3,1)은 v = 0.23인데, 이는 pi(a|s) * (t+1시점의 reward * 감가율 * 미래가치 합계로 계산됨)
# 상태전환확률을 1로 가정하기 때문에, 좌로 이동시 -> 0.25 * (-1 + (0.9 * 0.25)) = -0.19375인데, 리워드가 -1이기 때문에 이 액션은 배제함 pi(a|s) = 0
# 상태전환확률을 1로 가정하기 때문에, 우로 이동시 -> 0.25 * (0 + (0.9 * 0)) = 0  pi(a|s) = 0
# 상태전환확률을 1로 가정하기 때문에, 상으로 이동시 -> 0.25 * (0 + (0.9 * 0)) = 0 pi(a|s) = 0
# 상태전환확률을 1로 가정하기 때문에, 하로 이동시 -> 1 * (0 + (0.9 * 0.25)) = 0.225 
# -> SUM(상하좌우v) = 0.225 -> 해당 state의 k=2 상태가치함수의 값은 0.225

# e.g. k = 3일때, (3,1)은 v = 0.9인데, 이는 pi(a|s) * (t+1시점의 reward * 감가율 * 미래가치 합계로 계산됨)
# 상태전환확률을 1로 가정하기 때문에, 좌로 이동시 -> 0.0 * (1 + (0.9 * 1)) = 0
# 상태전환확률을 1로 가정하기 때문에, 우로 이동시 -> 0.0 * (0 + (0.9 * 0.06)) = 0
# 상태전환확률을 1로 가정하기 때문에, 상으로 이동시 -> 0.0 * (0 + (0.9 * -0.14)) = 0 (위 셀의 미래가치 합계가 계산되었기 때문에)
# 상태전환확률을 1로 가정하기 때문에, 하로 이동시 -> 1 * (0 + (0.9 * 1)) = 0.9
# -> SUM(상하좌우v) = 0.9 -> 해당 state의 k = 3 상태가치함수의 값은 0.9 -> 이런 식으로 무한 반복하면 state별 상태가치 함수를 수렴시킬 수 있고 결국에 최적의 정책을 찾아낼 수 있음.

# 모두 훈련하고 난 후 state 0, 0 기준으로 벨만기대방정식 계산값은 0.59인데
# 이는 0,0기준 오른쪽으로 이동했을 때의 기댓값 0.5 * (0 + (0.9 * 0.66)) + 아래로 이동했을 때의 기댓값 0.5 * (0 + (0.9 * 0.66)) 을 더해서 0.594가 나오는 것

In [2]:
if __name__ == "__main__":
    env = Env()
    policy_iteration = PolicyIteration(env)
    grid_world = GraphicDisplay(policy_iteration)
    grid_world.mainloop()

------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
벨만기대방정식을 통해 state = [0, 0]의 상태가치함수 계산(열,행 순서):  0.0
벨만기대방정식을 통해 state = [0, 1]의 상태가치함수 계산(열,행 순서):  0.0
벨만기대방정식을 통해 state = [0, 2]의 상태가치함수 계산(열,행 순서):  -0.25
벨만기대방정식을 통해 state = [0, 3]의 상태가치함수 계산(열,행 순서):  0.0
벨만기대방정식을 통해 state = [0, 4]의 상태가치함수 계산(열,행 순서):  0.0
벨만기대방정식을 통해 state = [1, 0]의 상태가치함수 계산(열,행 순서):  0.0
벨만기대방정식을 통해 state = [1, 1]의 상태가치함수 계산(열,행 순서):  -0.5
벨만기대방정식을 통해 state = [1, 2]의 상태가치함수 계산(열,행 순서):  0.25
벨만기대방정식을 통해 state = [1, 3]의 상태가치함수 계산(열,행 순서):  -0.25
벨만기대방정식을 통해 state = [1, 4]의 상태가치함수 계산(열,행 순서):  0.0
벨만기대방정식을 통해 state = [2, 0]의 상태가치함수 계산(열,행 순서):  -0.25
벨만기대방정식을 통해 state = [2, 1]의 상태가치함수 계산(열,행 순서):