# Dynamic Programming and Grid-World
- 강화 학습은 순차적으로 행동을 결정해야 하는 문제를 푸는 방법 중 하나
- Process
    - MDP 정의
    - 벨만 방정식의 계산
    - 최적 가치함수 + 최적 정책
- 즉,
    1. 순차적 행동 문제를 MDP로 전환
    2. 가치함수를 벨만 방정식으로 반복적으로 계산
    3. 최적 가치함수와 최적 정책을 찾는다.
- 강화학습 등장 전, 순차적 의사결정 문제를 푸는 방법론, 다이나믹 프로그래밍 학습

## 벨만 최적 방정식

$$v_{\ast}(s)=\max_{a}E\big[R_{t+1}+\gamma v_{\ast}(S_{t+1})\;\big|\;S_t=s,A_t=a\big]$$

## 동적 프로그래밍
- 리처드 벨만(Richard E. Bellman)이 1953년에 제시
- 동적이라는 얘기는 그 말이 가리키는 대상이 시간에 따라 변한다는 것을 의미
- 프로그래밍은 계획을 하는 것 자체를 의미.
- 여러 프로세스가 다단계로 이뤄지는 것
- 큰 문제를 바로 푸는 것이 아니라 작은 문제들을 풀어 나감

## Dynamic Programming 종류
- 정책 이터레이션 Policy Iteration
- 가치 이터레이션 Value Iteration

# 1. Policy Iteration

- Random Policy -> Optimal Policy
- 위를 위해 `평가`와 `발전`이 필요

## Policy Evaluation
- 정책 평가는 아래의 가치 함수로!
$$v_\pi(s)=E_\pi\big[\sum_{k=t}^{\infty}\gamma^{k-t}R_{k+1}\;\big|\;S_t=s\big]$$
- 물론 DP에서 환경에 대한 모든 정보를 알고 문제에 접근하기 때문에 위의 식을 계산할 수 있지만, 이는 비효율적이고 사실상 불가능
- DP의 효과, 문제를 최대한 작게 쪼개고 작은 문제에 저장된 값들을 서로 이용해 계산하는 방식을 이용!
- `벨만 기대 방정식`을 활용, 아래 식으로 가치 함수가 변형됨!
$$v_\pi(s)=E_\pi\big[R_{t+1}+\gamma v_\pi(S_{t+1})\;\big|\;S_t=s\big]$$
- 위 식을 컴퓨터가 계산 가능하도록 기댓값, 확률적인 부분을 합의 형태로 변환
$$v_\pi(s)=\sum_{a\in A}\pi(a|s)\big(r_{(s,a)}+\gamma v_\pi(s^\prime)\big)$$

## Policy Improvement
- 굉장히 많은 방법들이 존재
- 책에선 `Greedy Policy Improvement`를 소개
- 초기의 정책은 무작위로 설정 (ex> [0.25, 0.25, 0.25, 0.25])
- `q 함수`로 update
$$q_\pi(s,a)=E_\pi\big[R_{t+1}+\gamma v_\pi(S_{t+1})\;\big|\;S_t=s,A_t=a\big]$$
- 위를 컴퓨터가 계산 가능하게 변형
$$q_\pi(s,a)=r_{(s,a)}+\gamma v_\pi(s^\prime)$$
- 위 값을 기반으로 정책을 발전시킴
$$\pi^{\prime}(s)=\text{argmax}_{a\in A}q_\pi(s,a)$$

# 2. Value Iteration
- 정책 이터레이션은 명시적인 정책이 존재
- 정책이 독립적이므로 결정적인 정책이 아니라 어떠한 정책도 가능 (확률적!)
- 그러나, 최적 결정은 결정론적.
- 현재의 가치함수가 최적은 아니지만 최적이라고 가정,
- 가치함수에 대해 결정적인 형태의 정책을 적용한다면?
- DP를 활용, 여러번 연산을 반복하며 최적 가치함수에 수렴, 최적 정책을 구할 거라는 기대!
- 중요한 것,
    - 정책이 명시적으로 표현되는 것이 아님
    - 가치함수 안에 내재적(implicit)으로 포함돼있음

## 벨만 최적 방정식과 가치 이터레이션
- `벨만 기대 방정식`을 통해 전체 문제를 풀어서 나오는 답은? `현재 정책을 따라갔을 때 받을 참 보상`
    1. 가치함수를 현재 정책에 대한 가치함수라 가정
    2. 이를 반복적으로 계산
    3. 현재 정책에 대한 참 가치함수가 됨
$$v_\pi(s)=E_\pi\big[R_{t+1}+\gamma v_\pi(S_{t+1})\;\big|\;S_t=s\big]$$

- `벨만 최적 방정식`을 풀어 나오는 답은? `최적 가치함수`
    1. 가치함수를 최적 정책에 대한 가치함수라 가정
    2. 이를 반복적으로 계산
    3. 결국 최적 가치 정책에 대한 참 가치함수, 즉 최적 가치함수를 찾음
$$v_\ast(s)=\max_{a}E_\pi\big[R_{t+1}+\gamma v_\ast(S_{t+1})\;\big|\;S_t=s,A_t=a\big]$$

- 때문에 value iteration에서는 정책 발전이 필요없음!
    - 시작부터 최적의 정책이라고 가정했기 때문!

- 벨만 최적 방정식에서 보면 `max`를 취함. 즉, 업데이트 시 세밀한 정책의 값을 고려할 필요가 X
- 즉 현재 상태에서 가능한 $R_{t+1}+\gamma v_k(S_{t+1})$의 값들 중 최고의 값으로 업데이트하면 됨

$$v_{k+1}(s)=\max_{a\in A}\big(r_{(s,a)}+\gamma v_k(s^\prime)\big)$$

코드 출처: 
- https://github.com/rlcode/reinforcement-learning-kr-v2/tree/master/1-grid-world/1-policy-iteration
- https://github.com/rlcode/reinforcement-learning-kr-v2/blob/master/1-grid-world/2-value-iteration

In [1]:
import numpy as np

from pi_environment import GraphicDisplay as PolicyGD
from vi_environment import GraphicDisplay as ValueGD
from vi_environment import Env

In [None]:
class PolicyIteration:
    
    def __init__(self, env):
        # 환경에 대한 객체 선언
        self.env = env
        # 가치함수를 2차원 리스트로 초기화
        self.value_table = [[0.0] * env.width for _ in range(env.height)]
        # 상 하 좌 우 동일한 확률로 정책 초기화
        self.policy_table = [[[0.25, 0.25, 0.25, 0.25]] * env.width
                            for _ in range(env.height)]
        # 마침 상태의 설정
        self.policy_table[2][2] = []
        # 할인율
        self.discount_factor = 0.9

    # 벨만 기대 방정식을 통해 다음 가치함수를 계산하는 정책 평가
    def policy_evaluation(self):
        # 다음 가치함수 초기화
        next_value_table = [[0.00] * self.env.width
                           for _ in range(self.env.height)]

        # 모든 상태에 대해서 벨만 기대방정식을 계산
        for state in self.env.get_all_states():
            value = 0.0
            # 마침 상태의 가치 함수 = 0
            if state == [2, 2]:
                next_value_table[state[0]][state[1]] = value
                continue

            # 벨만 기대 방정식
            for action in self.env.possible_actions:
                next_state = self.env.state_after_action(state, action)
                reward = self.env.get_reward(state, action)
                next_value = self.get_value(next_state)
                value += (self.get_policy(state)[action] *
                          (reward + self.discount_factor * next_value))

            next_value_table[state[0]][state[1]] = value

        self.value_table = next_value_table

    # 현재 가치 함수에 대해서 탐욕 정책 발전
    def policy_improvement(self):
        next_policy = self.policy_table
        for state in self.env.get_all_states():
            if state == [2, 2]:
                continue
            
            value_list = []
            # 반환할 정책 초기화
            result = [0.0, 0.0, 0.0, 0.0]

            # 모든 행동에 대해서 [보상 + (할인율 * 다음 상태 가치함수)] 계산
            for index, action in enumerate(self.env.possible_actions):
                next_state = self.env.state_after_action(state, action)
                reward = self.env.get_reward(state, action)
                next_value = self.get_value(next_state)
                value = reward + self.discount_factor * next_value
                value_list.append(value)

            # 받을 보상이 최대인 행동들에 대해 탐욕 정책 발전
            max_idx_list = np.argwhere(value_list == np.amax(value_list))
            max_idx_list = max_idx_list.flatten().tolist()
            prob = 1 / len(max_idx_list)

            for idx in max_idx_list:
                result[idx] = prob

            next_policy[state[0]][state[1]] = result

        self.policy_table = next_policy

    # 특정 상태에서 정책에 따라 무작위로 행동을 반환
    def get_action(self, state):
        policy = self.get_policy(state)
        policy = np.array(policy)
        return np.random.choice(4, 1, p=policy)[0]

    # 상태에 따른 정책 반환
    def get_policy(self, state):
        return self.policy_table[state[0]][state[1]]

    # 가치 함수의 값을 반환
    def get_value(self, state):
        return self.value_table[state[0]][state[1]]