## Dynamic Programming
___

- **Dynamic** : sequential or temporal component to the problem
- **Programming** : optimising a “program”, i.e. a policy
    - A method for solving complex problems
    - By breaking them down into subproblems

- Bellman Expectation Equation을 푸는 것이 **Policy Iteration** 
- Bellman Optimality Equation을 푸는 것이 **Value Iteration** (지금 다루고자 하는 내용) 

## 2.  Value Iteration

**Bellman Optimality Equation**을 통해 구함 : 그저 현재 상태에서 가능한 **$\mathbf{R_{t+1}} + \gamma \mathbf{v}_k (\mathbf{S}_{t+1})$**의 값들 중에서 최고의 값으로 업데이트

### 2.1 

> **Bellman Optimality Equation**을 통해 구하는 것은 최적 가치함수이다.
> 
$$
\mathbf{v}_*(\mathbf{s}) = \max_{\mathbf{a}} \ \mathbb{E}[\mathbf{R_{t+1}} + \gamma \mathbf{v}_*(\mathbf{S}_{t+1}) \ | \ \mathbf{S}_{t} = \mathbf{s}, \mathbf{A}_{t} = \mathbf{a}]
$$

> **Bellman Optimality Equation** (계산 가능)
> 
$$
\mathbf{v}_{k+1}(\mathbf{s}) = \max_{\mathbf{a}} (\mathbf{R_{t+1}} + \gamma \mathbf{v}_{k}(\mathbf{s'}))
$$

**그림으로 이해하기** (value function 계산하는 방법)

<img src="https://github.com/DeepHaeJoong/RL/blob/master/RL_Document/Ch3_dynamic%20programming/value_iteration/FIGURE/FIG_1.png?raw=true" alt="drawing" width="700"/>



## 2.1. Code 
---

In [4]:
# -*- coding: utf-8 -*-
from environment import GraphicDisplay, Env

class ValueIteration:
    def __init__(self, env):
        # 환경 객체 생성
        self.env = env
        # 가치 함수를 2차원 리스트로 초기화
        self.value_table = [[0.0] * env.width for _ in range(env.height)]
        # 감가율
        self.discount_factor = 0.9

    # 가치 이터레이션
    # 벨만 최적 방정식을 통해 다음 가치 함수 계산
    def value_iteration(self):
        next_value_table = [[0.0] * self.env.width for _ in
                            range(self.env.height)]
        for state in self.env.get_all_states():
            if state == [2, 2]:
                next_value_table[state[0]][state[1]] = 0.0
                continue
            # 가치 함수를 위한 빈 리스트
            value_list = []

            # 가능한 모든 행동에 대해 계산
            for action in self.env.possible_actions:
                next_state = self.env.state_after_action(state, action)
                reward = self.env.get_reward(state, action)
                next_value = self.get_value(next_state)
                value_list.append((reward + self.discount_factor * next_value))
            # 최댓값을 다음 가치 함수로 대입
            next_value_table[state[0]][state[1]] = round(max(value_list), 2)
        self.value_table = next_value_table

    # 현재 가치 함수로부터 행동을 반환
    def get_action(self, state):
        action_list = []
        max_value = -99999

        if state == [2, 2]:
            return []

        # 모든 행동에 대해 큐함수 (보상 + (감가율 * 다음 상태 가치함수))를 계산
        # 최대 큐 함수를 가진 행동(복수일 경우 여러 개)을 반환
        for action in self.env.possible_actions:

            next_state = self.env.state_after_action(state, action)
            reward = self.env.get_reward(state, action)
            next_value = self.get_value(next_state)
            value = (reward + self.discount_factor * next_value)

            if value > max_value:
                action_list.clear()
                action_list.append(action)
                max_value = value
            elif value == max_value:
                action_list.append(action)

        return action_list

    def get_value(self, state):
        return round(self.value_table[state[0]][state[1]], 2)

## 3. Dynamic Programming의 한계와 강화학습

- 학습 X, 머신러닝이 아님

**크게 3가지**

- 계산 복잡도
- 차원의 저주
- 환경에 대한 완벽한 정보 필요
 
 