# 정리

## MDP
---


순차적 행동결정 문제를 수학적으로 정의한 것, **MDP**는 다음과 같은 항목으로 구성하고 있다.

- $S$ (state) : 
- $A$ (action) :
- $R$ (reward) :
- $P_{ss'}^{a}$ (state transition probability) :
- $\gamma$ (discount factor) : 
- $\pi(a,s)$ (policy): 

## Value function
---

#### Agent가 어떤 $\pi$(정책)가 더 좋은 정책인지 판단하는 기준이 value function
#### **s**(현재 상태)로부터 $\pi$(정책)을 따라갔을 때 받을 것이라 예상되는 Reward의 합

> **state-value function**
>
$$
\mathbf{v}_\pi(\mathbf{s}) = \mathbb{E}_\pi[\mathbf{R_{t+1}} + \gamma \mathbf{v}_\pi(\mathbf{S}_{t+1}) \ | \ \mathbf{S}_{t} = \mathbf{s}]
$$

####  Agent는 $\pi$(정책)을 업데이트할 때 value function를 사용할 텐데, 보통 value function보다는 value function가 선택할 각 action의 value를 직접적으로 나타내는 q function을 사용

> **action-value function**
>
$$
\mathbf{q}_\pi(\mathbf{s, a}) = \mathbb{E}_\pi[\mathbf{R_{t+1}} + \gamma \mathbf{q}_\pi(\mathbf{S}_{t+1}, \mathbf{A}_{t+1}) \ | \ \mathbf{S}_{t} = \mathbf{s}, \mathbf{A}_{t} = \mathbf{a}]
$$
>
> **action-value function** (연산가능하도록 또 다른 형태)
>
$$
\mathbf{q}_\pi(\mathbf{s, a}) = \mathbf{R_{t+1}} + \gamma \sum_{\mathbf{s'} \in S} \mathbf{P_{ss'}^{\mathbf{a}}} \mathbf{v}_\pi(\mathbf{s'})
$$

## Bellman equation
---

> $\mathbf{s}_t$(현재 상태)의 가치함수와 $\mathbf{s}_{t+1}$(다음 상태)의 가치함수 관계식

- **Bellman Expectation Equation** : 
> 특정 정책을 따라갔을 때 **state-value function** 사이의 관계식
>
$$
\mathbf{v}_\pi(\mathbf{s}) = \mathbb{E}_\pi[\mathbf{R_{t+1}} + \gamma \mathbf{v}_\pi(\mathbf{S}_{t+1}) \ | \ \mathbf{S}_{t} = \mathbf{s}]
$$
> 가치 함수와 큐 함수의 관계식 (계산 O)
> 
$$
\mathbf{v}_\pi(\mathbf{s}) = \sum_{\mathbf{a} \in A} \pi(\mathbf{a}|\mathbf{s}) \ \mathbf{q}_\pi(\mathbf{s, a})
$$
>
> 계산 가능한 Bellman Equation
>
$$
\mathbf{v}_\pi(\mathbf{s}) = \sum_{\mathbf{a} \in A} \pi(\mathbf{a}|\mathbf{s}) \ (\mathbf{R_{t+1}} + \gamma \sum_{\mathbf{s'} \in S} \mathbf{P_{ss'}^{\mathbf{a}}} \mathbf{v}_\pi(\mathbf{s'}))
$$
>
> 계산 가능한 Bellman Equation
>
$$
\mathbf{v}_\pi(\mathbf{s}) = \sum_{\mathbf{a} \in A} \pi(\mathbf{a}|\mathbf{s}) \ (\mathbf{R_{t+1}} + \gamma \sum_{\mathbf{s'} \in S} \mathbf{P_{ss'}^{\mathbf{a}}} \mathbf{v}_\pi(\mathbf{s'}))
$$

- **Bellman Optimality Equation**
> 최적의 가치함수를 받게하는 정책을 따라갔을 때 가치함수 사이의 관계식
>

$$
\mathbf{v}_*(\mathbf{s}) = \max_{a} \ \mathbb{E}[\mathbf{R_{t+1}} + \gamma \mathbf{v}_*(\mathbf{S}_{t+1}) \ | \ \mathbf{S}_{t} = \mathbf{s}]
$$

## Dynamic Programming
___

- **Dynamic** : sequential or temporal component to the problem
- **Programming** : optimising a “program”, i.e. a policy
    - A method for solving complex problems
    - By breaking them down into subproblems

- Bellman Expectation Equation을 푸는 것이 **Policy Iteration** (지금 다루고자 하는 내용) 
- Bellman Optimality Equation을 푸는 것이 **Value Iteration** 

## 1. Policy Iteration

Bellman Expectation Equation 푸는 것 : 주변 상태의 value function과 다음 스텝의 보상만 고려하여 현재 상태의 다음 가치함수를 계산

Policy Iteration는 Policy evaluation 과 Policy improvement로 구성

- Policy evaluation : Estimate $\mathbf{v}_\pi$ Iterative policy evaluation
- Policy improvement : Generate $\pi^{'}$ $\ge$ $\pi$ Greedy policy improvement

<img src="https://github.com/DeepHaeJoong/RL/blob/master/RL_Document/Lecture3_Planning%20by%20Dynamic%20Programming/Ch3_dynamic%20programming/policy_iteration/FIGURE/FIG_1.png?raw=true" alt="drawing" width="500"/>

### 1.1 Policy evaluation (정책 평가)

> **Bellman Expectation Equation**을 통한 효율적인 **value function** 계산

$$
\mathbf{v}_\pi(\mathbf{s}) = \mathbb{E}_\pi[\mathbf{R_{t+1}} + \gamma \mathbf{v}_\pi(\mathbf{S}_{t+1}) \ | \ \mathbf{S}_{t} = \mathbf{s}]
$$

> 합의 형태로 표현한 **Bellman Equation**

$$
\mathbf{v}_\pi(\mathbf{s}) = \sum_{\mathbf{a} \in A} \pi(\mathbf{a}|\mathbf{s}) \ (\mathbf{R_{t+1}} + \gamma \sum_{\mathbf{s'} \in S} \mathbf{P_{ss'}^{\mathbf{a}}} \mathbf{v}_\pi(\mathbf{s'}))
$$

> $\pi$라는 정책에 대해 반복적으로 수행 (k = 1, 2, 3, 4, ....)

$$
\mathbf{v}_{k+1}(\mathbf{s}) = \sum_{\mathbf{a} \in A} \pi(\mathbf{a}|\mathbf{s}) \ (\mathbf{R_{t+1}} + \gamma \sum_{\mathbf{s'} \in S} \mathbf{P_{ss'}^{\mathbf{a}}} \mathbf{v}_{k}(\mathbf{s'}))
$$

### Example :  grid world

- $S$ (state) : red box
- $A$ (action) : [up, down, left, right]
- $R$ (reward) : Green tringle (-1), Blue circle (+1)
- $P_{ss'}^{\mathbf{a}}$ (state transition probability) : 1
- $\gamma$ (discount factor) : 0.9
- $\pi(\mathbf{a} | \mathbf{s})$ (policy): $\frac{1}{4}$

<img src="https://github.com/DeepHaeJoong/RL/blob/master/RL_Document/Lecture3_Planning%20by%20Dynamic%20Programming/Ch3_dynamic%20programming/policy_iteration/FIGURE/FIG_2.png?raw=true" alt="drawing" width="500"/>

#### 알고리즘

**1.** k번째 **value function** Matrix에서 $\mathbf{s}$에서 갈 수 있는 다음 상태 $\mathbf{s'}$에 저장돼 있는 value function $\mathbf{v}_k (\mathbf{s'})$을 불러온다.


**2.** $\mathbf{v}_k (\mathbf{s'})$에 $\gamma$를 곱하고 그 상태로 가능 행동에 대한 보상($\mathbf{R_{s}^{\mathbf{a}}}$)을 더한다.

$$
\mathbf{R_{s}^{\mathbf{a}}} + \gamma \mathbf{v}_k (\mathbf{s'})
$$


**3.** 2번에서 구한 값에 그 행동을 할 확률, 즉 정책을 곱한다.

$$
\pi(\mathbf{a}|\mathbf{s})(\mathbf{R_{s}^{\mathbf{a}}} + \gamma \mathbf{v}_k (\mathbf{s'}))
$$


**4.** 3번을 모든 선택 가능한 행동에 대해 반복하고 그 값들을 더한다.

$$
\sum_{\mathbf{a} \in A} \pi(\mathbf{a}|\mathbf{s})(\mathbf{R_{s}^{\mathbf{a}}} + \gamma \mathbf{v}_k (\mathbf{s'}))
$$


**5.** 4번 과정을 통해 더한 값을 k+1 번째 가치함수 행렬에 상태 s자리에 저장한다.


**6.** 1-5 과정이 모든 $\mathbf{s} \in S$에 대해 반복한다.

$$
\mathbf{s} \in S
$$


$\pi$라는 정책에 대해 반복적으로 수행 (k = 1, 2, 3, 4, ....)하면 $\mathbf{v}_\pi$가 수렴될 수 있다. 

### 1.2 Policy improvement (정책 발전)

**Greedy Policy Improvement** 

 앞서 정책 평가를 통해 구한 것은 에이전트가 정책을 따랐을 때의 모든 상태에 대한 가치 함수(**state-value function**)이다. 어떻게 이 가치함수를 통해 각 상태에 대해 어떤 행동을 하는 것이 좋은지 알 수 있을까? 큐함수(**action-value function**)을 이용하면 어떤 행동이 좋은지 알 수 있다.

> **action-value function(큐함수)** 정의 
> 
$$
\mathbf{q}_\pi(\mathbf{s, a}) = \mathbb{E}_\pi[\mathbf{R_{t+1}} + \gamma \mathbf{q}_\pi(\mathbf{S}_{t+1}, \mathbf{A}_{t+1}) \ | \ \mathbf{S}_{t} = \mathbf{s}, \mathbf{A}_{t} = \mathbf{a}]
$$

> **action-value function(큐함수)** (연산가능하도록 또 다른 형태)
>
$$
\mathbf{q}_\pi(\mathbf{s, a}) = \mathbf{R_{t+1}} + \gamma \sum_{\mathbf{s'} \in S} \mathbf{P_{ss'}^{\mathbf{a}}} \mathbf{v}_\pi(\mathbf{s'})
$$

Agent가 해야할 일은 상태 $\mathbf{s}$에서 선택 가능한 행동 $\mathbf{q}_\pi(\mathbf{s, a})$를 비교하고 그중에서 가장 큰 큐함수를 가지는 행동을 선택하면 된다.

> **Greedy Policy Improvement**으로 얻은 새로운 정책
>
$$
\pi^{'}(\mathbf{s}) = \mathbf{argmax}_{\mathbf{a} \in A} \mathbf{q}_\pi(\mathbf{s, a})
$$

### Example :  grid world

<img src="https://github.com/DeepHaeJoong/RL/blob/master/RL_Document/Lecture3_Planning%20by%20Dynamic%20Programming/Ch3_dynamic%20programming/policy_iteration/FIGURE/FIG_3.png?raw=true" alt="drawing" width="700"/>

## 1.3. Code 
---

### policy_iteration.py (전체 코드)

In [1]:
# -*- coding: utf-8 -*-
import random
from environment import GraphicDisplay, Env


class PolicyIteration:
    def __init__(self, env):
        # 환경에 대한 객체 선언
        self.env = env
        # 가치함수를 2차원 리스트로 초기화
        self.value_table = [[0.0] * env.width for _ in range(env.height)]
        # 상 하 좌 우 동일한 확률로 정책 초기화
        self.policy_table = [[[0.25, 0.25, 0.25, 0.25]] * env.width for _ in range(env.height)]
        # 마침 상태의 설정
        self.policy_table[2][2] = []
        # 감가율
        self.discount_factor = 0.9


    def policy_evaluation(self):

        # 다음 가치함수 초기화
        next_value_table = [[0.00] * self.env.width for _ in range(self.env.height)]

        # 모든 상태에 대해서 벨만 기대방정식을 계산
        for state in self.env.get_all_states():
            value = 0.0
            # 마침 상태의 가치 함수 = 0
            if state == [2, 2]:
                next_value_table[state[0]][state[1]] = value
                continue

            # 벨만 기대 방정식
            for action in self.env.possible_actions:
                next_state = self.env.state_after_action(state, action)
                reward = self.env.get_reward(state, action)
                next_value = self.get_value(next_state)
                value += (self.get_policy(state)[action] * (reward + self.discount_factor * next_value))

            next_value_table[state[0]][state[1]] = round(value, 2)

        self.value_table = next_value_table

    # 현재 가치 함수에 대해서 탐욕 정책 발전
    def policy_improvement(self):
        next_policy = self.policy_table
        for state in self.env.get_all_states():
            if state == [2, 2]:
                continue
            value = -99999
            max_index = []
            # 반환할 정책 초기화
            result = [0.0, 0.0, 0.0, 0.0]

            # 모든 행동에 대해서 [보상 + (감가율 * 다음 상태 가치함수)] 계산
            for index, action in enumerate(self.env.possible_actions):
                next_state = self.env.state_after_action(state, action)
                reward = self.env.get_reward(state, action)
                next_value = self.get_value(next_state)
                temp = reward + self.discount_factor * next_value

                # 받을 보상이 최대인 행동의 index(최대가 복수라면 모두)를 추출
                if temp == value:
                    max_index.append(index)
                elif temp > value:
                    value = temp
                    max_index.clear()
                    max_index.append(index)

            # 행동의 확률 계산
            prob = 1 / len(max_index)

            for index in max_index:
                result[index] = prob

            next_policy[state[0]][state[1]] = result

        self.policy_table = next_policy

    # 특정 상태에서 정책에 따른 행동을 반환
    def get_action(self, state):
        # 0 ~ 1 사이의 값을 무작위로 추출
        random_pick = random.randrange(100) / 100

        policy = self.get_policy(state)
        policy_sum = 0.0
        # 정책에 담긴 행동 중에 무작위로 한 행동을 추출
        for index, value in enumerate(policy):
            policy_sum += value
            if random_pick < policy_sum:
                return index

            
    # 상태에 따른 정책 반환
    def get_policy(self, state):
        if state == [2, 2]:
            return 0.0
        return self.policy_table[state[0]][state[1]]

    # 가치 함수의 값을 반환
    def get_value(self, state):
        # 소숫점 둘째 자리까지만 계산
        return round(self.value_table[state[0]][state[1]], 2)

#### 전체 코드의 흐름

In [5]:
class PolicyIteration:
    def __init__(self, env):
        # 환경에 대한 객체
        self.env = env
        
    # 정책 평가
    def policy_evaluation(self):
        pass
    
    # 정책 발전
    def policy_improvement(self):
        pass
    
    # 특정 상태에서 정책에 따른 행동
    def get_action(self, state):
        return action

### 1.3.1 `__init__`

- value_table
- policy_table
- discount_factor

In [8]:
'''
필요한 정보를 변수로 선언
'''
def __init__(self, env):
    # 환경에 대한 객체 선언
    self.env = env
    # value_table : 가치함수를 2차원 리스트로 초기화
    self.value_table = [[0.0] * env.width for _ in range(env.height)]
    # value_table : 상 하 좌 우 동일한 확률로 정책 초기화 (5 x 5 x 4) 3차원 리스트
    self.policy_table = [[[0.25, 0.25, 0.25, 0.25]] * env.width for _ in range(env.height)]
    # 마침 상태의 설정
    self.policy_table[2][2] = []
    # discount_factor : 감가율
    self.discount_factor = 0.9

### 1.3.2 `policy_evaluation`


$$
\mathbf{v}_{k+1}(\mathbf{s}) = \sum_{\mathbf{a} \in A} \pi(\mathbf{a}|\mathbf{s}) \ (\mathbf{R_{t+1}} + \gamma \sum_{\mathbf{s'} \in S} \mathbf{P_{ss'}^{\mathbf{a}}} \mathbf{v}_{k}(\mathbf{s'}))
$$

$\mathbf{P_{ss'}^{\mathbf{a}}}$ = 1 로 가정하고 진행

In [None]:
def policy_evaluation(self):

    # 다음 가치함수 초기화
    next_value_table = [[0.00] * self.env.width for _ in range(self.env.height)]

    # 모든 상태에 대해서 벨만 기대방정식을 계산
    for state in self.env.get_all_states():
        value = 0.0
        # 마침 상태의 가치 함수 = 0
        if state == [2, 2]:
            next_value_table[state[0]][state[1]] = value
            continue

        # 벨만 기대 방정식
        for action in self.env.possible_actions:
            next_state = self.env.state_after_action(state, action)
            reward = self.env.get_reward(state, action)
            next_value = self.get_value(next_state)
            value += (self.get_policy(state)[action] * (reward + self.discount_factor * next_value))

        next_value_table[state[0]][state[1]] = round(value, 2)

    self.value_table = next_value_table

### 1.3.3 `policy_improvement`


$$
\mathbf{q}_\pi(\mathbf{s, a}) = \mathbf{R_{t+1}} + \gamma \sum_{\mathbf{s'} \in S} \mathbf{P_{ss'}^{\mathbf{a}}} \mathbf{v}_\pi(\mathbf{s'})
$$

In [10]:
# 현재 가치 함수에 대해서 탐욕 정책 발전
def policy_improvement(self):
    next_policy = self.policy_table
    for state in self.env.get_all_states():
        if state == [2, 2]:
            continue
        value = -99999
        max_index = []
        # 반환할 정책 초기화
        result = [0.0, 0.0, 0.0, 0.0]

        # 모든 행동에 대해서 [보상 + (감가율 * 다음 상태 가치함수)] 계산
        for index, action in enumerate(self.env.possible_actions):
            next_state = self.env.state_after_action(state, action)
            reward = self.env.get_reward(state, action)
            next_value = self.get_value(next_state)
            temp = reward + self.discount_factor * next_value

            # 받을 보상이 최대인 행동의 index(최대가 복수라면 모두)를 추출
            if temp == value:
                max_index.append(index)
            elif temp > value:
                value = temp
                max_index.clear()
                max_index.append(index)

        # 행동의 확률 계산
        prob = 1 / len(max_index)

        for index in max_index:
            result[index] = prob

        next_policy[state[0]][state[1]] = result

    self.policy_table = next_policy