# Chapter 3. Finite Markov Decision Processes

 이 챕터에서는 finite markov decision processes 에 대해 소개한다. bandit problem과 마찬가지로 evaluative feedback 뿐만 아니라 associative aspect 또한 다루고 있다. (다른 situations에서 다른 actions들을 선택) 
 
 **MDP(Markov Decision Process)**는 전형적인 순차적 의사 결정(sequential decision making)을 말하는데 행위(actions)들이 즉각적인 보상뿐만 아니라, 이후의 상황, 상태 그리고 미래의 보상(subsequent situations , or states, and through thoes future rewards)들에 영향을 준다. 그러므로 즉각적인 보상과 지연된 보상과의 균형(trade-off)을 다룬다.
 
 ### Approarch
  bandit problem에서는 reward에 따른 action value function을 update하여 $q_*(a)$를 추정하는 문제였으나, MDP에서는 state s에 대한, action a를 선택하는 value function $q_*(s, a)$를 구하는 문제 혹은, 주어진 state에 대한 value function $v_*(a)$ 즉, 주어진 optimal action selection을 추정하는 문제로 바뀌었다. 이와 같이 상태 의존적인 정량적인 접근(state-dependent quantities)은 indivisual action selections 들에 대한 장기적인 결과(long-term consequences)에 좋은 영향을 준다. 
  
 반환값(returns), 가치 함수(value functions), 벨만 방정식(Bellman equations) 과 같은 문제의 수학적인 구조의 핵심 요소에 대해서 설명한다.
 

## 3.1 The Agent-Environment Interface
<br>
 #### *MDPs* ?
 학습과 의사결정을 하는 *agent* 그리고 agent 이외의 모든 것을 의미하는 *environment* 이 두 객체의 interaction으로부터 goal 을 달성하기 위한 학습하는 문제를 다룬다.
 ![interaction.png](images/interaction.png)
<center>**Figure 3.1: The agent-environment interaction in a Markov decision process.**</center>
 
a *finite* MDP는 states, actions, and rewards (S, A, and R)들의 sets들이 finite number of elements 로 구성됨을 말하며, random variables $R_t$ and $S_t$ 는 바로 직전의 state, action 에만 종속적인 discrete probability ditributions 을 가진다.
<br>
#### *Markov property*?
 확률변수 $S_t$ and $R_t$ 개별 값들의 확률이 바로 다음의 상태$S_{t-1}$와 액션$A_{t-1}$에만 영향을 주는 경우 Markov 속성을 가졌다고 말한다.
 $$ P[S_{t+1}\ |\ S_t] = P[S_{t+1}\ |\ S_1, ... S_t]$$
##### The state captures all relevant information from the history
##### Once the state is known, the history may be thrown away
##### i.e. The state is a sufficient statistic of the future
> 결국 markov property 를 만족할 수 있을 만큼 충부한 states 정보를 확보하는 것이 중요하다.
<br> 

#### 1. four arguments *dynamics* function
$$ p(s',r \ | \ s,a) \doteq Pr \{S_t=s',R_t=r\ |\ S_{t-1}=s,\ A_{t-1}=a\} , \ (3.2)$$
<center>MDP의 상태전이의 다양성을 나타낸 수식</center>
$$ \Sigma\Sigma p(s',r \ | \ s,a)  = 1,\ for\ all\ s \in S, a \in A(s). \ (3.3) $$
<center> 여기서 p는 모든 s, a 의 경우의 수에 따른 확률분포를 말한다.</center>
<br>
#### 2. *state-transition probabilities*
$$ p(s'\ |\ s,a) \doteq Pr \{S_t=s'\ |\ S_{t-1}=s, A_{t-1}=a \} = 
\begin{equation}
\sum_{r\in R}p(s',r\ |\ s,a)
\end{equation}\ (3.4)
$$
<br>
#### 3. two arguments *expected rewards for state-action pairs*
$$ r(s,a) \doteq E [R_t\ |\ S_{t-1}=s, A_{t-1}=a ] = 
\begin{equation}
\sum_{r\in R}
\sum_{s'\in S}p(s',r\ |\ s,a)
\end{equation},\  (3.5)
$$
<br>
#### 4. three arguments *expected rewards for state-action-next-state triples*
$$ r(s,a,s')\doteq E [R_t\ |\ S_{t-1}=s,\ A_{t-1}=a,\ S_t\ =\ s'] = 
\begin{equation}
\sum_{r\in R}r \frac{p(s',r\ |\ s,a)}{p(s'\ |\ s,a)}
\end{equation},\  (3.6)
$$
<br>
agent 와 environmetn 경계는 생각보다 agent 쪽에 가깝다. 로봇의 모터와 기계적인 연결 그리고 센싱 하드웨어 등은 모두 환경의 부품이라고 보여지면, 사람이나 동물의 경우에도 근육, 뼈대 및 인식기관 등도 환경의 부분이라고 간주된다. 보상들 또한 에이전트의 외부에서 전달된다, agent 가 environment 에 대해 항상 모르는 것이 아니라 Rubik's cube 맞추기와 같이 상황에 따라 전체 정보를 다 알고 있지만 해결하기 어려운 문제도 있다.

##### * 결국, agent 와 environment 의 경계는 agent's 의 absolute control 의 한계이지 에이전트가 알고 있는 정보(knowledge)가 아니다.
##### * states 와 actions 는 task 별로 아주 다양한데 어떻게 표현되는 지에 따라서 성능의 차이가 아주 크다.

### Example 3.3 Recycling Robot

### 3.2 Goals and Rewards
강화학습의 가장 큰 목표는 reward라고 불리는 scalar signal 값의 expected 누적 합의 최대화를 하는 방법을 배우는 것이다.
##### * 목표의 아이디어를 형식화 하기 위한 보상 시그널을 사용하는 것이 강화학습의 가장 큰 특징 중의 하나이다.

이러한 이해를 돕는 가장 좋은 방법은 실례를 들어보고 상상하는 것인데 깡통 줍는 로봇이 매 time step 마다 -1 보상을 받게 되고 깡통을 주었을 때에 +1 보상을 배터리가 방전되어 관리자가 옮기게 되는 경우 -3점 등으로 생각할 수 있다. 하지만 무엇 보다도 얻고자 하는 가장 중요한 목적을 전달하는 것이 중요하다.

##### * 보상 신호(reward signal)은 agent 의 prior knowledge 를 담는 곳이 아니라 우리가 얻고자 하는 최종 목표를 알려주어야 하는데 체스의 예를 들면 승리하는 것이 목표가 되어야지 상대방의 좋은 말을 획득하는 것이 되어서는 안 된다.
##### * The reward signal is your way of communicating to the robot what you want it to achieve, not how you want it achived.

### 3.3 Returns and Episodes
여태까지는 비형식적인 강화학습의 목표를 이야기 했다면 좀 더 형식적으로 표현하면 예상되는 반환값(expected return)이라 볼 수있다.
$$ G_t\ \doteq R_{t+1}+R_{t+2}+R_{t+3}+\ ... + R_T,\ (3.7)$$
<br>
#### Differences between Goal & Task ?
Goal 은 강화학습의 최종 목표이며, 체스에서 승리하거나 미로를 탈출하는 것이 그것이다
Task 는 Goal 
#### Episodic Tasks
*terminal state* 라고 불리우는 special state 에 도달하면 episode 가 종료되고, 시작 시점의 상태로 reset 된다.
episode가 매번 다르게 종료된다고 하더라도, jk이전의 episode와 다음의 episode는 독립적이다
동일한 종료 상태 가지더라도 다른 보상을 받을 수 있다
때때로 종료 상태와 비 종료 상태의 구분 또는 종료 시간 T가 확률변수로 사용될 수 있다
보상의 경우에 시간이 지남에 따른 감가(*discounting* )이 없다.
#### Continuing Tasks
정해진 종료 조건이 없고, 무한이 에피소드가 진행되는 경우
final time step 이 $T=\infty$, 이므로 최대화 할 수 없기 때문에 *discounting.* 기법을 적용하여 *discounted return*
$$ G_t\ \doteq R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ ... =
\begin{equation}
\sum_{k=0}^\infty \gamma^k R_{t+k+1}
\end{equation},\  (3.8)
$$
where $0 \leq \gamma \leq 1$, called the *discount rate.*
이는 미래의 보상을 현재에 계산하는 방식으로, 늦게 받으면 받을 수록 보상이 작아지는 효과를 가진다
$\gamma < 1$의 값을 가지면 (3.8) 식의 infinite sum 값은 $\{R_k\}$ 값에 바운드 되어 finite value를 가진다
만약 $\gamma = 0$이라면 "myopic" 즉 근시안 적인 눈 앞의 보상만 바라보는 결과를 가지게 되고,
$\gamma$ 값이 1에 가까워 질 수록 미래의 보상은 점점 커질 것이다.
<br>
#### reward is a constant +1, then return is
$$ G_t = 
\begin{equation}
\sum_{k=0}^\infty \gamma^k = \frac{1}{1-\gamma}.
\end{equation}\ (3.9)
$$

### Example 3.4: Pole-Balancing

### 3.4 Unified Notation for Episodic and Continuing Tasks
Episodic Task 와 Continuing Task 를 하나의 수식으로 표현하고자 긴 task를 여러개의 episodic task로 생각할 수 있으며 $S_{t,i}$와 같이 i 번째 episode의 time t 를 의미하도록 표기할 수 있으나 때때로 생략할 수도 있다. 아래와 같이 episodic termination 구간을 두고 일정 구간 이후에는 *absorbing state * 상태로 빠지게 되고 보상이 0이 되는 것으로 표현이 가능하다.
![absorbing_state](images/absorbingstate.png)
#### absorbing state return is
$$ G_t \doteq
\begin{equation}
\sum_{k=t+1}^T \gamma^{k-t-1}R_k,
\end{equation}\ (3.11)
$$
위 식은 아래와 같이 풀어 쓸 수 있다
$$G_t\ \doteq R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\ ... + \gamma^{T-t-1}R_T$$

### 3.5 Policies and Value Functions
 강화학습의 거의 모든 알고리즘에는 *value functions*을 추정하는 과정이 포함되어 있는데 이는 agent 가 *얼마나 좋은 상태로* 이끄는 가를 말하는 것인데 이는 예상할 수 있는 미래의 가치들을 의미하는데 이 가치함수를 만들어내는 데에는 소위 정책(policies)이라고 하는 행동 하는 방법에 대한 가치함수를 말한다.
<br>
#### **정책** or Policy?
##### 상태로부터 선택 가능한 행동들에 이르는 확률
##### $\pi(a\mid s)$ : $A_t=a\ if\ S_t=s$. 즉 상태 s 일때 행동 a를 수행할 확률.
##### 강화학습의 방법들은 경험의 결과에 의하여 어떻게 에이전트의 정책이 변경 되는 지에 대한 것이라 말할 수 있다.
<br>
#### state-value function for policy $\pi$
$$ v_\pi(s) \doteq E_\pi[G_t\ |\ S_t=s] = E_\pi
\begin{bmatrix}
\begin{equation}
\sum_{k=0}^\infty \gamma^kR_{t+k+1}\mid S_t=s
\end{equation}
\end{bmatrix}
,\ for \ all \ s \in S,\ (3.12)
$$
<br>
$v_\pi(s)$ 는 *state-value function for policy $\pi$.
<br>
>**상태-가치 함수** 는 <font color=orange>정책함수 $\pi$를 따르는 agent 의 보상 확률변수 R에 대한 expected value </font>

#### action-value function for policy $\pi$.
$$ q_\pi(s,a) \doteq E_\pi[G_t\ |\ S_t=s,A_t=a] = E_\pi
\begin{bmatrix}
\begin{equation}
\sum_{k=0}^\infty \gamma^kR_{t+k+1}\mid S_t=s, A_t=a
\end{equation}
\end{bmatrix}. (3.13)
$$
<br>
>**행동-가치 함수** 는 <font color=orange>정책함수 $\pi$를 따르는 agent 의 action에 대한 보상 확률변수 R에 대한 expected value </font>

#### The value function $v_\pi\ and\ q_\pi$ can be estimated from experience.
 임의의 정책 $\pi$를 따르는 agent 가 그 상태를 따르는 실제 반환값들의 평균을 반복해서 계산하게 된다면, 그리고 이를 무한대로 반복하였을 때에, 매 행동에 따라 분리된 평균 값들은 수렴하게 될 것이다. 우리는 이러한 추정 방법을 *Monte Carlo methods* 라고 부른다. 왜냐하면 많은 실제 반환 값들의 random samples 를 통해서 average 값을 획득하기 때문이다.
##### 이러한 접근은 너무 많은 states 가 발생하므로 실용적이지 못 하여 <font color=red>파라메터 화 한  $v_\pi\ and\ q_\pi$ 함수the parameterized function approximator를 사용할 수 있다.</font>
<br>
#### Bellmann equation for $v_\pi$
$$ v_\pi(s) \doteq E_\pi[G_t \mid S_t=s]\\
= \begin{equation}
\sum_a \pi(a\mid s)
\sum_{s',r} p(s',r \mid s,a)[r+\gamma v_\pi(s')],\ for\ all\ s \in s,
\end{equation}\ (3.14)
$$
> 벨만 방정식은 현재 상태 값과 계승자(successors)들의 상태 값들과의 관계를 나타낸다. 또한 시작 상태의 노드는 감가된(discounted) 다음 상태의 값과 일치해야만 한다.

![backupdiagram](images/backupdiagram.png)
##### 초기 상태 $S$로부터 agent는 정책함수 $\pi$를 통해 3가지의 action을 선택할 수 있다.
##### environment는 dynamics function $p$에 따라 $S'$으로 전환되고 보상 `$r$을 받는다.
##### 위와 같은 diagram을 backup diagrams라고 한다
##### 아마 자식 노드에서 발생하는 reward값이 root node로 지속적으로 backup 되는 것처럼 보이기 때문인 것 같다.
##### 이러한 backup operations 이 reinforcement learning의 중요한 위치를 차지하고 있다

### Example 3.5: GridWorld
Simple Finite MDP 구현 예제
##### 5x5 격자 사각형 내에서 north, south, east and west 4방향으로 무조건 이동이 가능하고 보상은 없고,
##### 단, 격자 밖으로 이동 시에는 그 자리에 유지되지만 -1 보상이 주어지고,
##### 특정 위치 A, B 에서는 무조건 A', B' 로 이동하며 각 각 +10, +5 보상이 주어진다.
<br>
#### Lessons from mistakes
1. 수렴하지 않고 하나의 상태만 계속 나오는 문제: state = next_state 할당 이후에 model update 한 오류
1. (3,0) 값이 5점 이상이 나와야 하는데 4점 이하로 나오는 문제: reward 계산 시에 +10, +5 점 보다 -1 점 제약을 먼저 해서 오류 

In [302]:
#!/usr/bin/env python
# -*- coding:utf-8 -*-
import numpy as np
import sys
import copy

debug_flag = False

def write(args):
    for arg in args:
        print(arg, end=' ', flush=True)
    print()

def debug(*args):
    if (debug_flag):
        write(args)
        
def info(*args):
    write(args)
    
class Bar:
    def __str__(self):
        return "({}, {})".format("a", "b")


In [83]:
def foo():
    width=5
    height=5
    x = [[0.00] * width for _ in range(height)]
    x[0][1] = +10
    x[0][3] = +5
    print(x)
    
def a():
    print("a")
    
def b():
    print("b")
    
def c():
    print("c")
    
def d():
    print("d")
    
def random_function():
    functions=[a, b, c, d]
    x = np.random.randint(0, 4, 1)[0]
    f = functions[x]
    f()
    
def bar():
    x = 4
    x -= 2
    print(x)
    
b = Bar()
debug(b, b, b)
debug(b)
print("OK")
print("OK")

<class 'tuple'>
(<__main__.Bar object at 0x1137cdf60>, <__main__.Bar object at 0x1137cdf60>, <__main__.Bar object at 0x1137cdf60>)
<class 'tuple'>
(<__main__.Bar object at 0x1137cdf60>,)


In [275]:
class State:
    
    def __init__(self, x, y):
        self.x = x
        self.y = y
        
    def x(self):
        return x
    
    def y(self):
        return y
    
    def equals(self, state):
        return self.x == state.x and self.y == state.y
    
    def __str__(self):
        return "(x:{}, y:{})".format(self.x, self.y)

class Action:
    
    def __init__(self, state):
        self.state = copy.deepcopy(state)
        self.functions = [self.north, self.south, self.east, self.west]
        self.num_of_actions = len(self.functions)
        
    def north(self):
        self.state.y -= 1
        return self.state
    
    def south(self):
        self.state.y += 1
        return self.state
    
    def east(self):
        self.state.x += 1
        return self.state
    
    def west(self):
        self.state.x -= 1
        return self.state
    
    def random(self):
        x = np.random.randint(0, 4, 1)[0]
        return self.functions[x]
    
    def actionOf(self, x):
        return self.functions[x]

    def getNumOfActions(self):
        return self.num_of_actions

In [270]:
s = State(0, 4)
a = Action(s)
print(a.getNumOfActions())
action = a.random()
sp = action()
debug(s, "->", sp)
# debug(prev_state, "->", self.state)
num_of_actions=4
policy_table = [1.0/num_of_actions] * num_of_actions
print(policy_table)
policy_factor = 1.0/num_of_actions
print(policy_factor)

4
[0.25, 0.25, 0.25, 0.25]
0.25


In [431]:
class Environment:
    
    def __init__(self, width=5, height=5):
        self.width = width
        self.height = height
        self.reward = [[0] * width for _ in range(height)]
        self.a = State(1, 0)
        self.next_a = State(1, 4)
        self.b = State(3, 0)
        self.next_b = State(3, 2)

    def reset(self):
        pass
    
    # out-of-bound returns -1 reward
    # (0,1) = 10, (0,3) = 5  rewards, else 0 reward
    def step(self, state, action, debug_print=False):
        next_state = action()
        _state, _reward = None, None
        if self.a.equals(state):
            debug('Found 10 points')
            _state, _reward = self.next_a, +10
        elif self.b.equals(state):
            debug('Found +5 points')
            _state, _reward = self.next_b, +5
        elif next_state.x >= width or next_state.y >= height or next_state.x < 0 or next_state.y < 0:
            _state, _reward = state, -1
            debug('Found -1 point')
        else:
            _state, _reward = next_state, 0
        if debug_print:
            info('state:', state, '=>', _state, ', reward:', _reward)
        return _state, _reward

In [438]:
class GridWorld:
    
    def __init__(self, env, discount_factor=0.9, value_table=None):
        self.env = env
        self.discount_factor = discount_factor
        self.num_of_actions = Action(State(0, 0)).getNumOfActions()
        self.policy_factor = 1.0/self.num_of_actions
        self.value_table = [[0.0] * env.width for _ in range(env.height)]
        if value_table != None:
            self.value_table = value_table
        
    def getAction(self, state, x):
        return Action(state).actionOf(x)
    
    def updateModel(self, state):
        _reward = 0.0
        for x in range(self.num_of_actions):
            action = self.getAction(state, x)
            next_state, reward = self.env.step(state, action, False) # sigma p(s',r|s,a)
            _reward += reward + self.discount_factor * self.value_table[next_state.y][next_state.x]
        return round((self.policy_factor * _reward), 2)
        
    def getRandomState(self):
        pass
        
    # implementation of Bellmann equation (3.14)
    def start(self, num_of_episodes = 1000, num_of_steps = 1000):
        env = self.env
        env.reset()
        for episode in range(num_of_episodes):
            state = State(3, 0) # start with center position
            for step in range(num_of_steps):
                action = Action(state)
                next_state, reward = env.step(state, action.random(), False) # sigma p(s',r|s,a)
                total_reward = self.updateModel(state) # expectation of [r + gamma v(s')]
                self.value_table[state.y][state.x] = total_reward
                state = next_state
        
    def printStateValue(self):
        for x in range(self.env.width):
            print(self.value_table[x])
                
    def printStateValueRev(self):
        v = self.value_table
        for y in range(self.env.height):
            for x in range(self.env.width):
                print(v[x][y], end=' ')
            print()

# 디버깅을  위해 초깃값을 기존에 1000 step 수행한 결과를 지정할 수 있도록 수정
def getValueTable():
    value_table=[
        [2.74, 8.05, 3.79, 4.56, 0.21],
        [1.08, 2.54, 1.79, 1.41, -0.09],
        [-0.21, 0.47, 0.4, 0.06, -0.74],
        [-1.15, -0.61, -0.53, -0.77, -1.38],
        [-2.0, -1.48, -1.36, -1.56, -2.12]]
    return value_table
    
def main(num_of_episodes = 1000, num_of_steps = 1000):
    initial_value_table = getValueTable()
    env = Environment()
    gridWorld = GridWorld(env, value_table=initial_value_table)
    gridWorld.start(num_of_episodes, num_of_steps)
    gridWorld.printStateValue()

if __name__ == "__main__":
    main(100, 1000)

[3.29, 8.78, 4.42, 5.31, 1.48]
[1.5, 2.98, 2.24, 1.89, 0.53]
[0.03, 0.72, 0.66, 0.34, -0.42]
[-0.99, -0.45, -0.37, -0.6, -1.2]
[-1.87, -1.36, -1.24, -1.44, -1.99]


### 3.6 Optimal Policies and Optimal Value Functions
 강화학습 문제를 푸는 작업은 긴 기간에 걸처서 최대한 많은 보상을 얻는 정책을 찾는 것인데, finite MDP의 optimal policy를 아래와 같이 정의할 수 있다
 ##### 모든 상태에 대한 정책  $\pi$를 어떠한 $\pi'$ 보다 나은 정책이라면 $v_\pi(s) \leq v_\pi'(s)\ for\ all\ s \in S$
 ##### 단 하나의 최적의 정책 $\pi_*$이 존재하며, 동일한 상태-가치 함수를 공유하는 **optimal state-value function** $v_*$
$$v_*(s) \doteq max_\pi v_\pi(s), (3.15)$$
$\ for\ all\ s\in S.$
<br> 
 ##### optimal policies 또한 동일한 **optimal action-value function**을 공유하는데 $q_*$
 $$q_*(s,a)\doteq max_\pi q_\pi(s,a),\ (3.16)$$
 $\ for\ all\ s \in S\ and\ a \in A(s).$
 <br>
 ##### 최적의 정책을 따르는, 상태s 에서 행동a를 수행할 때에 q함수는 아래와 같다.
 $$q_*(s,a)=E[R_{t+1}+\gamma v_*(S_{t+1} \mid S_t=s,A_t=a].\ (3.17)$$
 
#### Bellmann <font color=red>optimal equation for $q_*$</font>
$$ v_*(s) = E[R_{t+1} + \gamma max_{a'}q_*(S_{t+1}\mid S_t=s,A_t=a]\\
= \begin{equation}
\sum_{s',r} p(s',r \mid s,a)[r+\gamma max_{a'}\ q_*(s',a')],
\end{equation}\ (3.20)
$$
> Bellmann equation 식과 다른 점은 정책함수 $\pi$ 항이 존재하지 않는데, 이는 최적의 행동action 을 이미 알고 있기 때문에 굳이 계산할 필요가 없기 때문이다.

##### environment에서 dynamics p 함수를 아는 경우 unique solution 즉 최적 방정식을 알 수 있다
##### 이는 state, reward 를 모두 알 수 있다는 의미이며, state-value $v_*$, action-value $q_*$ 를 알 수 있다.
##### 일단 $v_*$를 안다는 말은 모든 상황state에서 최적의 행동action을 할 수 있다는 의미이다.
##### 심지어 greedy한 접근을 하여도 optimal state에 이르는데 이는 모든 가능한 behavior에 대해 알고 있기 때문이다.
> 결국 action-value function을 알지 못해도 state-value function 만으로도 one-step-ahead lookup 을 통해 optimal 선택을 할 수 있다. 하지만 action-value function을 알고 있다면 one-step lookup 만으로 최적의 선택을 할 수 있다. 이는 Example 3.5를 통해서 state-value function 만으로도 최적의 상태를 알 수 있다는 것을 확인하였다

#### Bellman optimal equation 문제는 아래의 조건을 만족한다면 유용하다
1. dynamics of environment 정보를 아주 정확히 알고 있다
1. computatinal resources 가 충분히 있다
1. Markov property 를 만족한다

> 하지만 그리 복잡하지 않은 'backgammon' 프로그램의 경우만 하더라도 $10^{20}$의 state를 가지기 때문에 모든 상태를 계산하기에는 현 세대 최고의 컴퓨터로도 수 천년이 걸릴 수도 있을 것이다. 그래서 강화학습 영역에서는 approximation solutions 으로 접근한다.

### 3.7 Optimality and Approximation
### Optimal policy의 한계점
1. extreme computational cost
1. dynamics of environment
1. curse of dimensionality

## 3.8 Summary
<br>
### '강화 학습' 이란?
> 목표goal를 달성하기 위하여 상호작용interaction을 통하여 어떻게 행동하는 지를 배우는 것이다.

### '강화 학습' 관련 용어들
 1. Agent : 환경과 상호작용하는 학습의 주체
 1. Environment : 에이전트의 행위 이외의 모든 상태
 1. Action : 에이전트가 환경의 상태에 반응하여 행동하는 동작
 1. State : 에이전트가 처한 현재 상태
 1. Reward : 에이전트의 행위에 따른 환경의 보상
 1. Policy : 환경의 상태에 따라 에이전트가 어떤 행동을 하는 지를 결정하는 정책
 1. MDP : 위의 1~6까지의 요소들을 통해서 순차적 행동 결정 문제를 수학적으로 표현한 것
 1. Finite MDP : MDP 문제에서 State, Action 그리고 Reward 등의 집합이 finite set 인 경우
 1. Return : 반환값을 말하는데 즉각적인 보상이 아니라 긴 기간 동안에 감가율이 적용된 보상의 미래 예측치
 1. Episodic Task : terminate state 가 존재하는 환경
 1. Continuing Task : terminate state 가 존재하지 않고 끝없이 계속 되는 환경
 1. Bellman Equation : 
 1. Bellman Optimality Equations : 
 1. Complete Knowledge : 에이전트가 환경의 모델에 대한 모든 정보를 다 알고 있는 경우
 1. Incomplete Knowledge : 에이전트가 환경의 모델에 대해 일부만 아는 경우
 
> 우리는 이러한 최적의 솔루션을 발견하기 어렵기 때문에 approximation 하는 방법들을 찾아야만 한다.