https://mpatacchiola.github.io/blog/2016/12/09/dissecting-reinforcement-learning.html

### RL의 기원을 알기 위해서는, 먼저 마코브 체인부터 짚고 넘어가야 한다.

`Andrey Markov`는 **확률 과정(Stochastic Process)**을 공부했던 러시아 수학자였다.

그는 특히 연결되어 있는 사건들에 대해 관심이 많았는데, 1906년 그는 '**체인(Chain)**' 이라고 불렀던 개별 과정에 대해 관심을 갖기 시작했다.

**마코브 체인(Markov Chain)**은 State 집합 $ S = \{s_0, s_1, ... s_m\} $과 한 state에서 다른 state으로 이동할수 있는 process를 가지고 있다.

이러한 이동은 한 단계에 거쳐 발생하며, **전이 모델(Transition Model)**인 $T$에 기초한다.

즉, 마코브 체인은 다음 3가지로 정의할 수 있다.


1. Set of Possible States : $ S = \{s_0, s_1, ..., s_m\} $
2. Initial States : $s_0$
3. Transition Model : $T(s, s')$

또한 마코브 체인은 **마코브 성질(Markov Property)**에 기반하는데, 현재가 주어졌을 때, 미래의 상황은 과거와는 조건부 독립이라는 것이다. 즉, 현재 프로세스가 속한 `state`은 직전 상황에 속해있던 `state`에만 영향을 받는다는 말이다. 

예를 들어 살펴보자.

두 개의 `state` : $s_0, s_1$이 있고, $s_0$가 초기 `state`라고 생각하자.

**전이 행렬(Transition Matrix)**은 다음과 같이 정의된다.

$$ T =  \left[ \begin{array}{cc} 0.90 & 0.10 \\ 0.50 & 0.50  \end{array} \right] $$


![title](./Markov.png)




이제 시간의 개념을 도입해보자. 

3단계 이후, 50단계 이후에 프로세스가 어떤 `state`에 있을지 예측한다고 해보자.

k-step 전이 확률(Transition Probability)를 구하려면 그냥 전이행렬을 k차 제곱하면 된다.

In [1]:
# 전이행렬 계산하기

import numpy as np

T = np.array([[0.9, 0.1], 
             [0.5, 0.5]])

T_3 = np.linalg.matrix_power(T, 3)
T_50 = np.linalg.matrix_power(T, 50)
T_100 = np.linalg.matrix_power(T, 100)

print("T: " + str(T))
print("T_3: " + str(T_3))
print("T_50: " + str(T_50))
print("T_100: " + str(T_100))

T: [[ 0.9  0.1]
 [ 0.5  0.5]]
T_3: [[ 0.844  0.156]
 [ 0.78   0.22 ]]
T_50: [[ 0.83333333  0.16666667]
 [ 0.83333333  0.16666667]]
T_100: [[ 0.83333333  0.16666667]
 [ 0.83333333  0.16666667]]


이제 k=0에서 `state`를 나타내는 초기 분포(initial distribution)를 정의한다.

이 시스템은 2개의 `state`으로 구성되어 있기에 초기 분포를 길이가 2인 벡터로 나타낼ㄹ 수 있다.

첫 번째 원소는 $s_0$에 있을 확률이고, 두 번째 원소는 $s_1$에 있을 확률이다.

우리가 $s_0$부터 시작한다면, 초기 분포는 다음과 같다.

$$ v = (1,0) $$

이를 반영하여 다시 전이 확률을 계산할 수 있다.

In [2]:
# 초기 확률이 (1, 0)
v = np.array([[1.0, 0.0]])

print("v: " + str(v))
print("v_1: " + str(np.dot(v,T)))
print("v_3: " + str(np.dot(v,T_3)))
print("v_50: " + str(np.dot(v,T_50)))
print("v_100: " + str(np.dot(v,T_100)))

v: [[ 1.  0.]]
v_1: [[ 0.9  0.1]]
v_3: [[ 0.844  0.156]]
v_50: [[ 0.83333333  0.16666667]]
v_100: [[ 0.83333333  0.16666667]]


In [3]:
# 초기 확률이 (0.5, 0.5)
v = np.array([[0.5, 0.5]])

print("v: " + str(v))
print("v_1: " + str(np.dot(v,T)))
print("v_3: " + str(np.dot(v,T_3)))
print("v_50: " + str(np.dot(v,T_50)))
print("v_100: " + str(np.dot(v,T_100)))

v: [[ 0.5  0.5]]
v_1: [[ 0.7  0.3]]
v_3: [[ 0.812  0.188]]
v_50: [[ 0.83333333  0.16666667]]
v_100: [[ 0.83333333  0.16666667]]


놀라운 점은, 시간이 지나면 초기 확률에 관계 없이 모두 동일한 전이 확률을 갖게 된다는 사실이다.

결국 체인은 평형 상태로 수렴했고, 초기 분포는 잊혀졌다. 

이러한 **수렴(Convergence)**이 항상 일어나는 것은 아니므로 조심해야 한다. 

### 마코브 의사결정 프로세스 (Markov Decision Process)

RL에서, 마코브 체인과 비슷한 개념인 **MDP(Markov Decision Process)**가 자주 사용된다. 

MDP는 마코브 체인을 재해석한 것으로, `agent`와 `decision making`의 개념을 포함한다.

MDP는 다음 5가지 개념으로 정의된다.

1. Set of possible states : $ S = \{s_0, s_1, ..., s_m\} $
2. Initial State : $s_0$
3. Set of possible Actions : $ A = \{a_0, a_1, ..., a_n\} $
4. Transition Model : $ T(s, a, s') $
5. Reward Function: $ R(s) $

마코브 체인과 비교하여 추가적인 요소들이 생겨났다.

- 전이 모형에 초기 상태인 $s_0$가 추가되었고, 이 전이모형은 행동 `a`가 상태 `s`에서 수행되었을 때 `s'`에 도달할 확률을 계산한다.

- 그리고 보상 함수인 R(s)가 추가되었는데, 이 함수 덕분에 몇몇 상태가 다른 것보다 더 바람직하다라고 말할 수 있다. 

- 따라서 행동 주체가 그러한 상태로 움직이면 더 높은 보상을 받는다.

그렇다면 여기서의 목표와 해결법은 다음과 같이 말할 수 있다.

- Problem : 행동 주체는 '-'값을 주는 상태를 피하고, '+'값을 주는 상태를 고르면서 보상을 극대화시켜야한다.
- Solution : 가장 높은 보상을 주는 행동을 반환하는 '**규칙(policy)**'-  $\pi (s)$를 찾아야한다.


행동 주체(agent)는 서로 다른 규칙들을 시도해볼 수 있지만, 그 중 가장 높은 기대 효용값을 산출하는 하나만이 **최적 규칙(Optimized Policy)**으로 인정되고, $ \pi^*$으로 정의된다.



### 이제 한 예제를 살펴볼 것인데, 앞으로도 계속해서 쓰일 것이다.


이 실험은 `Russel and Norving`의 책 챕터 17.1에 소개되어 있다.

- 우리에게 로봇 청소기가 있고, 이 청소기는 반드시 경로에서 충전소를 지나가야 한다고 가정해보자.

- 로봇에게 주어진 공간은 4x3 행렬이며, 출발지점 $s_0$는 (1,1)에 위치한다. 
- 충전소는 (4,3)에 위치하고, 위험한 계단은 (4,2)에, 장애물은 (2,2)에 위치한다.
- 로봇은 충전소(Reward +1)에 도달하고, 계단(Reward -1)을 피하는 최적의 경로를 찾아야 한다.
- 확률 과정에 방해물이 개입하여, 원래 의도된 경로에서 항상 20%정도 벗어난다.
- 만약 로봇이 앞으로 나아가기로 결정할 때, 10% 확률로 왼쪽을 바라보고, 10% 확률로 오른쪽을 바라본다.
- 만약 로봇이 벽이나 장애물을 만나면, 다시 원래 자리로 돌아온다.

![title](./Robot.png)



그렇다면 여기서 로봇이 택할 수 있는 **최적의 경로**는 무엇일까?

배터리 수준에 따라서, 각 단계에서의 보상을 다르게 준다고 생각해보자. 

아래 4가지 경우를 가정할 수 있다.

1. Extremely Low Battery : $R(s) \leq -1.6284 $ 
    - 행동 주체(청소기)는 한 단계를 움직일 때마다 너무도 큰 벌을 받는다.
    - 따라서 당장의 목표는 한시라도 빨리 모든 움직임을 멈추는 것이다.
    - 결국 로봇 청소기는 계단으로 굴러 떨어지는 것을 선택한다.
2. Quite Low Battery : $-0.4278 \leq R(s) \leq -0.085 $
    - 청소기는 충전소에 최단 경로로 가려고 한다.
3. Slightly Low Battery : $ -0.0221 \leq R(s) \leq 0 $
    - 청소기는 위험을 감수하지 않고, 계단을 가로지르지 않는다.
4. Fully Charged : $ R(s) > 0 $
    - 청소기는 exit을 하지 않고, 매 단계에서 '+'의 보상을 받으며 안정 상태에 돌입한다.
    

그럼 로봇청소기는 **어떻게** 최적의 경로를 선택할까?

### The Bellman Equation

위 질문에 답하기 위해, **[벨만 방정식](https://en.wikipedia.org/wiki/Bellman_equation)**을 짚고 넘어가야 한다.

먼저 우리는 '2개의 규칙'을 비교할 줄 알아야 한다.
각 `state`에서 주어진 보상을 사용하여 `state sequence`의 효용을 계산할 수 있다.

`states history` h의 효용을 다음과 같이 정의한다 :
$$ U_h = R(s_0) + \gamma R(s_1) + \gamma^2 R(s_2) + ... + \gamma^n (s_n) $$

이 공식은 `state sequence`의 할인된 보상을 정의하는데, 여기서 $\gamma \in [0, 1]$은 **할인율(Discount Factor)**이다. 

할인율은 행동 주체가 '미래' 보상보다 '현재' 보상을 선호하는 정도를 나타낸다. 만약 할인율이 1이면 이 공식은 전체 합이 된다.

`state`이 무한이 존재하는 경우에도, 위 공식을 사용하면 유한한 효용값을 얻을 수 있다. 

또한 단일 `state`의 효용은 다음과 같이 정의한다 :
$$ U(s) = E \left[ \sum_{t=0}^\infty \gamma^t R(s_t) \right]$$


이제 모든 효용함수를 알았다. 그럼 다음 `state`을 위한 최선의 행동은 무엇일까?

이 때 **Maximum Expected Utility(최대기대효용)** 원칙을 사용한다.



##### -Bellman Equation
$$ U(s) = R(s) + \gamma max(a) \sum_{s'}T(s, a, s') U(s') $$

R(s)는 현재 state의 보상을 의미한다. 
T * U(s')는 모든 가능한 다음 state에 대해 확률을 구한다.

하지만 이 방정식 만으로 해결이 되지 않는다. 유틸리티 함수 안에 또 다른 유틸리티 함수가 들어있기 때문이다.

![title](./Robot-2.png)

<br><br>


![title](./Robot-3.png)

<br><br>


마지막으로 모든 값을 계산하면 아래 그림과 같다.
<br><br>
![title](./Robot-4.png)


결과적으로 '위로 움직이는' 행동이 가장 높은 값을 보여준다. 

이제 이 결과값을 벨만 방정식에 대입하며 (1,1)의 효용을 얻을 수 있다.
$$ U(s_{11}) = -0.04 + 1.0 \times 0.7456 = 0.7056 $$ 

이제 파이썬으로 구현해보자.

In [5]:
import numpy as np

def return_state_utility(v, T, u, reward, gamma) :
    """
    Return the state utility.
    
    @param v the state vector
    @param T transition matrix
    @param u utility vector
    @param reward for that state
    @param gamma discount factor
    @return the utility of the state
    """
    
    action_array = np.zeros(4)
    for action in range(0,4) :
        action_array[action] = np.sum(np.multiply(u, np.dot(v, T[:,:,action])))
    return reward + gamma * np.max(action_array)

def main() :
    #Starting state vector
    #The agent starts from (1,1)
    
    v = np.array([[0.0, 0.0, 0.0, 0.0,
                  0.0, 0.0, 0.0, 0.0,
                  1.0, 0.0, 0.0, 0.0]])
    
    # Transition matrix loaded from file
    T = np.load("T.npy")
    
    
    #Utility vector
    u = np.array([[0.812, 0.868, 0.918, 1.0,
                  0.762, 0.0, 0.660, -1.0,
                  0.705, 0.655, 0.611, 0.388]])
    
    # Defining the reward for state (1,1)
    reward = -0.04
    # Assume discount factor = 1
    gamma = 1.0
    
    # Bellman equation to find the utility of state (1,1)
    utility_11 = return_state_utility(v, T, u, reward, gamma)
    print("Utility of state (1,1): " + str(utility_11))
    

if __name__ == "__main__" :
    main()

Utility of state (1,1): 0.7056


이제까지, 우리는 효용값들을 주어졌다고 가정한 상태에서 위 계산을 시행하였다.
하지만 `n`개의 가능한 `state`에 대해서, `n`개의 상응하는 벨만 방정식이 존재하고, 각 방정식은 `n`개의 미지수를 포함한다.

선형대수 패키지를 사용하면 풀 수는 있겠지만, 문제는 `max` 연산자 때문에 선형 연산이 불가능하다는 점이다. 

이 때, **Value Iteration(가치반복) Algorithm**을 사용할 수 있다.

### The Value Iteration Algorithm (가치반복 알고리즘)

MDP문제를 풀 때, 벨만 방정식은 'Value Iteration'의 핵심이다. 

우리의 목표는 각 `state`의 효용(`utility`)를 찾는 것이다. 하지만 앞서 말했다시피, 선형 패키지를 사용할 수 없고, 따라서 반복법을 통해 접근한다.

1. 먼저 임의의 초기 값(보통 0)으로 시작한다.
2. 그리고 벨만 방정식을 이용해 `state`의 효용을 계산하여 다시 `state`에 할당한다. 이 과정은 **벨만 업데이트(Bellman Update)**라고 부른다.
3. 벨만 업데이트를 무한히 반복하다보면 평형 상태에 도달한다. 그 값을 사용하면 된다.
    4. 어떻게 평형 상태에 도달했는지 알 수 있을까? -> **Stopping Criteria**를 사용한다.
        - 어떠한 `state`의 효용도 많이 바뀌지 않을 때, 우리는 알고리즘을 멈출 수 있다.
        - 다음 식을 참고하라.
        - 이 결과는 **Contraction Property**의 결과이지만, 여기서 설명하지는 않는다.
        
        $$ \vert \vert U_{k+1} - U_{k} || < \in \frac{1-\gamma}{\gamma} $$
        
 
다시 파이썬으로 구현해보자.

In [8]:

import numpy as np

def return_state_utility(v, T, u, reward, gamma):
    """Return the state utility.

    @param v the value vector
    @param T transition matrix
    @param u utility vector
    @param reward for that state
    @param gamma discount factor
    @return the utility of the state
    """
    action_array = np.zeros(4)
    for action in range(0, 4):
        action_array[action] = np.sum(np.multiply(u, np.dot(v, T[:,:,action])))
    return reward + gamma * np.max(action_array)

def main():
    #Change as you want
    tot_states = 12
    gamma = 0.999 #Discount factor
    iteration = 0 #Iteration counter
    epsilon = 0.01 #Stopping criteria small value

    #List containing the data for each iteation
    graph_list = list()

    #Transition matrix loaded from file (It is too big to write here)
    T = np.load("T.npy")

    #Reward vector
    r = np.array([-0.04, -0.04, -0.04,  +1.0,
                  -0.04,   0.0, -0.04,  -1.0,
                  -0.04, -0.04, -0.04, -0.04])    

    #Utility vectors
    u = np.array([0.0, 0.0, 0.0,  0.0,
                   0.0, 0.0, 0.0,  0.0,
                   0.0, 0.0, 0.0,  0.0])
    u1 = np.array([0.0, 0.0, 0.0,  0.0,
                    0.0, 0.0, 0.0,  0.0,
                    0.0, 0.0, 0.0,  0.0])

    while True:
        delta = 0
        u = u1.copy()
        iteration += 1
        graph_list.append(u)
        for s in range(tot_states):
            reward = r[s]
            v = np.zeros((1,tot_states))
            v[0,s] = 1.0
            u1[s] = return_state_utility(v, T, u, reward, gamma)
            delta = max(delta, np.abs(u1[s] - u[s])) #Stopping criteria       
        if delta < epsilon * (1 - gamma) / gamma:
                print("=================== FINAL RESULT ==================")
                print("Iterations: " + str(iteration))
                print("Delta: " + str(delta))
                print("Gamma: " + str(gamma))
                print("Epsilon: " + str(epsilon))
                print("===================================================")
                print(u[0:4])
                print(u[4:8])
                print(u[8:12])
                print("===================================================")
                break

if __name__ == "__main__":
    main()



Iterations: 26
Delta: 9.51196868787e-06
Gamma: 0.999
Epsilon: 0.01
[ 0.80796341  0.86539911  0.91653199  1.        ]
[ 0.75696613  0.          0.65836281 -1.        ]
[ 0.69968168  0.64881721  0.60471137  0.3814863 ]


![title](./Iterations.png)

감마의 값이 1에 수렴할수록 효용에 대한 예측력은 더 정확해진다.

하지만 감마가 1이 되어버리면 Stop Criteria에 걸치지 않기 때문에 알고리즘은 무한 루프에 빠진다.


이 알고리즘 외에도, 효용 벡터와 그 동시에 최적 규칙을 찾아주는 알고리즘이 있다.
<br><br>
### The Policy Iteration Algorithm
VIA를 통해, 우리는 각 `state`의 효용을 측정할 수 있었다. 하지만 최적 규칙을 평가할 방법은 없었다.

여기서는 기대 효용을 최대화시켜 최적 규칙을 찾는 PIA를 소개할 것이다.

그 어떠한 규칙도 최적 규칙인 $ \pi ^* $ 보다 더 큰 보상을 만들지는 못한다. 

PIA는 반드시 수렴하게 되어있고, 수렴하는 시점의 규칙과 효용 함수가 '최적 규칙'과 '최적 효용 함수'가 된다.

1. 우선, 각 `state`에 행동을 할당하는 규칙인 $\pi$를 정의한다. 여기서 임의의 행동을 할당해도 상관없다.
2. 벨만 방정식을 사용하여, 이 규칙의 기대 효용값을 계산한다.
