# Monte Carlo Prediction
---
> Monte Carlo
1. Policy Iteration
2. Value Iteration

* 불확실성을 예측하기 위해 sampling 사용 (trial & error)
* Value Function 을 사용하는 것은 model - free 에서 못쓰므로 여기서부터 Q Function 사용
    * V 만 쓰려면 dynamics 를 알아야 함
    * 대신 q 로 치환할 수 있음. bellman 식에 의해 완벽히 대체됨
* episode 의 모든 history 를 저장하므로 다음 상태에 대한 정보를 따로 알 필요없다. 이미 buffer 에 다 있으니까
    * discounted 된 return 을 배치로 계산함
    * 이 return 은 이전 상태의 추정 (Q) 을 사용하지 않는 true? value 임 - 엄밀하게 이건 true 가 아니지만 실제 값임을 표현하기 위함
* bootstrap 이 없는 방법
* 또한 보상 에 해당하는 discounted Return 값이 target 이며 다음 상태의 가치 역할을 한다.
* DP 에서는 evaluation -> improvement
    * RL 에서부터는 prediction -> control 로 용어 변경
    * 여기서도 policy 는 implicit. 그냥 v 나 q 가 높게 action 수행하는게 policy
* gamma 는 업데이트 양을 조절하기도 함.
    * 현재와 과거의 반영 비율 조절
    * 사실 원래 alpha 로 두고 분리해야 함
    * 원래 이 값은 수식을 유도하면 점점 커지는 수의 역수임.
    * 근데 non stationary 문제라서 고정시켜도 됨. 그게 나음
    * 기본적으로 RL 이 시작되면, 그냥 업데이트를 수행하는게 아니라, error 를 계산하고 반영하게 됨
    * 수식 유도하면서 alpha 가 나왔는데, 이게 현재 Q 와 업데이트 Q 영향을 조절하는 factor 가 되기도 함.
    * 수식 유도하면서 자연스럽게 error 항 (targetQ - Q) 이 나오는데, 이 수식은 샘플링에 의한 오차를 내포하고 있음.
    * 수식은 그냥 만들어지지도 않음. 단순할 수록 더 많은 내용이 압축되어 숨어있음.
    * error 의 측면에서 RL 알고리즘을 해석하자면, 결국 샘플링 에러를 최소화하도록 Q 를 업데이트 해나가는 것
    * 이 내용이 신경망 근사에서 매우 중요해짐
* RL 분야는 작은 파라미터도 깊은 의미를 가지고 학습에 지대한 영향을 미친다
* bias-variance trade off 부분에서도 인간의 의사결정과 닮아있음
* M.C 가 variance 높은 이유는 초기 조건이 다른것도 한 몫 함
    * 대신 추정값을 사용하지 않는 점에서 bias 가 적음

In [1]:
import gym
import numpy as np
import random
from gym.envs.registration import register

In [2]:
'''
환경셋팅 한 후에 환경을 추가등록한다.
'''

register(
    id='FrozenLake-v1',
    entry_point="gym.envs.toy_text:FrozenLakeEnv",
    kwargs={'map_name':'4x4','is_slippery':False})

In [3]:
'''
환경 생성
'''
env = gym.make('FrozenLake-v1')

In [10]:
q_table = np.zeros([env.action_space.n, env.observation_space.n], dtype = np.float16)
gamma = .9
epsilon = 1
episode = 0
max_episode = 1000
# episode 내용을 모두 저장한다.
history = np.zeros([1, 3])

state = env.reset()
action = env.action_space.sample()
step = 0

'''
compute discounted
'''
def discounted_reward(rewards):
    discounted = np.zeros_like(rewards)
    sum_tmp = 0
    
    for i in reversed(range(0, len(rewards))):
        sum_tmp = gamma * sum_tmp + rewards[i]
        discounted[i] = sum_tmp
    
    return discounted

'''
main
'''
while(episode < max_episode):
    
    step += 1
    state_next, reward, done, _ = env.step(action)
        
    if(random.random() > epsilon):
        action_next = np.argmax(q_table[ : , state_next])
    else:
        action_next = env.action_space.sample()
    
    state_old = state
    action_old = action
    
    state = state_next
    action = action_next
    
    # history 쌓기
    history = np.vstack((history, [state_old, action_old, reward]))
    
    # episode 끝나면 업데이트
    if(done):
        if(reward):
            if(epsilon > .1):
                epsilon = 1 / (episode/(max_episode/10) + 1)
            else:
                epsilon = .1
        else:
            history[-1, 2] = -1
            
        epr = discounted_reward(history[ : , 2])
        
        # M.C 업데이트
        for i in range(len(history)):
            s = int(history[i, 0])
            a = int(history[i, 1])
            r = epr[i]
            q_table[a, s] += gamma * (r - q_table[a, s])
            
        step = 0
        episode += 1
        env.reset()
        history = np.zeros([1, 3])

env.close()

In [11]:
q_table

array([[ 4.7827e-01,  5.0977e-01,  3.4241e-02, -1.2177e-01, -8.9014e-01,
        -6.0368e-04, -1.0000e+00, -1.9073e-04, -8.9014e-01,  6.4307e-01,
         7.2900e-01, -1.1986e-02, -1.0109e-03, -1.0000e+00,  8.1006e-01,
         5.3125e-01],
       [ 4.3823e-01, -1.0000e+00,  7.2900e-01, -1.0000e+00, -5.9180e-01,
         4.3604e-01,  8.1006e-01, -8.7402e-01, -1.0000e+00, -7.2900e-01,
         8.9990e-01, -2.0630e-02, -1.3342e-01,  7.7393e-01,  8.9990e-01,
        -4.8798e-02],
       [ 5.9033e-01,  6.5625e-01, -1.2878e-01, -1.6785e-01, -1.0000e+00,
        -4.1138e-01, -1.0000e+00, -8.1836e-01, -6.5723e-01, -7.3047e-01,
        -1.0000e+00, -8.1396e-01, -6.5771e-01,  8.9990e-01,  1.0000e+00,
        -9.2010e-03],
       [-8.0127e-01, -8.9014e-01,  5.9033e-01, -8.9014e-01,  5.2686e-01,
        -1.3863e-02,  6.5479e-01, -4.8853e-01, -8.8037e-01, -1.0000e+00,
         1.1871e-01, -7.6367e-01, -6.5771e-01,  6.8018e-01,  8.1006e-01,
         4.3042e-01]], dtype=float16)

In [12]:
s = env.reset()

step = 1
while(True):
    env.render()
    a = np.argmax(q_table[ : , s])
    s,r,d,_ = env.step(a)
    if(d):
        env.render()
        break
env.close()


[41mS[0mFFF
FHFH
FFFH
HFFG
  (Right)
S[41mF[0mFF
FHFH
FFFH
HFFG
  (Right)
SF[41mF[0mF
FHFH
FFFH
HFFG
  (Down)
SFFF
FH[41mF[0mH
FFFH
HFFG
  (Down)
SFFF
FHFH
FF[41mF[0mH
HFFG
  (Down)
SFFF
FHFH
FFFH
HF[41mF[0mG
  (Right)
SFFF
FHFH
FFFH
HFF[41mG[0m
