In [2]:
# 구현에 사용할 패키지 임포트
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import gym

# 상수 정의
ENV = 'CartPole-v0' # 태스크 이름
NUM_DIZITIZED  = 6 # 각 상태를 이산변수로 변환할 구간 수

# CartPole 실행
env = gym.make(ENV) # 실행할 태스크 설정
observation = env.reset()

In [None]:
# 이산 값으로 만들 구간 계산
def bins(clip_min, clip_max, num):
    '''관측된 상태(연속값)를 이산값으로 변환하는 구간을 계산'''
    return np.linspace(clip_min, clip_max, num+1)[1:-1]
    # 예시: np.linspace(-2.4, 2.4, 6 +1) => -2.4 부터 2.4까지 6개의 간격을 가지게 분할!
    #       = [-2.4, -1.6, -0.8, 0, 0.8, 1.6, 2.4]
    # 첫번째 요소와 마지막 요소를 뺀 부분 리스트를 사용할 것이기 때문에 [1:-1]로 리스트를 잘라냄
    # 주의! : 파이썬의 리스트 슬라이싱에서 [-1]은 리스트의 맨 마지막 요소를 의미하지만
    #         [1:-1]과 같이 범위를 나타낼 때에 1은 앞에서 두번째, -1은 뒤에서 두번째 요소를 의미한다.

def digitize_state(observation):
    '''관측된 상태(observation 변수)를 이산값으로 변환'''
    cart_pos, cart_v, pole_angle, pole_v = observation
    digitized = [
        np.digitize(cart_pos, bins=bins(-2.4, 2.4, NUM_DIZITIZED)),
        np.digitize(cart_v, bins=bins(-3.0, 3.0, NUM_DIZITIZED)),
        np.digitize(pole_angle, bins=bins(-2.0, 2.0, NUM_DIZITIZED)),
        np.digitize(pole_v, bins=bins(-2.0, 2.0, NUM_DIZITIZED))]
        # np.digitize(A, bins=B) => 리스트 A를 bins에 정의된 구간값에 따라 이산값으로 변환
    return sum([x * (NUM_DIZITIZED**i) for i, x in enumerate(digitized)])
    # 이산값으로 변환한 4개의 변수를 모두 합쳐 0부터 1295 사이의 값으로 변환한 것!
    # NUM_DIZITIZED = 몇 진수로 나타낼 것인지! 여기서는 구간을 6개로 나누었기 때문에 6으로 사용!