# 3.3 다변수 연속값 상태를 이산변수로 변환하기

In [29]:
# 구현에 사용할 패키지 임포트
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import gym


### 상수 정의

In [30]:
ENV = 'CartPole-v1' # 태스크 이름
NUM_DIZITIZED = 6 # 각 상태를 이산변수로 변환할 구간 수

### CartPole 실행

In [31]:
env = gym.make(ENV) # 태스크 실행 환경 생성
observation = env.reset() # 환경 초기화

In [32]:
observation[0][1]

-0.008474676

### 이산값으로 만들 구간 계산

In [33]:
def bins(clip_min, clip_max, num):
    '''관측된 상태(연속값)를 이산값으로 변환하는 구간을 계산'''
    return np.linspace(clip_min, clip_max, num+1)[1:-1] # np.linspace는 각 구간 경곗값으로 이루어진 수열을 생성하는 명령어

In [34]:
np.linspace(-2.4, 2.4, 6+1)

array([-2.4, -1.6, -0.8,  0. ,  0.8,  1.6,  2.4])

In [35]:
np.linspace(-2.4, 2.4, 6+1)[1:-1]

array([-1.6, -0.8,  0. ,  0.8,  1.6])

### 연속함수를 이산변수로 변환하는 함수

In [36]:
def digitize_state(observation):
    '''관측된 상태(observation)을 이산값으로 변환'''
    cart_pos = observation[0][0]
    cart_v = observation[0][1]
    pole_angle = observation[0][2]
    pole_v = observation[0][3]
    digitized = [
        np.digitize(cart_pos, bins=bins(-2.4, 2.4, NUM_DIZITIZED)),
        np.digitize(cart_v, bins=bins(-3.0, 3.0, NUM_DIZITIZED)),
        np.digitize(pole_angle, bins=bins(-0.5, 0.5, NUM_DIZITIZED)),
        np.digitize(pole_v, bins=bins(-2.0, 2.0, NUM_DIZITIZED))]
    return sum([x * (NUM_DIZITIZED**i) for i, x in enumerate(digitized)])

In [37]:
digitize_state(observation)

519