In [1]:
import gym
import numpy as np

# 200. Gym Wrappers

OpenAI의 `gym`을 통해 제공되는 **wrappers**를 사용하면 에이전트에 제공할 observation 및 reward 수정과 같은 기능을 환경에 추가할 수 있습니다. 강화 학습에서는 관찰을 보다 쉽게 학습할 수 있도록 사전 처리하는 것이 일반적입니다. 일반적인 예는 이미지 기반 입력을 사용할 때 모든 값이 $0$와 $255$ 사이가 아니라 $0$와 $1$ 사이인지 확인하는 것입니다. RGB 이미지에서 더 일반적입니다.   
다른 예는 환경에서 몇 가지 observation을 제공하지만 버퍼에 이를 누적하고 에이전트에게 N개의 last observation을 제공하는 것입니다. 이는 하나의 단일 프레임이 게임 state에 대한 정보에 충분하지 않을 때 동적인 컴퓨터 게임을 처리하는일반적인 시나리오입니다.    
또 다른 예는 에이전트가 더 쉽게 소화할 수 있도록 이미지의 픽셀을 자르거나 전처리 또는 reward 점수를 정규화하는 경우입니다.   

기존 환경을 "wrapping"하여 무언가를 수행하는 몇 가지 논리를 추가하고 싶을 때, Gym은 Wrapper 클래스라고 하는 편리한 프레임워크를 제공합니다.

`gym.Wrapper` 클래스는 강화 학습을 위한 OpenAI API에 따라 환경을 정의하는 `gym.Env` 클래스를 상속합니다. `gym.Wrapper` 클래스를 구현하려면 확장할 환경을 매개변수로 받아들이는 `__init__` 메서드를 정의해야 합니다.

클래스 구조는 다음 다이어그램에 나와 있습니다.

Wrapper 클래스는 Env 클래스를 상속하고  Env 클래스의 인스턴스가 "wrapping"됩니다. 추가 기능을 추가하려면 step() 또는 reset()과 같이 확장하려는 메서드를 재정의해야 합니다. 

<img src=https://hub.packtpub.com/wp-content/uploads/2018/07/image1-3-437x420.png width=300>

### References
[Extending OpenAI Gym environments with Wrappers and Monitors](https://hub.packtpub.com/openai-gym-environments-wrappers-and-monitors-tutorial/)

In [3]:
class BasicWrapper(gym.Wrapper):
    def __init__(self, env):
        super().__init__(env)
        self.env = env
        
    def step(self, action):
        next_state, reward, done, info = self.env.step(action)
        # modify ...
        return next_state, reward, done, info

In [5]:
env = BasicWrapper(gym.make("CartPole-v1"))

환경이 observation, reward 및 action을 처리하는 방식을 재정의하는 `gym.Wrapper`의 하위 클래스를 사용하여 환경의 특정 측면을 수정할 수 있습니다.

다음 세 가지 클래스가 이 기능을 제공합니다.  

1. `gym.ObservationWrapper`: 환경에서 반환된 observation을 수정하는 데 사용됩니다. 이렇게 하려면 환경의 `observation` 메서드를 재정의합니다. 이 메서드는 단일 매개변수(수정할 observation)를 받아서 수정된 observation을 반환합니다.
2. `gym.RewardWrapper`: 환경에서 반환되는 reward를 수정하는 데 사용됩니다. 이렇게 하려면 환경의 `reward` 메서드를 재정의합니다. 이 메서드는 단일 매개변수(수정할 reward)를 받아서 수정된 reward를 반환합니다.
2. `gym.ActionWrapper`: 환경에 전달된 action을 수정하는 데 사용됩니다. 이렇게 하려면 환경의 `action` 메서드를 재정의합니다. 이 메서드는 단일 매개변수(수정할 action)를 받아들여 수정된 action을 반환합니다.

In [7]:
class ObservationWrapper(gym.ObservationWrapper):
    def __init__(self, env):
        super().__init__(env)
    
    def observation(self, obs):
        # modify obs
        return obs
    
class RewardWrapper(gym.RewardWrapper):
    def __init__(self, env):
        super().__init__(env)
    
    def reward(self, reward):
        # modify reward
        return reward
    
class ActionWrapper(gym.ActionWrapper):
    def __init__(self, env):
        super().__init__(env)
    
    def action(self, act):
        # modify act
        return act

## 구현 예제

구체적으로 에이전트가 보내는 action의 흐름에 개입하여 10%의 확률로 현재 action을 임의의 action으로 교체하려는 상황을 가정해 보겠습니다. 무작위 acttion을 실행하여 에이전트가 환경을 탐색하게 합니다. 이것은 ActionWrapper 클래스를 사용하여 수행하는 쉬운 작업입니다.

여기에서 부모의 __init__ 메서드를 호출하고 엡실론(임의 작업의 확률)을 저장하여 wrapper를 초기화합니다.

다음은 에이전트의 action을 조정하기 위해 부모 클래스에서 재정의 하는 메서드입니다. 주사위를 굴릴 때마다 엡실론의 확률로 행동 공간에서 무작위 action을 샘플링하고 에이전트가 우리에게 보낸 action 대신 반환합니다. action_space 및 래퍼 추상화를 사용하여 gym의 모든 환경에서 작동하는 추상 코드를 작성할 수 있습니다.

### Action Wrapper

In [15]:
import gym
from typing import TypeVar
import random

Action = TypeVar('Action')
class RandomActionWrapper(gym.ActionWrapper):
    def __init__(self, env, epsilon=0.1):
        super(RandomActionWrapper, self).__init__(env)
        self.epsilon = epsilon
        
    def action(self, action):
        if random.random() < self.epsilon:
            print("Random!")
            return self.env.action_space.sample()
        return action

In [31]:
env = RandomActionWrapper(gym.make("CartPole-v0"), epsilon=0.3)
env

<RandomActionWrapper<TimeLimit<OrderEnforcing<CartPoleEnv<CartPole-v0>>>>>

일반 CartPole 환경을 만들고 래퍼 생성자에 전달합니다. 여기부터는 원래 CartPole 대신 wrapper를 일반 Env 인스턴스로 사용합니다. Wrapper 클래스는 Env 클래스를 상속하고 동일한 인터페이스를 노출하므로 원하는 조합으로 래퍼를 중첩할 수 있습니다. 이것은 강력하고 우아하며 일반적인 솔루션입니다.

In [32]:
env.reset()

array([ 0.00532056, -0.02914683, -0.02986253, -0.01059685], dtype=float32)

In [33]:
env.step(0)

Random!


(array([ 0.00473762, -0.22382806, -0.03007447,  0.27251652], dtype=float32),
 1.0,
 False,
 {})

In [36]:
obs = env.reset()
total_reward = 0.0
while True:
    obs, reward, done, _ = env.step(0)
    total_reward += reward
    if done:
        break

print("Reward got: %.2f" % total_reward)

Random!
Random!
Random!
Random!
Reward got: 15.00


래퍼는 출판된 논문의 전처리 기준을 충족하도록 환경이 작동하는 방식을 수정하는 데 사용할 수 있습니다. [OpenAI Baselines 구현](https://github.com/openai/baselines/blob/master/baselines/common/atari_wrappers.py)에는 원본 DQN 논문 및 후속 Deepmind 출판물에 사용된 전처리를 재현하는 래퍼가 포함되어 있습니다.

아래에서 우리는 `gym.Discrete` observation space 가 있는 환경을 사용하고, 예를 들어 신경망에서 사용하기 위해 discrete states의 원-핫 인코딩으로 새로운 환경을 생성하는 래퍼를 정의합니다.

### Observation Wrapper

gym.spaces.Box(low, high, shape=None)  

In [56]:
class DiscreteToBoxWrapper(gym.ObservationWrapper):
    def __init__(self, env):
        super().__init__(env)
        assert isinstance(env.observation_space, gym.spaces.Discrete), \
            "Should only be used to wrap Discrete envs."
        self.n = self.observation_space.n
        self.observation_space = gym.spaces.Box(0, 1, (self.n,))
    
    def observation(self, obs):
        new_obs = np.zeros(self.n)
        new_obs[obs] = 1
        return new_obs

Wrapper 적용 없이 환경 실행

In [62]:
env = gym.make("FrozenLake-v1")
T = 10
obs = env.reset()
for t in range(T):
    a = env.action_space.sample()
    obs, r, done, info = env.step(a)
    print(obs)
    if done:
        env.reset()

4
0
0
1
5
4
0
4
4
5


In [63]:
env = DiscreteToBoxWrapper(gym.make("FrozenLake-v1"))
T = 10
obs = env.reset()
for t in range(T):
    a = env.action_space.sample()
    obs, r, done, info = env.step(a)
    print(obs)
    if done:
        env.reset()

[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]


### Going Beyond the Wrapper Class

여기에 정의된 것 이상으로 래퍼의 개념을 적용하는 것이 가능합니다.

심층 강화 학습의 더 복잡한 응용 프로그램에서 정책을 평가하는 것은 environment를 stepping하는 것보다 훨씬 더 오래 걸릴 수 있습니다. 이는 계산 시간의 대부분이 action을 선택하는 데 사용되므로 데이터 수집이 느려진다는 것을 의미합니다. 심층 강화 학습은 데이터 집약적이기 때문에(종종 우수한 성능을 달성하기 위해 수백만 번의 경험이 필요함) 데이터를 빠르게 획득하는 데 우선순위를 두어야 합니다.

다음 클래스는 환경을 반환하는 함수를 받아서 환경의 **vectorized** 버전을 반환합니다. 기본적으로 환경의 $n$개 복사본을 생성합니다. `step` 함수는 $n$ actions의 벡터를 기대하고 $n$ 다음 상태, $n$ 보상, $n$ 완료 플래그 및 $n$ 정보의 벡터를 반환합니다.

In [65]:
class VectorizedEnvWrapper(gym.Wrapper):
    def __init__(self, make_env, num_envs=1):
        super().__init__(make_env())
        self.num_envs = num_envs
        self.envs = [make_env() for _ in range(num_envs)]  #환경의 복사본
    
    def reset(self):
        return np.asarray([env.reset() for env in self.envs])
    
    def reset_at(self, env_index):
        return self.envs[env_index].reset()
    
    def step(self, actions):
        next_states, rewards, dones, infos = [], [], [], []
        for env, action in zip(self.envs, actions):
            next_state, reward, done, info = env.step(action)
            next_states.append(next_state)
            rewards.append(reward)
            dones.append(done)
            infos.append(info)
        return np.asarray(next_states), np.asarray(rewards), \
            np.asarray(dones), np.asarray(infos)

In [66]:
num_envs = 128
env = VectorizedEnvWrapper(lambda: gym.make("CartPole-v0"), num_envs=num_envs)
T = 10
observations = env.reset()

for t in range(T):
    actions = np.random.randint(env.action_space.n, size=num_envs)
    observations, rewards, dones, infos = env.step(actions)  
    for i in range(len(dones)):
        if dones[i]:
            observations[i] = env.reset_at(i)
            
print(observations.shape)
print(rewards.shape)
print(dones.shape)

(128, 4)
(128,)
(128,)
