# Environments

## Introduction

강화 학습(RL)의 목표는 환경과 상호 작용하여 학습하는 에이전트를 설계하는 것입니다. 표준 RL 설정에서 에이전트는 모든 시간 단계에서 관찰을 수신하고 작업을 선택합니다. 작업이 환경에 적용되고 환경은 보상과 새로운 관찰을 반환합니다. 에이전트는 반환이라고도 하는 보상 합계를 최대화하기 위한 조치를 선택하도록 정책을 훈련합니다.

TF-Agents에서 환경은 Python 또는 TensorFlow로 구현될 수 있습니다. Python 환경은 일반적으로 구현, 이해 및 디버그하기가 더 쉽지만 TensorFlow 환경은 더 효율적이고 자연스러운 병렬화를 허용합니다. 가장 일반적인 워크플로는 Python으로 환경을 구현하고 래퍼 중 하나를 사용하여 자동으로 TensorFlow로 변환하는 것입니다.

먼저 Python 환경을 살펴보겠습니다. TensorFlow 환경은 매우 유사한 API를 따릅니다.

## Setup


아직 tf-agents 또는 gym을 설치하지 않았다면 다음을 실행하십시오.

In [1]:
!pip install -q tf-agents

[?25l[K     |▎                               | 10 kB 29.9 MB/s eta 0:00:01[K     |▌                               | 20 kB 30.9 MB/s eta 0:00:01[K     |▊                               | 30 kB 19.9 MB/s eta 0:00:01[K     |█                               | 40 kB 16.3 MB/s eta 0:00:01[K     |█▎                              | 51 kB 7.2 MB/s eta 0:00:01[K     |█▌                              | 61 kB 7.5 MB/s eta 0:00:01[K     |█▉                              | 71 kB 6.7 MB/s eta 0:00:01[K     |██                              | 81 kB 7.5 MB/s eta 0:00:01[K     |██▎                             | 92 kB 7.6 MB/s eta 0:00:01[K     |██▌                             | 102 kB 6.8 MB/s eta 0:00:01[K     |██▉                             | 112 kB 6.8 MB/s eta 0:00:01[K     |███                             | 122 kB 6.8 MB/s eta 0:00:01[K     |███▎                            | 133 kB 6.8 MB/s eta 0:00:01[K     |███▋                            | 143 kB 6.8 MB/s eta 0:00:01[K 

In [2]:
import abc
import tensorflow as tf
import numpy as np

from tf_agents.environments import py_environment
from tf_agents.environments import tf_environment
from tf_agents.environments import tf_py_environment
from tf_agents.environments import utils
from tf_agents.specs import array_spec
from tf_agents.environments import wrappers
from tf_agents.environments import suite_gym
from tf_agents.trajectories import time_step as ts

## Python Environments

파이썬 환경은 step(action) -> next_time_step method로 환경에 action을 적용하고, 다음 단계에 대한 다음의 정보를 반환:

- observation, reward, discount     
- step_type : 환경과의 상호 작용은 일반적으로 순서 / 에피소드의 일부입니다. 예를 들어 체스 게임에서 여러 움직임은 FIRST , MID 혹은 LAST step_type 하나가 될 수 있습니다. 

이 것들은 named tuple TimeStep(step_type, reward, discount, observation)로 그룹화됩니다.

모든 파이썬 환경은 `environments/py_environment.PyEnvironment` 에 인터페이스를 구현해야 합니다. 주요 method는 다음과 같습니다.

In [3]:
class PyEnvironment(object):

  def reset(self):
    """Return initial_time_step."""
    self._current_time_step = self._reset()
    return self._current_time_step

  def step(self, action):
    """Apply action and return new time_step."""
    if self._current_time_step is None:
        return self.reset()
    self._current_time_step = self._step(action)
    return self._current_time_step

  def current_time_step(self):
    return self._current_time_step

  def time_step_spec(self):
    """Return time_step_spec."""

  @abc.abstractmethod
  def observation_spec(self):
    """Return observation_spec."""

  @abc.abstractmethod
  def action_spec(self):
    """Return action_spec."""

  @abc.abstractmethod
  def _reset(self):
    """Return initial_time_step."""

  @abc.abstractmethod
  def _step(self, action):
    """Apply action and return new time_step."""

- `step()` 메서드 외에도 환경에서는 새 시퀀스를 시작하고 초기 `TimeStep`을 제공하는 `reset()` 메서드도 제공합니다. `reset` 메소드를 명시적으로 호출할 필요는 없습니다. 에피소드가 끝나거나 step()이 처음 호출될 때 환경이 자동으로 재설정된다고 가정합니다.

- 서브클래스는 `step()` 또는 `reset()`을 직접 구현하지 않습니다. 대신 `_step()` 및 `_reset()` 메서드를 재정의합니다. 이 메서드에서 반환된 시간 단계는 캐시되어 `current_time_step()`을 통해 노출됩니다.

- `observation_spec` 및 `action_spec` 메서드는 각각 관찰 및 작업의 이름, 모양, 데이터 유형 및 범위를 설명하는 `(Bounded)ArraySpecs`의 nest를 반환합니다.

- TF-Agents에서 우리는 목록, 튜플, 명명된 튜플 또는 사전으로 구성된 트리와 같은 구조로 정의되는 중첩을 반복적으로 참조합니다. 관찰과 행동의 구조를 유지하기 위해 임의로 구성할 수 있습니다. 우리는 이것이 많은 관찰과 행동이 있는 보다 복잡한 환경에 매우 유용하다는 것을 발견했습니다.

### 표준 환경 사용

TF 에이전트에는 OpenAI Gym, DeepMind-control 및 Atari와 같은 많은 표준 환경에 대한 래퍼가 내장되어 있어 `py_environment.PyEnvironment` 인터페이스를 따릅니다. 이러한 래핑된 환경은 환경 제품군을 사용하여 쉽게 로드할 수 있습니다. OpenAI gym에서 CartPole 환경을 로드하고 action과 time_step_spec을 살펴보겠습니다.

In [4]:
environment = suite_gym.load('CartPole-v0')

print('action_spec:', environment.action_spec())
print('time_step_spec.observation:', environment.time_step_spec().observation)
print('time_step_spec.step_type:', environment.time_step_spec().step_type)
print('time_step_spec.discount:', environment.time_step_spec().discount)
print('time_step_spec.reward:', environment.time_step_spec().reward)


action_spec: BoundedArraySpec(shape=(), dtype=dtype('int64'), name='action', minimum=0, maximum=1)
time_step_spec.observation: BoundedArraySpec(shape=(4,), dtype=dtype('float32'), name='observation', minimum=[-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], maximum=[4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38])
time_step_spec.step_type: ArraySpec(shape=(), dtype=dtype('int32'), name='step_type')
time_step_spec.discount: BoundedArraySpec(shape=(), dtype=dtype('float32'), name='discount', minimum=0.0, maximum=1.0)
time_step_spec.reward: ArraySpec(shape=(), dtype=dtype('float32'), name='reward')


따라서 환경은 [0, 1]범위의 `int64` 유형의 action을 예상하고, observation이 길이 4의 `float32` 벡터이고 discount factor가 [0.0, 1.0] 범위의  `float32`인 'TimeSteps'를 반환합니다.  

이제 전체 에피소드에 대해 고정된 액션 `(1,)`을 시도해 보겠습니다.

In [5]:
action = np.array(1, dtype=np.int32)
time_step = environment.reset()
print(time_step)

while not time_step.is_last():
  time_step = environment.step(action)
  print(time_step)

TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([-0.02674365, -0.01681182,  0.00133867, -0.00828082], dtype=float32),
 'reward': array(0., dtype=float32),
 'step_type': array(0, dtype=int32)})
TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([-0.02707989,  0.1782909 ,  0.00117306, -0.30054107], dtype=float32),
 'reward': array(1., dtype=float32),
 'step_type': array(1, dtype=int32)})
TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([-0.02351407,  0.37339613, -0.00483777, -0.59285384], dtype=float32),
 'reward': array(1., dtype=float32),
 'step_type': array(1, dtype=int32)})
TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([-0.01604615,  0.56858546, -0.01669484, -0.8870567 ], dtype=float32),
 'reward': array(1., dtype=float32),
 'step_type': array(1, dtype=int32)})
TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([-0.00467444,  0.76393   , -0.03443598, -1.1849407 ], dtype=float

### 자신만의 Python Environment 만들기

일반적인 사용 사례는 문제에 TF-Agents의 표준 에이전트(agents/ 참조) 중 하나를 적용하는 것입니다. 이렇게 하려면 문제를 환경으로 프레임화해야 합니다. 파이썬에서 환경을 구현하는 방법을 살펴보겠습니다.

에이전트가 다음(블랙 잭에서 영감을 받은) 카드 게임을 하도록 훈련시키고 싶다고 가정해 보겠습니다.

1. 게임은 1~10으로 번호가 매겨진 무한 카드 덱을 사용하여 진행됩니다.
2. 매 턴마다 에이전트는 2가지를 할 수 있습니다. 새로운 무작위 카드를 얻거나 현재 라운드를 중지합니다.
3. 목표는 라운드가 끝날 때 진행하지 않고 가능한 한 21에 가까운 카드 합계를 얻는 것입니다.

게임을 나타내는 환경은 다음과 같습니다.

1. 액션: 2개의 액션이 있습니다. 액션 0: 새 카드를 받고, 액션 1: 현재 라운드를 종료합니다.
2. 관찰: 현재 라운드에 있는 카드의 합계입니다.
3. 보상: 목표는 진행하지 않고 가능한 한 21에 가까워지는 것이므로 라운드가 끝날 때 다음 보상을 사용하여 이를 달성할 수 있습니다.  

    sum_of_cards - 21 if sum_of_cards <= 21, else -21


In [6]:
class CardGameEnv(py_environment.PyEnvironment):

  def __init__(self):
    self._action_spec = array_spec.BoundedArraySpec(
        shape=(), dtype=np.int32, minimum=0, maximum=1, name='action')
    self._observation_spec = array_spec.BoundedArraySpec(
        shape=(1,), dtype=np.int32, minimum=0, name='observation')
    self._state = 0
    self._episode_ended = False

  def action_spec(self):
    return self._action_spec

  def observation_spec(self):
    return self._observation_spec

  def _reset(self):
    self._state = 0
    self._episode_ended = False
    return ts.restart(np.array([self._state], dtype=np.int32))

  def _step(self, action):

    if self._episode_ended:
      # The last action ended the episode. Ignore the current action and start
      # a new episode.
      return self.reset()

    # Make sure episodes don't go on forever.
    if action == 1:
      self._episode_ended = True
    elif action == 0:
      new_card = np.random.randint(1, 11)
      self._state += new_card
    else:
      raise ValueError('`action` should be 0 or 1.')

    if self._episode_ended or self._state >= 21:
      reward = self._state - 21 if self._state <= 21 else -21
      return ts.termination(np.array([self._state], dtype=np.int32), reward)
    else:
      return ts.transition(
          np.array([self._state], dtype=np.int32), reward=0.0, discount=1.0)

위의 환경을 정의하는 모든 작업을 올바르게 수행했는지 확인합시다. 자신의 환경을 만들 때 생성된 observation 및 time_steps가 사양에 정의된 올바른 shape과 type을 따르는지 확인해야 합니다. 이것들은 TensorFlow 그래프를 생성하는 데 사용되며, 실수하면 디버깅하기 어려운 문제가 생길 수 있습니다.

환경을 검증하기 위해 무작위 정책을 사용하여 작업을 생성하고 5개의 에피소드를 반복하여 의도한 대로 작동하는지 확인합니다. environment spec을 따르지 않는 time_step을 수신하면 오류가 발생합니다.

In [7]:
environment = CardGameEnv()

utils.validate_py_environment(environment, episodes=5)

이제 환경이 의도한 대로 작동한다는 것을 알았으므로 고정된 정책을 사용하여 이 환경을 실행해 보겠습니다. 3장의 카드를 요청한 다음 라운드를 종료합니다.

In [8]:
get_new_card_action = np.array(0, dtype=np.int32)
end_round_action = np.array(1, dtype=np.int32)

environment = CardGameEnv()
time_step = environment.reset()
print(time_step)
cumulative_reward = time_step.reward

for _ in range(3):
  time_step = environment.step(get_new_card_action)
  print(time_step)
  cumulative_reward += time_step.reward

time_step = environment.step(end_round_action)
print(time_step)
cumulative_reward += time_step.reward
print('Final Reward = ', cumulative_reward)

TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([0], dtype=int32),
 'reward': array(0., dtype=float32),
 'step_type': array(0, dtype=int32)})
TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([5], dtype=int32),
 'reward': array(0., dtype=float32),
 'step_type': array(1, dtype=int32)})
TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([11], dtype=int32),
 'reward': array(0., dtype=float32),
 'step_type': array(1, dtype=int32)})
TimeStep(
{'discount': array(1., dtype=float32),
 'observation': array([18], dtype=int32),
 'reward': array(0., dtype=float32),
 'step_type': array(1, dtype=int32)})
TimeStep(
{'discount': array(0., dtype=float32),
 'observation': array([18], dtype=int32),
 'reward': array(-3., dtype=float32),
 'step_type': array(2, dtype=int32)})
Final Reward =  -3.0


### Environment Wrappers

environment wrapper는 Python 환경을 사용하고 환경의 수정된 버전을 반환합니다. 원래 환경과 수정된 환경은 모두 `py_environment.PyEnvironment`의 인스턴스이며 여러 래퍼를 함께 chain 할 수 있습니다.  

몇 가지 일반적인 래퍼는 `environments/wrappers.py`에서 찾을 수 있습니다. 예를 들어:

1. `ActionDiscretizeWrapper`: 연속 동작 공간을 이산 동작 공간으로 변환합니다.
2. `RunStats`: 수행한 단계 수, 완료된 에피소드 수 등과 같은 환경의 실행 통계를 캡처합니다.
3. 'TimeLimit': 정해진 step 수 후에 에피소드를 종료합니다.



#### Example 1: Action Discretize Wrapper

InvertedPendulum은 `[-2, 2]` 범위에서 연속 동작을 허용하는 PyBullet 환경입니다. 이 환경에서 DQN과 같은 discrete action agent를 훈련하려면 action space를 이산화(quantize)해야 합니다. 이것이 바로 `ActionDiscretizeWrapper`가 하는 일입니다. 래핑 전후의 `action_spec`을 비교합니다.

In [9]:
env = suite_gym.load('Pendulum-v0')
print('Action Spec:', env.action_spec())

discrete_action_env = wrappers.ActionDiscretizeWrapper(env, num_actions=5)
print('Discretized Action Spec:', discrete_action_env.action_spec())

Action Spec: BoundedArraySpec(shape=(1,), dtype=dtype('float32'), name='action', minimum=-2.0, maximum=2.0)
Discretized Action Spec: BoundedArraySpec(shape=(), dtype=dtype('int32'), name='action', minimum=0, maximum=4)


래핑된 `discrete_action_env`는 `py_environment.PyEnvironment`의 인스턴스이며 일반 Python 환경처럼 취급할 수 있습니다.


## TensorFlow Environments

TF 환경에 대한 인터페이스는 `environments/tf_environment.TFEnvironment`에 정의되어 있으며 Python 환경과 매우 유사합니다. TF 환경은 몇 가지 면에서 Python 환경과 다릅니다.

* array 대신 tensor object를 생성합니다.
* TF 환경은 사양과 비교할 때 생성된 텐서에 batch dimension을 추가합니다.

Python 환경을 TFEnvs로 변환하면 tensorflow가 작업을 병렬화할 수 있습니다. 예를 들어 환경에서 데이터를 수집하고 `replay_buffer`에 추가하는 `collect_experience_op`와 `replay_buffer`에서 읽고 에이전트를 훈련하고 TensorFlow에서 자연스럽게 병렬로 실행하는 `train_op`을 정의할 수 있습니다.

In [10]:
class TFEnvironment(object):

  def time_step_spec(self):
    """Describes the `TimeStep` tensors returned by `step()`."""

  def observation_spec(self):
    """Defines the `TensorSpec` of observations provided by the environment."""

  def action_spec(self):
    """Describes the TensorSpecs of the action expected by `step(action)`."""

  def reset(self):
    """Returns the current `TimeStep` after resetting the Environment."""
    return self._reset()

  def current_time_step(self):
    """Returns the current `TimeStep`."""
    return self._current_time_step()

  def step(self, action):
    """Applies the action and returns the new `TimeStep`."""
    return self._step(action)

  @abc.abstractmethod
  def _reset(self):
    """Returns the current `TimeStep` after resetting the Environment."""

  @abc.abstractmethod
  def _current_time_step(self):
    """Returns the current `TimeStep`."""

  @abc.abstractmethod
  def _step(self, action):
    """Applies the action and returns the new `TimeStep`."""

`current_time_step()` 메서드는 현재 time_step을 반환하고 필요한 경우 환경을 초기화합니다.

`reset()` 메서드는 환경에서 강제로 재설정하고 current_step을 반환합니다.

`action`이 이전 `time_step`에 의존하지 않는다면 `Graph` 모드에서 `tf.control_dependency`가 필요합니다.

지금은 `TFEnvironments`가 어떻게 생성되는지 살펴보겠습니다.

### 자신만의 TensorFlow Environment 만들기

이것은 Python에서 환경을 만드는 것보다 더 복잡하므로 이 colab에서 다루지 않습니다. 예시는 [여기](https://github.com/tensorflow/agents/blob/master/tf_agents/environments/tf_environment_test.py)에서 볼 수 있습니다. 더 일반적인 사용 사례는 Python에서 환경을 구현하고 우리의 `TFPyEnvironment` 래퍼를 사용하여 TensorFlow에서 래핑하는 것입니다(아래 참조).

### Wrapping a Python Environment in TensorFlow

`TFPyEnvironment` 래퍼를 사용하여 모든 Python 환경을 TensorFlow 환경으로 쉽게 래핑할 수 있습니다.

In [11]:
env = suite_gym.load('CartPole-v0')
tf_env = tf_py_environment.TFPyEnvironment(env)

print(isinstance(tf_env, tf_environment.TFEnvironment))
print("TimeStep Specs:", tf_env.time_step_spec())
print("Action Specs:", tf_env.action_spec())

True
TimeStep Specs: TimeStep(
{'discount': BoundedTensorSpec(shape=(), dtype=tf.float32, name='discount', minimum=array(0., dtype=float32), maximum=array(1., dtype=float32)),
 'observation': BoundedTensorSpec(shape=(4,), dtype=tf.float32, name='observation', minimum=array([-4.8000002e+00, -3.4028235e+38, -4.1887903e-01, -3.4028235e+38],
      dtype=float32), maximum=array([4.8000002e+00, 3.4028235e+38, 4.1887903e-01, 3.4028235e+38],
      dtype=float32)),
 'reward': TensorSpec(shape=(), dtype=tf.float32, name='reward'),
 'step_type': TensorSpec(shape=(), dtype=tf.int32, name='step_type')})
Action Specs: BoundedTensorSpec(shape=(), dtype=tf.int64, name='action', minimum=array(0), maximum=array(1))


spec은 이제 `(Bounded)TensorSpec` 유형입니다.

### 사용 예

#### Simple Example

In [12]:
env = suite_gym.load('CartPole-v0')

tf_env = tf_py_environment.TFPyEnvironment(env)
# reset() creates the initial time_step after resetting the environment.
time_step = tf_env.reset()
num_steps = 3
transitions = []
reward = 0
for i in range(num_steps):
  action = tf.constant([i % 2])
  # applies the action and returns the new TimeStep.
  next_time_step = tf_env.step(action)
  transitions.append([time_step, action, next_time_step])
  reward += next_time_step.reward
  time_step = next_time_step

np_transitions = tf.nest.map_structure(lambda x: x.numpy(), transitions)
print('\n'.join(map(str, np_transitions)))
print('Total reward:', reward.numpy())

[TimeStep(
{'discount': array([1.], dtype=float32),
 'observation': array([[ 0.01403382,  0.00015755, -0.01655632, -0.03573771]],
      dtype=float32),
 'reward': array([0.], dtype=float32),
 'step_type': array([0], dtype=int32)}), array([0], dtype=int32), TimeStep(
{'discount': array([1.], dtype=float32),
 'observation': array([[ 0.01403697, -0.19472311, -0.01727107,  0.2516759 ]],
      dtype=float32),
 'reward': array([1.], dtype=float32),
 'step_type': array([1], dtype=int32)})]
[TimeStep(
{'discount': array([1.], dtype=float32),
 'observation': array([[ 0.01403697, -0.19472311, -0.01727107,  0.2516759 ]],
      dtype=float32),
 'reward': array([1.], dtype=float32),
 'step_type': array([1], dtype=int32)}), array([1], dtype=int32), TimeStep(
{'discount': array([1.], dtype=float32),
 'observation': array([[ 0.01014251,  0.00064115, -0.01223755, -0.04640424]],
      dtype=float32),
 'reward': array([1.], dtype=float32),
 'step_type': array([1], dtype=int32)})]
[TimeStep(
{'discount': 

#### Whole Episodes

In [13]:
env = suite_gym.load('CartPole-v0')
tf_env = tf_py_environment.TFPyEnvironment(env)

time_step = tf_env.reset()
rewards = []
steps = []
num_episodes = 5

for _ in range(num_episodes):
  episode_reward = 0
  episode_steps = 0
  while not time_step.is_last():
    action = tf.random.uniform([1], 0, 2, dtype=tf.int32)
    time_step = tf_env.step(action)
    episode_steps += 1
    episode_reward += time_step.reward.numpy()
  rewards.append(episode_reward)
  steps.append(episode_steps)
  time_step = tf_env.reset()

num_steps = np.sum(steps)
avg_length = np.mean(steps)
avg_reward = np.mean(rewards)

print('num_episodes:', num_episodes, 'num_steps:', num_steps)
print('avg_length', avg_length, 'avg_reward:', avg_reward)

num_episodes: 5 num_steps: 106
avg_length 21.2 avg_reward: 21.2
