##### Copyright 2018 The TF-Agents Authors.

### Get Started
<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/tensorflow/agents/blob/master/tf_agents/colabs/2_environments_tutorial.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />Run in Google Colab</a>
  </td>
  <td>
    <a target="_blank" href="https://github.com/tensorflow/agents/blob/master/tf_agents/colabs/2_environments_tutorial.ipynb"><img src="https://www.tensorflow.org/images/GitHub-Mark-32px.png" />View source on GitHub</a>
  </td>
</table>



In [None]:
# Note: If you haven't installed tf-agents or gym yet, run:
!pip install tf-agents-nightly
!pip install gym
try:
      %%tensorflow_version 2.x
except:
      pass

### 导入包

In [1]:
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import abc
import tensorflow as tf
import numpy as np

from tf_agents.environments import py_environment
from tf_agents.environments import tf_environment
from tf_agents.environments import tf_py_environment
from tf_agents.environments import utils
from tf_agents.specs import array_spec
from tf_agents.environments import wrappers
from tf_agents.environments import suite_gym
from tf_agents.trajectories import time_step as ts

tf.compat.v1.enable_v2_behavior()

# 简介

强化学习（RL）的目标就是设计一个代理（Agent），利用代理和环境（Environment）之间的交互进行学习。在标准的RL设置中，代理在每步接收一个观察值并选择一个动作。这个动作被应用到环境中，环境会返回一个奖励和一个新的观察结果。代理需要训练一种策略（Policy）来选择行动以使回报最大化，也称为回报。

在TF-Agents中，环境可以使用Python或者TensorFlow来实现，Python实现的环境通常易于实现、理解和调试，但是TensorFlow实现的环境会更高效并且允许并行。最常见的工作方式是用Python实现一个环境，并使用TF-Agents的一个包装器将其自动转换为TensorFlow。

让我们先来看看Python环境。TensorFlow环境遵循非常类似的API。

# Python环境

Python实现的环境有`step(action) -> next_time_step`方法可以对环境实施某种动作(action) ，可以返回下一个步骤的如下信息：
1. `observation`: 这是代理可以观察的环境状态的一部分，以便在下一步中选择其操作。
2. `reward`: 代理可以学习如何在多个步骤中最大化这些奖励的总和。
3. `step_type`: 与环境的交互通常是一个序列（sequence）/事件（episode）的一部分。例如:国际象棋中的多步。step_type可以是`FIRST`、`MID`或`LAST`来表示这个时间步是序列中的第一个、中间步骤还是最后一个步骤。
4. `discount`: 这是一个浮点数，表示下一个时间步的奖励相对于当前时间步的奖励的权重。

它们被分组到一个名为`TimeStep(step_type, reward, discount, observation)`的元组。

所有python环境必须实现的接口都在`environments/py_environment.PyEnvironment`里面，主要的方法为：

In [2]:
class PyEnvironment(object):
    def reset(self):
        """Return initial_time_step."""
        self._current_time_step = self._reset()
        return self._current_time_step

    def step(self, action):
        """Apply action and return new time_step."""
        if self._current_time_step is None:
            return self.reset()
        self._current_time_step = self._step(action)
        return self._current_time_step

    def current_time_step(self):
        return self._current_time_step

    def time_step_spec(self):
        """Return time_step_spec."""
    @abc.abstractmethod
    def observation_spec(self):
        """Return observation_spec."""
    @abc.abstractmethod
    def action_spec(self):
        """Return action_spec."""
    @abc.abstractmethod
    def _reset(self):
        """Return initial_time_step."""
    @abc.abstractmethod
    def _step(self, action):
        """Apply action and return new time_step."""
        self._current_time_step = self._step(action)
        return self._current_time_step

除了`step()`方法之外，环境也提供 `reset()` 方法，他可以启动一个新序列并提供一个初始`TimeStep`。没有必要显式地调用`reset`方法。我们假设环境是自动重置的，当它们到达某个事件的末尾或者第一次调用step()时都是如此。

注意，子类并不直接实现`step()` 或`reset()`，而是覆盖了`_step()`和`_reset()` 方法。从这些方法返回的时间步将被缓存并通过`current_time_step()`公开。

方法`observation_spec` 和`action_spec` 返回一组`(Bounded)ArraySpecs` ，分别描述观察值和操作的名称、形状、数据类型和范围。

在TF-Agents中，我们反复引用套接字，套接字被定义为由列表、元组、命名元组或字典组成的任何树状结构。这些可以任意组合，以维护观察和操作的结构。我们发现这对于有许多观察和操作且更复杂的环境非常有用。

## 使用标准的环境

TF Agents 有许多标准环境的内置包装，比如OpenAI Gym、DeepMind-control和Atari，因此它们可以遵循我们的`py_environment.PyEnvironment` 接口。可以使用我们的环境套件轻松地加载这些包装环境。让我们从OpenAI Gym加载CartPole环境，并查看动作和time_step_spec。

In [3]:
environment = suite_gym.load('CartPole-v0')
print('action_spec:', environment.action_spec())
print('time_step_spec.observation:', environment.time_step_spec().observation)
print('time_step_spec.step_type:', environment.time_step_spec().step_type)
print('time_step_spec.discount:', environment.time_step_spec().discount)
print('time_step_spec.reward:', environment.time_step_spec().reward)

action_spec: BoundedArraySpec(shape=(), dtype=dtype('int64'), name='action', minimum=0, maximum=1)
time_step_spec.observation: BoundedArraySpec(shape=(4,), dtype=dtype('float32'), name='observation', minimum=[-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], maximum=[4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38])
time_step_spec.step_type: ArraySpec(shape=(), dtype=dtype('int32'), name='step_type')
time_step_spec.discount: BoundedArraySpec(shape=(), dtype=dtype('float32'), name='discount', minimum=0.0, maximum=1.0)
time_step_spec.reward: ArraySpec(shape=(), dtype=dtype('float32'), name='reward')


因此，我们看到环境期望在中执行的动作为[0,1]之间类型为`int64`数值，并返回`TimeSteps` ，其中观察值是长度为4的' float32 '向量，衰减因子是[0.0,1.0]中 `float32`的浮点数。现在，让我们尝试为整个事件采取一个固定的动作`(1,)`。

In [4]:
action = 1
time_step = environment.reset()
print(time_step)
while not time_step.is_last():
    time_step = environment.step(action)
    print(time_step)

TimeStep(step_type=array(0, dtype=int32), reward=array(0., dtype=float32), discount=array(1., dtype=float32), observation=array([ 0.01572075, -0.00113396,  0.0223387 , -0.02902855], dtype=float32))
TimeStep(step_type=array(1, dtype=int32), reward=array(1., dtype=float32), discount=array(1., dtype=float32), observation=array([ 0.01569807,  0.19366063,  0.02175813, -0.3145805 ], dtype=float32))
TimeStep(step_type=array(1, dtype=int32), reward=array(1., dtype=float32), discount=array(1., dtype=float32), observation=array([ 0.01957129,  0.388466  ,  0.01546652, -0.600323  ], dtype=float32))
TimeStep(step_type=array(1, dtype=int32), reward=array(1., dtype=float32), discount=array(1., dtype=float32), observation=array([ 0.02734061,  0.5833682 ,  0.00346006, -0.88809437], dtype=float32))
TimeStep(step_type=array(1, dtype=int32), reward=array(1., dtype=float32), discount=array(1., dtype=float32), observation=array([ 0.03900797,  0.77844304, -0.01430183, -1.1796876 ], dtype=float32))
TimeStep(s

## 创建自己的python环境

对于许多用户来说，一个常见的用例是将TF-Agents中的一个标准代理(参见agents/)应用于他们的问题。为了做到这一点，他们必须把他们的问题框定成一个环境。因此，让我们看看如何在Python中实现环境。

假设我们想要训练一名代理玩下面的纸牌游戏(受到Black Jack启发):
1. 这款游戏使用无限的一副牌，编号为1…10。
2. 每轮代理可以做两件事:获得一张新的随机纸牌，或者停止当前的回合。
3. 目标是在这一轮结束时，你的牌的编号总数尽可能接近21张，而不超过21张。

代表游戏的环境可以是这样的:
1. 动作（Actions）:我们有两个动作。动作0:获得新卡，动作1:终止当前回合。
2. 观察（Observations）: 当前回合中所有牌的和。
3. 回报（Reward）: 我们的目标是在不超越的情况下尽可能接近21，所以我们可以在这一轮结束时使用以下奖励来实现这一目标:
    sum_of_cards - 21 if sum_of_cards <= 21, else -21

In [5]:
class CardGameEnv(py_environment.PyEnvironment):
    def __init__(self):
        self._action_spec = array_spec.BoundedArraySpec(shape=(),
                                                        dtype=np.int32,
                                                        minimum=0,
                                                        maximum=1,
                                                        name='action')
        self._observation_spec = array_spec.BoundedArraySpec(
            shape=(1, ), dtype=np.int32, minimum=0, name='observation')
        self._state = 0
        self._episode_ended = False

    def action_spec(self):
        return self._action_spec

    def observation_spec(self):
        return self._observation_spec

    def _reset(self):
        self._state = 0
        self._episode_ended = False
        return ts.restart(np.array([self._state], dtype=np.int32))

    def _step(self, action):

        if self._episode_ended:
            # The last action ended the episode. Ignore the current action and start
            # a new episode.
            return self.reset()

        # Make sure episodes don't go on forever.
        if action == 1:
            self._episode_ended = True
        elif action == 0:
            new_card = np.random.randint(1, 11)
            self._state += new_card
        else:
            raise ValueError('`action` should be 0 or 1.')

        if self._episode_ended or self._state >= 21:
            reward = self._state - 21 if self._state <= 21 else -21
            return ts.termination(np.array([self._state], dtype=np.int32),
                                  reward)
        else:
            return ts.transition(np.array([self._state], dtype=np.int32),
                                 reward=0.0,
                                 discount=1.0)

让我们确保正确地定义了上面的环境。在创建自己的环境时，必须确保生成的观察结果和time_steps符合规范中定义的正确形状和类型。这些是用来生成TensorFlow图的，因此如果我们做错了，就会产生难以调试的问题。

为了验证我们的环境，我们将使用一个随机策略来生成动作，并且我们将迭代5个事件以确保事情按照预期进行。如果接收到的time_step不符合环境规范，则会引发错误。

In [6]:
environment = CardGameEnv()
utils.validate_py_environment(environment, episodes=5)

现在我们知道环境正在正常工作，让我们使用一个固定的策略来运行这个环境:请求3张牌，然后结束这一轮。

In [7]:
get_new_card_action = 0
end_round_action = 1

environment = CardGameEnv()
time_step = environment.reset()
print(time_step)
cumulative_reward = time_step.reward

for _ in range(3):
    time_step = environment.step(get_new_card_action)
    print(time_step)
    cumulative_reward += time_step.reward

time_step = environment.step(end_round_action)
print(time_step)
cumulative_reward += time_step.reward
print('Final Reward = ', cumulative_reward)

TimeStep(step_type=array(0, dtype=int32), reward=array(0., dtype=float32), discount=array(1., dtype=float32), observation=array([0], dtype=int32))
TimeStep(step_type=array(1, dtype=int32), reward=array(0., dtype=float32), discount=array(1., dtype=float32), observation=array([3], dtype=int32))
TimeStep(step_type=array(1, dtype=int32), reward=array(0., dtype=float32), discount=array(1., dtype=float32), observation=array([4], dtype=int32))
TimeStep(step_type=array(1, dtype=int32), reward=array(0., dtype=float32), discount=array(1., dtype=float32), observation=array([12], dtype=int32))
TimeStep(step_type=array(2, dtype=int32), reward=array(-9., dtype=float32), discount=array(0., dtype=float32), observation=array([12], dtype=int32))
Final Reward =  -9.0


## 环境包装

环境包装器接受python环境并返回环境的修改版本。原始环境和修改后的环境都是`py_environment.PyEnvironment`的实例。而且多个包装器可以链接在一起。

一些常见的包装器可以在`environments/wrappers.py`中找到。例如:
1. `ActionDiscretizeWrapper`: 将连续的动作空间转换为离散的动作空间。
2. `RunStats`: 获取环境的运行统计数据，如所采取的步骤数、完成的事件数等。
3. `TimeLimit`: 在固定数量的步骤之后终止该事件。

### 示例 1: Action Discretize Wrapper

倒立摆是一个PyBullet环境，它接受`[-1, 1]`范围内的连续动作。如果我们想要在这种环境下训练一个离散的动作代理，比如DQN，我们必须对动作空间进行离散化(量化)。这正是`ActionDiscretizeWrapper`所做的。比较`action_spec` 之前和之后的包装:

In [8]:
env = suite_gym.load('Pendulum-v0')
print('Action Spec:', env.action_spec())

discrete_action_env = wrappers.ActionDiscretizeWrapper(env, num_actions=5)
print('Discretized Action Spec:', discrete_action_env.action_spec())

Action Spec: BoundedArraySpec(shape=(1,), dtype=dtype('float32'), name='action', minimum=-2.0, maximum=2.0)
Discretized Action Spec: BoundedArraySpec(shape=(1,), dtype=dtype('int32'), name='action', minimum=0, maximum=[4])


包装的 `discrete_action_env`是 `py_environment.PyEnvironment` 的一个实例，可以像普通的python环境一样对待。

# Tensorflow的环境

TF环境的接口在`environments/tf_environment.TFEnvironment` 中定义，它看起来与Python环境非常相似。TF环境与python envs在以下几个方面不同:

* 它生成的是张量对象而不是数组
* TF环境为生成的张量添加一个批处理维度(与specs相比)。

将python环境转换为TFEnvs允许tensorflow对操作进行优化。例如，可以定义一个`collect_experience_op` ，它从环境中收集数据并添加到`replay_buffer`,中，以及一个`train_op` ，它从`replay_buffer` 中读取数据并训练代理，然后在TensorFlow中自然地并行运行它们。

In [9]:
class TFEnvironment(object):
    def time_step_spec(self):
        """Describes the `TimeStep` tensors returned by `step()`."""
    def observation_spec(self):
        """Defines the `TensorSpec` of observations provided by the environment."""
    def action_spec(self):
        """Describes the TensorSpecs of the action expected by `step(action)`."""
    def reset(self):
        """Returns the current `TimeStep` after resetting the Environment."""
        return self._reset()

    def current_time_step(self):
        """Returns the current `TimeStep`."""
        return self._current_time_step()

    def step(self, action):
        """Applies the action and returns the new `TimeStep`."""
        return self._step(action)

    @abc.abstractmethod
    def _reset(self):
        """Returns the current `TimeStep` after resetting the Environment."""
    @abc.abstractmethod
    def _current_time_step(self):
        """Returns the current `TimeStep`."""
    @abc.abstractmethod
    def _step(self, action):
        """Applies the action and returns the new `TimeStep`."""

`current_time_step()`方法返回当前的time_step并在需要时初始化环境。

`reset()` 方法强制环境中的重置并返回current_step。

如果“动作”不依赖于前面的 `time_step`，在“Graph”模式中需要 `tf.control_dependency` 。

现在，让我们看看如何创建`TFEnvironments` 。

## 创建你自己的 TensorFlow 环境

这比在Python中创建环境要复杂得多，所以我们不会在这个主题中讨论它。[例子](https://github.com/tensorflow/agents/blob/master/tf_agents/environments/tf_environment_test.py)。
更常见的用例是用Python实现环境，并使用`TFPyEnvironment` 包装器(参见下面)将其封装在TensorFlow中。

## 将Python环境包装为Tensorflow

我们可以使用`TFPyEnvironment` 包装器轻松地将任何Python环境包装到TensorFlow环境中。

In [10]:
env = suite_gym.load('CartPole-v0')
tf_env = tf_py_environment.TFPyEnvironment(env)

print(isinstance(tf_env, tf_environment.TFEnvironment))
print("TimeStep Specs:", tf_env.time_step_spec())
print("Action Specs:", tf_env.action_spec())

True
TimeStep Specs: TimeStep(step_type=TensorSpec(shape=(), dtype=tf.int32, name='step_type'), reward=TensorSpec(shape=(), dtype=tf.float32, name='reward'), discount=BoundedTensorSpec(shape=(), dtype=tf.float32, name='discount', minimum=array(0., dtype=float32), maximum=array(1., dtype=float32)), observation=BoundedTensorSpec(shape=(4,), dtype=tf.float32, name='observation', minimum=array([-4.8000002e+00, -3.4028235e+38, -4.1887903e-01, -3.4028235e+38],
      dtype=float32), maximum=array([4.8000002e+00, 3.4028235e+38, 4.1887903e-01, 3.4028235e+38],
      dtype=float32)))
Action Specs: BoundedTensorSpec(shape=(), dtype=tf.int64, name='action', minimum=array(0), maximum=array(1))


注意，现在的配置类型是:`(Bounded)TensorSpec`。

## 实用例子

### 简单的例子

In [11]:
env = suite_gym.load('CartPole-v0')

tf_env = tf_py_environment.TFPyEnvironment(env)
# reset() creates the initial time_step after resetting the environment.
time_step = tf_env.reset()
num_steps = 3
transitions = []
reward = 0
for i in range(num_steps):
    action = tf.constant([i % 2])
    # applies the action and returns the new TimeStep.
    next_time_step = tf_env.step(action)
    transitions.append([time_step, action, next_time_step])
    reward += next_time_step.reward
    time_step = next_time_step

np_transitions = tf.nest.map_structure(lambda x: x.numpy(), transitions)
print('\n'.join(map(str, np_transitions)))
print('Total reward:', reward.numpy())

[TimeStep(step_type=array([0], dtype=int32), reward=array([0.], dtype=float32), discount=array([1.], dtype=float32), observation=array([[-0.02460271,  0.02203766, -0.01728856, -0.01298076]],
      dtype=float32)), array([0], dtype=int32), TimeStep(step_type=array([1], dtype=int32), reward=array([1.], dtype=float32), discount=array([1.], dtype=float32), observation=array([[-0.02416196, -0.17283215, -0.01754818,  0.27419767]],
      dtype=float32))]
[TimeStep(step_type=array([1], dtype=int32), reward=array([1.], dtype=float32), discount=array([1.], dtype=float32), observation=array([[-0.02416196, -0.17283215, -0.01754818,  0.27419767]],
      dtype=float32)), array([1], dtype=int32), TimeStep(step_type=array([1], dtype=int32), reward=array([1.], dtype=float32), discount=array([1.], dtype=float32), observation=array([[-0.0276186 ,  0.02253573, -0.01206422, -0.02396793]],
      dtype=float32))]
[TimeStep(step_type=array([1], dtype=int32), reward=array([1.], dtype=float32), discount=array([

### 整个事件

In [12]:
env = suite_gym.load('CartPole-v0')
tf_env = tf_py_environment.TFPyEnvironment(env)

time_step = tf_env.reset()
rewards = []
steps = []
num_episodes = 5

for _ in range(num_episodes):
    episode_reward = 0
    episode_steps = 0
    while not time_step.is_last():
        action = tf.random.uniform([1], 0, 2, dtype=tf.int32)
        time_step = tf_env.step(action)
        episode_steps += 1
        episode_reward += time_step.reward.numpy()
    rewards.append(episode_reward)
    steps.append(episode_steps)
    time_step = tf_env.reset()

num_steps = np.sum(steps)
avg_length = np.mean(steps)
avg_reward = np.mean(rewards)

print('num_episodes:', num_episodes, 'num_steps:', num_steps)
print('avg_length', avg_length, 'avg_reward:', avg_reward)

num_episodes: 5 num_steps: 91
avg_length 18.2 avg_reward: 18.2
