##### Copyright 2018 The TF-Agents Authors.

### Get Started
<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/tensorflow/agents/blob/master/tf_agents/colabs/5_replay_buffers_tutorial.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />Run in Google Colab</a>
  </td>
  <td>
    <a target="_blank" href="https://github.com/tensorflow/agents/blob/master/tf_agents/colabs/5_replay_buffers_tutorial.ipynb"><img src="https://www.tensorflow.org/images/GitHub-Mark-32px.png" />View source on GitHub</a>
  </td>
</table>



In [None]:
# If you haven't installed tf-agents or gym yet, run:
try:
    %tensorflow_version 2.x
except:
    pass
!pip install tf-agents-nightly
!pip install gym

### Imports

In [1]:
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import tensorflow as tf
import numpy as np

from tf_agents import specs
from tf_agents.agents.dqn import dqn_agent
from tf_agents.drivers import dynamic_step_driver
from tf_agents.environments import suite_gym
from tf_agents.environments import tf_py_environment
from tf_agents.networks import q_network
from tf_agents.replay_buffers import py_uniform_replay_buffer
from tf_agents.replay_buffers import tf_uniform_replay_buffer
from tf_agents.specs import tensor_spec
from tf_agents.trajectories import time_step

tf.compat.v1.enable_v2_behavior()

# 简介

在环境中执行策略时，强化学习算法使用重播缓冲区来存储经验轨迹。在训练过程中，重播缓冲区被用于查询一个轨迹子集(一个连续子集或一个样本)来“重播”代理的经验。

在这个colab中，我们研究了两种类型的重播缓冲区:python支持的和tensorflow支持的，它们共享一个公共API。在下面的小节中，我们将介绍API、每个缓冲区实现以及如何在数据收集培训期间使用它们。

# 重播缓冲区的API
重播缓冲类有如下定义和方法:

```python
class ReplayBuffer(tf.Module):
  """Abstract base class for TF-Agents replay buffer."""

  def __init__(self, data_spec, capacity):
    """Initializes the replay buffer.

    Args:
      data_spec: A spec or a list/tuple/nest of specs describing
        a single item that can be stored in this buffer
      capacity: number of elements that the replay buffer can hold.
    """

  @property
  def data_spec(self):
    """Returns the spec for items in the replay buffer."""

  @property
  def capacity(self):
    """Returns the capacity of the replay buffer."""

  def add_batch(self, items):
    """Adds a batch of items to the replay buffer."""

  def get_next(self,
               sample_batch_size=None,
               num_steps=None,
               time_stacked=True):
    """Returns an item or batch of items from the buffer."""

  def as_dataset(self,
                 sample_batch_size=None,
                 num_steps=None,
                 num_parallel_calls=None):
    """Creates and returns a dataset that returns entries from the buffer."""


  def gather_all(self):
    """Returns all the items in buffer."""
    return self._gather_all()

  def clear(self):
    """Resets the contents of replay buffer"""

```

请注意，当重播缓冲区对象初始化时，需要将 `data_spec`中的元素存储，该规格对应于将被添加到缓冲区的路径元素的 `TensorSpec` 。这个规范通常是通过查看代理的`agent.collect_data_spec`获得的，它定义了训练时代理期望的形状、类型和结构(稍后将详细介绍)。

# TFUniformReplayBuffer

`TFUniformReplayBuffer` 是一个TF-Agents中最常使用的重播缓冲区，所以这个教程也使用它。在`TFUniformReplayBuffer`中，后备缓冲区存储是由tensorflow变量完成的，因此它是计算图的一部分。

缓冲区存储了一批元素，并且每个批处理段有一个最大容量的“max_length”元素。因此，总的缓冲区容量是' batch_size ' 乘以 ' max_length '个元素。存储在缓冲区中的元素必须具有一个匹配的数据规范。当回放缓冲区用于数据收集时，该规范是代理的收集数据规范。

## 创建一个缓冲区:
要创建一个`TFUniformReplayBuffer` 我们传入：
1. 缓冲区将存储的数据元素的规范
2. 与缓冲区的批大小对应的`batch size`  
3. 每个批处理段的`max_length`元素数

下面是创建一个`TFUniformReplayBuffer`的示例，`batch_size` 为32， `max_length` 为1000。

In [2]:
data_spec =  (
        tf.TensorSpec([3], tf.float32, 'action'),
        (
            tf.TensorSpec([5], tf.float32, 'lidar'),
            tf.TensorSpec([3, 2], tf.float32, 'camera')
        )
)

batch_size = 32
max_length = 1000

replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(
    data_spec,
    batch_size=batch_size,
    max_length=max_length)

## 写入缓冲区
向重播缓冲区中加入元素需要使用`add_batch(items)` 方法，其中`items`是一个tensor的list/tuple/nest，表示要添加到缓冲区的批处理项。`items`的每个元素都必须有一个与`batch_size`相等的外部维度，其余维度必须符合该项的数据规范(与传递给回放缓冲区构造函数的数据规范相同)。

下面是添加一个batch的示例：

In [3]:
action = tf.constant(1 * np.ones(
    data_spec[0].shape.as_list(), dtype=np.float32))
lidar = tf.constant(
    2 * np.ones(data_spec[1][0].shape.as_list(), dtype=np.float32))
camera = tf.constant(
    3 * np.ones(data_spec[1][1].shape.as_list(), dtype=np.float32))
  
values = (action, (lidar, camera))
values_batched = tf.nest.map_structure(lambda t: tf.stack([t] * batch_size),
                                       values)
  
replay_buffer.add_batch(values_batched)

## 读取缓冲区内容

有3种方法可以从`TFUniformReplayBuffer`中读取数据：

1. `get_next()` ：从缓冲区返回一个样本。可以通过此方法的参数指定返回的样例批处理大小和时间步长。
2. `as_dataset()`：将重播缓冲区作为' tf.data.Dataset '返回。然后可以创建一个数据集迭代器，并遍历缓冲区中的项的样本。
3. `gather_all()` ：以一个张量的形式返回缓冲区中的所有项，该张量的形状为‘[batch, time, data_spec]’。

下面是如何使用这些方法从重播缓冲区读取的例子:

In [4]:
# add more items to the buffer before reading
for _ in range(5):
    replay_buffer.add_batch(values_batched)

# Get one sample from the replay buffer with batch size 10 and 1 timestep:

sample = replay_buffer.get_next(sample_batch_size=10, num_steps=1)

# Convert the replay buffer to a tf.data.Dataset and iterate through it
dataset = replay_buffer.as_dataset(sample_batch_size=4, num_steps=2)

iterator = iter(dataset)
print("Iterator trajectories:")
trajectories = []
for _ in range(3):
    t, _ = next(iterator)
    trajectories.append(t)

print(tf.nest.map_structure(lambda t: t.shape, trajectories))

# Read all elements in the replay buffer:
trajectories = replay_buffer.gather_all()

print("Trajectories from gather all:")
print(tf.nest.map_structure(lambda t: t.shape, trajectories))

Iterator trajectories:
[(TensorShape([4, 2, 3]), (TensorShape([4, 2, 5]), TensorShape([4, 2, 3, 2]))), (TensorShape([4, 2, 3]), (TensorShape([4, 2, 5]), TensorShape([4, 2, 3, 2]))), (TensorShape([4, 2, 3]), (TensorShape([4, 2, 5]), TensorShape([4, 2, 3, 2])))]
Trajectories from gather all:
(TensorShape([32, 6, 3]), (TensorShape([32, 6, 5]), TensorShape([32, 6, 3, 2])))


# PyUniformReplayBuffer
`PyUniformReplayBuffer` 和`TFUniformReplayBuffer` 有着相同的功能，但并不适用tf的变量，而是直接将数据存储为numpy的数组。此缓冲区可用于图形外数据收集。在numpy中拥有备份存储可以使某些应用程序更容易地执行数据操作(例如为更新优先级建立索引)，而无需使用Tensorflow变量。但是，这个实现没有Tensorflow图形优化的好处。

下面是一个实例，从代理的策略轨迹规范中实例化一个“PyUniformReplayBuffer”:

In [5]:
replay_buffer_capacity = 1000*32 # same capacity as the TFUniformReplayBuffer

py_replay_buffer = py_uniform_replay_buffer.PyUniformReplayBuffer(
    capacity=replay_buffer_capacity,
    data_spec=tensor_spec.to_nest_array_spec(data_spec))

# 在训练的过程中使用重播缓冲区

现在我们知道了如何创建一个重播缓冲区，向它写入数据并从中读取数据，我们可以使用它来存储训练代理时的轨迹。

## 数据收集
首先，让我们看看如何在数据收集期间使用重播缓冲区。

在TF-Agents中，我们使用`Driver`(有关更多细节，请参阅`Driver`教程)来收集环境中的经验。要使用`Driver`，我们指定一个“观察者”`Observer` ，它是一个函数，当`Driver` 接收到一个轨迹时，它将执行这个函数。

因此，为了将轨迹元素添加到回放缓冲区，我们添加了一个用`add_batch(items)`的观察者来在回放缓冲区中添加(batch)项。


下面是一个`TFUniformReplayBuffer`的例子。我们首先创建一个环境、一个网络和一个代理。然后我们创建一个TFUniformReplayBuffer。请注意，重播缓冲区中轨迹元素的规格等于代理的收集数据规格。然后，我们将其`add_batch`方法设置为driver的观察者，在我们的训练期间，该方法将进行数据收集:

In [6]:
env = suite_gym.load('CartPole-v0')
tf_env = tf_py_environment.TFPyEnvironment(env)

q_net = q_network.QNetwork(
    tf_env.time_step_spec().observation,
    tf_env.action_spec(),
    fc_layer_params=(100,))

agent = dqn_agent.DqnAgent(
    tf_env.time_step_spec(),
    tf_env.action_spec(),
    q_network=q_net,
    optimizer=tf.compat.v1.train.AdamOptimizer(0.001))

replay_buffer_capacity = 1000

replay_buffer = tf_uniform_replay_buffer.TFUniformReplayBuffer(
    agent.collect_data_spec,
    batch_size=tf_env.batch_size,
    max_length=replay_buffer_capacity)

# Add an observer that adds to the replay buffer:
replay_observer = [replay_buffer.add_batch]

collect_steps_per_iteration = 10
collect_op = dynamic_step_driver.DynamicStepDriver(
  tf_env,
  agent.collect_policy,
  observers=replay_observer,
  num_steps=collect_steps_per_iteration).run()

## 在训练的步骤中读取数据

将轨迹元素添加到重播缓冲区后，我们可以从重播缓冲区中读取成批的轨迹作为训练步长的输入数据。

下面是一个如何在训练循环中从重播缓冲区训练轨迹的例子:

In [8]:
# Read the replay buffer as a Dataset,
# read batches of 4 elements, each with 2 timesteps:
dataset = replay_buffer.as_dataset(sample_batch_size=4, num_steps=2)

iterator = iter(dataset)

num_train_steps = 10

for _ in range(num_train_steps):
    trajectories, _ = next(iterator)
    loss = agent.train(experience=trajectories)