### Get Started
<table class="tfo-notebook-buttons" align="left">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/tensorflow/agents/blob/master/tf_agents/colabs/3_policies_tutorial.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />Run in Google Colab</a>
  </td>
  <td>
    <a target="_blank" href="https://github.com/tensorflow/agents/blob/master/tf_agents/colabs/3_policies_tutorial.ipynb"><img src="https://www.tensorflow.org/images/GitHub-Mark-32px.png" />View source on GitHub</a>
  </td>
</table>

In [1]:
# Note: If you haven't installed tf-agents yet, run:
try:
    %%tensorflow_version 2.x
except:
    pass
!pip install tfp-nightly
!pip install tf-agents-nightly



### 导入包

In [2]:
from __future__ import absolute_import
from __future__ import division
from __future__ import print_function

import abc
import tensorflow as tf
import tensorflow_probability as tfp
import numpy as np

from tf_agents.specs import array_spec
from tf_agents.specs import tensor_spec
from tf_agents.networks import network

from tf_agents.policies import py_policy
from tf_agents.policies import random_py_policy
from tf_agents.policies import scripted_py_policy

from tf_agents.policies import tf_policy
from tf_agents.policies import random_tf_policy
from tf_agents.policies import actor_policy
from tf_agents.policies import q_policy
from tf_agents.policies import greedy_policy

from tf_agents.trajectories import time_step as ts

tf.compat.v1.enable_v2_behavior()

# 简介

在强化学习中，策略将来自环境的观察映射到操作或操作上的分布。 在TF-Agents中，来自环境的观察包含一个命名为TimeStep的元组`TimeStep('step_type', 'discount', 'reward', 'observation')`，策略将时间步骤映射到操作或操作之上的分布。大多数策略使用  `timestep.observation`, 有一些策略使用 `timestep.step_type` (例如 在有状态策略的事件开始时重置状态), 但是 `timestep.discount` 和 `timestep.reward` 常常被忽略。

策略以如下方式与tf - agent中的其他组件相关：大多数策略都有一个神经网络来计算动作和/或动作在TimeSteps上的分布。代理可以包含一个或多个用于不同目的的策略，例如，正在为部署而训练的主策略和用于数据收集的嘈杂策略。可以保存/恢复策略，可以独立地用于代理的数据收集、评估等。

有些策略更容易用Tensorflow编写(例如使用神经网络的策略)，而另一些策略更容易用Python编写(例如遵循操作脚本)。所以在TF代理中，我们同时允许Python和Tensorflow策略。此外，用TensorFlow编写的策略可能必须在Python环境中使用，反之亦然，例如，TensorFlow策略用于训练，但稍后将部署到生产Python环境中。为了简化这一点，我们提供了用于在python和TensorFlow策略之间进行转换的包装器。

另一类有趣的策略是策略包装器，它以某种方式修改给定的策略，例如添加某种特定类型的噪声，对随机策略采用贪心算法或$\epsilon$贪心算法的修改，将多个策略随机混合等等。

# 使用Python的策略

使用Python中策略的接口被定义在`policies/py_policy.Base`中，主要的函数如下：

In [3]:
class Base(object):
    @abc.abstractmethod
    def __init__(self, time_step_spec, action_spec, policy_state_spec=()):
        self._time_step_spec = time_step_spec
        self._action_spec = action_spec
        self._policy_state_spec = policy_state_spec

    @abc.abstractmethod
    def reset(self, policy_state=()):
        # return initial_policy_state.
        pass

    @abc.abstractmethod
    def action(self, time_step, policy_state=()):
        # return a PolicyStep(action, state, info) named tuple.
        pass

    @abc.abstractmethod
    def distribution(self, time_step, policy_state=()):
        # Not implemented in python, only for TF policies.
        pass

    @abc.abstractmethod
    def update(self, policy):
        # update self to be similar to the input `policy`.
        pass

    @abc.abstractmethod
    def copy(self):
        # return a copy of self.
        pass

    @property
    def time_step_spec(self):
        return self._time_step_spec

    @property
    def action_spec(self):
        return self._action_spec

    @property
    def policy_state_spec(self):
        return self._policy_state_spec

最重要的方法是`action(time_step)` ，它将包含一个从环境中观察得到的`time_step` 映射为PolicyStep的元组，此元组包含以下的属性：

*  `action`: 应用于环境中的动作
*  `state`: 被应用于下一次动作调用时策略的状态 (例如 RNN 的状态) 
*  `info`: 可选的次要信息，如动作的对数概率

 `time_step_spec` 和 `action_spec` 是输入时间步长和输出操作的规范。策略还有一个“reset”函数，通常用于在有状态策略中重置状态。' copy '函数返回' self '的副本，' update(new_policy) '函数将' self '更新为' new_policy '。

现在，让我们看几个python策略的例子。

## 例1: 随机的Python策略

 `RandomPyPolicy`是一个简单的`PyPolicy`，它可以在已知离散/连续的动作空间内生成随机的动作，输入的 `time_step`被忽略。

In [4]:
action_spec = array_spec.BoundedArraySpec((2,), np.int32, -10, 10)
my_random_py_policy = random_py_policy.RandomPyPolicy(time_step_spec=None,
    action_spec=action_spec)
time_step = None
action_step = my_random_py_policy.action(time_step)
print(action_step)
action_step = my_random_py_policy.action(time_step)
print(action_step)

PolicyStep(action=array([-3, -6], dtype=int32), state=(), info=())
PolicyStep(action=array([-2, -8], dtype=int32), state=(), info=())


## 例 2: Python脚本化策略

脚本化策略将操作的脚本表示为' (num_repeat, action) '元组的列表。每次调用“action”函数时，它都会从列表中返回下一个操作，直到完成指定的重复次数，然后移动到列表中的下一个操作。可以调用“reset”方法从列表的开头开始执行。

In [5]:
action_spec = array_spec.BoundedArraySpec((2,), np.int32, -10, 10)
action_script = [(1, np.array([5, 2], dtype=np.int32)), 
                 (0, np.array([0, 0], dtype=np.int32)), # Setting `num_repeates` to 0 will skip this action.
                 (2, np.array([1, 2], dtype=np.int32)), 
                 (1, np.array([3, 4], dtype=np.int32))]

my_scripted_py_policy = scripted_py_policy.ScriptedPyPolicy(
    time_step_spec=None, action_spec=action_spec, action_script=action_script)

policy_state = my_scripted_py_policy.get_initial_state()
time_step = None
print('Executing scripted policy...')
action_step = my_scripted_py_policy.action(time_step, policy_state)
print(action_step)
action_step= my_scripted_py_policy.action(time_step, action_step.state)
print(action_step)
action_step = my_scripted_py_policy.action(time_step, action_step.state)
print(action_step)

print('Resetting my_scripted_py_policy...')
policy_state = my_scripted_py_policy.get_initial_state()
action_step = my_scripted_py_policy.action(time_step, policy_state)
print(action_step)

Executing scripted policy...
PolicyStep(action=array([5, 2], dtype=int32), state=[0, 1], info=())
PolicyStep(action=array([1, 2], dtype=int32), state=[2, 1], info=())
PolicyStep(action=array([1, 2], dtype=int32), state=[2, 2], info=())
Resetting my_scripted_py_policy...
PolicyStep(action=array([5, 2], dtype=int32), state=[0, 1], info=())


# 使用TensorFlow的策略

使用TensorFlow的策略和使用Python的策略有着同样的接口，下面是几个例子。

## 例 1: 随机的 TF 策略

一个随机的TFPolicy 可以根据给定的离散/连续的`action_spec`生成一个随机的动作. 输入的 `time_step`会被忽略。


In [6]:
action_spec = tensor_spec.BoundedTensorSpec(
    (2,), tf.float32, minimum=-1, maximum=3)
input_tensor_spec = tensor_spec.TensorSpec((2,), tf.float32)
time_step_spec = ts.time_step_spec(input_tensor_spec)

my_random_tf_policy = random_tf_policy.RandomTFPolicy(
    action_spec=action_spec, time_step_spec=time_step_spec)
observation = tf.ones(time_step_spec.observation.shape)
time_step = ts.restart(observation)
action_step = my_random_tf_policy.action(time_step)

print('Action:')
print(action_step.action)

Action:
tf.Tensor([-0.14009571 -0.49590063], shape=(2,), dtype=float32)


## 例 2: Actor Policy

可以使用将'time_steps'映射到操作的网络或将' time_steps '映射到操作上的发行版的网络来创建actor策略。

### 使用 action network

让我们这样来定义一个网络:

In [7]:
class ActionNet(network.Network):
    def __init__(self, input_tensor_spec, output_tensor_spec):
        super(ActionNet, self).__init__(input_tensor_spec=input_tensor_spec,
                                        state_spec=(),
                                        name='ActionNet')
        self._output_tensor_spec = output_tensor_spec
        self._layers = [
            tf.keras.layers.Dense(action_spec.shape.num_elements(),
                                  activation=tf.nn.tanh),
        ]

    def call(self, observations, step_type, network_state):
        del step_type

        output = tf.cast(observations, dtype=tf.float32)
        for layer in self.layers:
            output = layer(output)
        actions = tf.reshape(output,
                             [-1] + self._output_tensor_spec.shape.as_list())

        # Scale and shift actions to the correct range if necessary.
        return actions, network_state

在TensorFlow中，大多数网络层都是为批处理操作设计的，因此我们希望对输入time_steps进行批处理，同时对网络的输出也进行批处理。网络还负责生成给定action_spec的正确范围内的操作。这通常是通过如下方法来完成的:首先激活最后一层的tanh，生成[- 1,1]中的动作，然后将其作为输入action_spec缩放并移动到正确的范围(更多请查看 `tf_agents/agents/ddpg/networks.actor_network()`).

现在，我们使用上面的网络创建一个actor策略。

In [8]:
input_tensor_spec = tensor_spec.TensorSpec((4,), tf.float32)
time_step_spec = ts.time_step_spec(input_tensor_spec)
action_spec = tensor_spec.BoundedTensorSpec((3,),
                                            tf.float32,
                                            minimum=-1,
                                            maximum=1)

action_net = ActionNet(input_tensor_spec, action_spec)

my_actor_policy = actor_policy.ActorPolicy(
    time_step_spec=time_step_spec,
    action_spec=action_spec,
    actor_network=action_net)

我们可以将它应用到任何批次遵循time_step_spe的time_steps

In [10]:
batch_size = 2
observations = tf.ones([2] + time_step_spec.observation.shape.as_list())

time_step = ts.restart(observations, batch_size)

action_step = my_actor_policy.action(time_step)
print('Action:')
print(action_step.action)

distribution_step = my_actor_policy.distribution(time_step)
print('Action distribution:')
print(distribution_step.action)

Action:
tf.Tensor(
[[-0.8051854  0.6902697  0.5453182]
 [-0.8051854  0.6902697  0.5453182]], shape=(2, 3), dtype=float32)
Action distribution:
tfp.distributions.Deterministic("Deterministic", batch_shape=[2, 3], event_shape=[], dtype=float32)


在上面的例子中，我们使用产生一个动作张量的动作网络来创建策略。在本例中，`policy.distribution(time_step)`是围绕`policy.action(time_step)`输出的确定性(增量)分布。生成随机策略的一种方法是将actor策略包装在一个策略包装器中，该包装器将向操作添加噪声。另一种方法是使用动作分布网络（ action distribution network）而不是操作网络来创建actor策略，如下所示。

### 使用一个动作分布网络

In [11]:
class ActionDistributionNet(ActionNet):
    def call(self, observations, step_type, network_state):
        action_means, network_state = super(ActionDistributionNet,
                                            self).call(observations, step_type,
                                                       network_state)

        action_std = tf.ones_like(action_means)
        return tfp.distributions.Normal(action_means,
                                        action_std), network_state


action_distribution_net = ActionDistributionNet(input_tensor_spec, action_spec)

my_actor_policy = actor_policy.ActorPolicy(
    time_step_spec=time_step_spec,
    action_spec=action_spec,
    actor_network=action_distribution_net)

action_step = my_actor_policy.action(time_step)
print('Action:')
print(action_step.action)
distribution_step = my_actor_policy.distribution(time_step)
print('Action distribution:')
print(distribution_step.action)

Action:
tf.Tensor(
[[-0.2039079   0.11148027  0.30938396]
 [-0.5325132  -0.83604133 -1.        ]], shape=(2, 3), dtype=float32)
Action distribution:
tfp.distributions.Normal("ActionNet_Normal", batch_shape=[2, 3], event_shape=[], dtype=float32)


注意，在上面，动作被裁剪到给定动作规范的范围[- 1,1]。这是因为ActorPolicy总 clip的构造函数参数默认为True。将此设置为false将返回网络生成的未剪切操作。

随机策略可以转换为确定性策略，例如，使用一个GreedyPolicy包装器，该包装器选择`stochastic_policy.distribution().mode()` 作为其操作, 而围绕这个贪婪操作的一个确定性/增量分布作为 `distribution()`.

## 例 3: Q Policy

Q策略用于像DQN这样的代理，它基于Q网络，该网络预测每个离散操作的Q值。对于给定的时间步长，Q策略中的操作分布是一个使用Q值作为logits创建的分类分布。

In [12]:
input_tensor_spec = tensor_spec.TensorSpec((4, ), tf.float32)
time_step_spec = ts.time_step_spec(input_tensor_spec)
action_spec = tensor_spec.BoundedTensorSpec((1, ),
                                            tf.int32,
                                            minimum=-1,
                                            maximum=1)
num_actions = action_spec.maximum - action_spec.minimum + 1


class QNetwork(network.Network):
    def __init__(self,
                 input_tensor_spec,
                 action_spec,
                 num_actions=2,
                 name=None):
        super(QNetwork, self).__init__(input_tensor_spec=input_tensor_spec,
                                       state_spec=(),
                                       name=name)
        self._layers.append(tf.keras.layers.Dense(num_actions))

    def call(self, inputs, step_type=None, network_state=()):
        del step_type
        inputs = tf.cast(inputs, tf.float32)
        for layer in self.layers:
            inputs = layer(inputs)
        return inputs, network_state


batch_size = 2
observation = tf.ones([batch_size] +
                      time_step_spec.observation.shape.as_list())
time_steps = ts.restart(observation, batch_size=batch_size)

my_q_network = QNetwork(input_tensor_spec=input_tensor_spec,
                        action_spec=action_spec)
my_q_policy = q_policy.QPolicy(time_step_spec,
                               action_spec,
                               q_network=my_q_network)
action_step = my_q_policy.action(time_steps)
distribution_step = my_q_policy.distribution(time_steps)

print('Action:')
print(action_step.action)

print('Action distribution:')
print(distribution_step.action)

Action:
tf.Tensor(
[[-1]
 [ 0]], shape=(2, 1), dtype=int32)
Action distribution:
tfp.distributions.ShiftedCategorical("ShiftedCategorical", batch_shape=[2, 1], event_shape=[], dtype=int32)


# 策略包装器（Policy Wrappers）

策略包装器可用于包装和修改给定的策略，例如添加噪声。策略包装器是策略的子类(Python/TensorFlow)，因此可以像其他策略一样使用。

## 例: 贪心策略（Greedy Policy）


贪婪的包装器可以用来包装任何实现`distribution()`的TensorFlow策略。`GreedyPolicy.action()`将返回`wrapped_policy.distribution().mode()` ，而且 `GreedyPolicy.distribution()` i是一个围绕`GreedyPolicy.action()`的确定性/增量分布:

In [13]:
my_greedy_policy = greedy_policy.GreedyPolicy(my_q_policy)

action_step = my_greedy_policy.action(time_steps)
print('Action:')
print(action_step.action)

distribution_step = my_greedy_policy.distribution(time_steps)
print('Action distribution:')
print(distribution_step.action)

Action:
tf.Tensor(
[[-1]
 [-1]], shape=(2, 1), dtype=int32)
Action distribution:
tfp.distributions.DeterministicWithLogProb("Deterministic", batch_shape=[2, 1], event_shape=[], dtype=int32)
