Algorithms bring all RLlib components together, making learning of different tasks accessible via RLlib’s Python API and its command line interface (CLI). Each Algorithm class is managed by its respective AlgorithmConfig, for example to configure a PPO instance, you should use the PPOConfig class. An Algorithm sets up its rollout workers and optimizers, and collects training metrics. Algorithms also implement the Tune Trainable API for easy experiment management.

You have three ways to interact with an algorithm. You can use the basic Python API or the command line to train it, or you can use Ray Tune to tune hyperparameters of your reinforcement learning algorithm. The following example shows three equivalent ways of interacting with PPO, which implements the proximal policy optimization algorithm in RLlib.

In [1]:
# Configure.
from ray.rllib.algorithms.ppo import PPOConfig
config = PPOConfig().environment(env="CartPole-v1").training(train_batch_size=4000)

# Build.
algo = config.build()

# Train.
print(algo.train())

`UnifiedLogger` will be removed in Ray 2.7.
  return UnifiedLogger(config, logdir, loggers=None)
The `JsonLogger interface is deprecated in favor of the `ray.tune.json.JsonLoggerCallback` interface and will be removed in Ray 2.7.
  self._loggers.append(cls(self.config, self.logdir, self.trial))
The `CSVLogger interface is deprecated in favor of the `ray.tune.csv.CSVLoggerCallback` interface and will be removed in Ray 2.7.
  self._loggers.append(cls(self.config, self.logdir, self.trial))
The `TBXLogger interface is deprecated in favor of the `ray.tune.tensorboardx.TBXLoggerCallback` interface and will be removed in Ray 2.7.
  self._loggers.append(cls(self.config, self.logdir, self.trial))
2024-05-14 01:08:10,191	INFO worker.py:1740 -- Started a local Ray instance. View the dashboard at [1m[32mhttp://127.0.0.1:8266 [39m[22m
[36m(RolloutWorker pid=29538)[0m   prep = cls(observation_space, options)
[36m(RolloutWorker pid=29538)[0m   self._preprocessor = get_preprocessor(obs_space)(

{'custom_metrics': {}, 'episode_media': {}, 'info': {'learner': {'default_policy': {'learner_stats': {'allreduce_latency': 0.0, 'grad_gnorm': 1.6258137209441073, 'cur_kl_coeff': 0.20000000000000004, 'cur_lr': 5.0000000000000016e-05, 'total_loss': 8.92392743736185, 'policy_loss': -0.04551196624224465, 'vf_loss': 8.963540629417665, 'vf_explained_var': 0.005344951665529641, 'kl': 0.029493994446276976, 'entropy': 0.6646866707391637, 'entropy_coeff': 0.0}, 'model': {}, 'custom_metrics': {}, 'num_agent_steps_trained': 128.0, 'num_grad_updates_lifetime': 465.5, 'diff_num_grad_updates_vs_sampler_policy': 464.5}}, 'num_env_steps_sampled': 4000, 'num_env_steps_trained': 4000, 'num_agent_steps_sampled': 4000, 'num_agent_steps_trained': 4000}, 'sampler_results': {'episode_reward_max': 68.0, 'episode_reward_min': 8.0, 'episode_reward_mean': 22.13888888888889, 'episode_len_mean': 22.13888888888889, 'episode_media': {}, 'episodes_this_iter': 180, 'episodes_timesteps_total': 3985, 'policy_reward_min':

In [2]:
from ray import tune

# Configure.
from ray.rllib.algorithms.ppo import PPOConfig
config = PPOConfig().environment(env="CartPole-v1").training(train_batch_size=4000)

# Train via Ray Tune.
tune.run("PPO", config=config)

2024-05-14 01:10:58,150	INFO tune.py:614 -- [output] This uses the legacy output and progress reporter, as Jupyter notebooks are not supported by the new engine, yet. For more information, please see https://github.com/ray-project/ray/issues/36949
  gym.logger.warn(f"Box bound precision lowered by casting to {self.dtype}")
  logger.warn(
  logger.warn(f"{pre} is not within the observation space.")


0,1
Current time:,2024-05-14 02:19:03
Running for:,01:08:05.22
Memory:,45.7/125.7 GiB

Trial name,status,loc,iter,total time (s),ts,reward,episode_reward_max,episode_reward_min,episode_len_mean
PPO_CartPole-v1_c417a_00000,RUNNING,10.16.20.158:14688,233,4046.46,932000,500,500,500,500


[36m(RolloutWorker pid=22601)[0m   prep = cls(observation_space, options)
[36m(RolloutWorker pid=22612)[0m   self._preprocessor = get_preprocessor(obs_space)(
[36m(PPO pid=14688)[0m Install gputil for GPU system monitoring.
[36m(RolloutWorker pid=22612)[0m   prep = cls(observation_space, options)[32m [repeated 2x across cluster][0m
[36m(PPO pid=14688)[0m   self._preprocessor = get_preprocessor(obs_space)([32m [repeated 2x across cluster][0m


Trial name,agent_timesteps_total,connector_metrics,counters,custom_metrics,env_runner_results,episode_len_mean,episode_media,episode_return_max,episode_return_mean,episode_return_min,episode_reward_max,episode_reward_mean,episode_reward_min,episodes_this_iter,episodes_timesteps_total,info,num_agent_steps_sampled,num_agent_steps_sampled_lifetime,num_agent_steps_trained,num_env_steps_sampled,num_env_steps_sampled_lifetime,num_env_steps_sampled_this_iter,num_env_steps_sampled_throughput_per_sec,num_env_steps_trained,num_env_steps_trained_this_iter,num_env_steps_trained_throughput_per_sec,num_episodes,num_faulty_episodes,num_healthy_workers,num_in_flight_async_reqs,num_remote_worker_restarts,num_steps_trained_this_iter,perf,policy_reward_max,policy_reward_mean,policy_reward_min,sampler_perf,sampler_results,timers
PPO_CartPole-v1_c417a_00000,932000,"{'ObsPreprocessorConnector_ms': 0.007634878158569336, 'StateBufferConnector_ms': 0.006203413009643555, 'ViewRequirementAgentConnector_ms': 0.1953420639038086}","{'num_env_steps_sampled': 932000, 'num_env_steps_trained': 932000, 'num_agent_steps_sampled': 932000, 'num_agent_steps_trained': 932000}",{},"{'episode_reward_max': 500.0, 'episode_reward_min': 500.0, 'episode_reward_mean': 500.0, 'episode_len_mean': 500.0, 'episode_media': {}, 'episodes_this_iter': 8, 'episodes_timesteps_total': 50000, 'policy_reward_min': {}, 'policy_reward_max': {}, 'policy_reward_mean': {}, 'custom_metrics': {}, 'hist_stats': {'episode_reward': [500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0], 'episode_lengths': [500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500]}, 'sampler_perf': {'mean_raw_obs_processing_ms': 0.49166435648845436, 'mean_inference_ms': 1.651658352062041, 'mean_action_processing_ms': 0.1782836203454184, 'mean_env_wait_ms': 0.0872626575807496, 'mean_env_render_ms': 0.0}, 'num_faulty_episodes': 0, 'connector_metrics': {'ObsPreprocessorConnector_ms': 0.007634878158569336, 'StateBufferConnector_ms': 0.006203413009643555, 'ViewRequirementAgentConnector_ms': 0.1953420639038086}, 'num_episodes': 8, 'episode_return_max': 500.0, 'episode_return_min': 500.0, 'episode_return_mean': 500.0}",500,{},500,500,500,500,500,500,8,50000,"{'learner': {'default_policy': {'learner_stats': {'allreduce_latency': 0.0, 'grad_gnorm': 0.3363515140128232, 'cur_kl_coeff': 2.5658541216885077e-50, 'cur_lr': 5.0000000000000016e-05, 'total_loss': 0.015599005921713767, 'policy_loss': 0.01559776635339824, 'vf_loss': 1.239634310613544e-06, 'vf_explained_var': 0.946237575879661, 'kl': 0.004340883451765081, 'entropy': 0.23075114519846054, 'entropy_coeff': 0.0}, 'model': {}, 'custom_metrics': {}, 'num_agent_steps_trained': 128.0, 'num_grad_updates_lifetime': 216225.5, 'diff_num_grad_updates_vs_sampler_policy': 464.5}}, 'num_env_steps_sampled': 932000, 'num_env_steps_trained': 932000, 'num_agent_steps_sampled': 932000, 'num_agent_steps_trained': 932000}",932000,932000,932000,932000,932000,4000,213.203,932000,4000,213.203,8,0,2,0,0,4000,"{'cpu_util_percent': 98.48888888888888, 'ram_util_percent': 36.355555555555554}",{},{},{},"{'mean_raw_obs_processing_ms': 0.49166435648845436, 'mean_inference_ms': 1.651658352062041, 'mean_action_processing_ms': 0.1782836203454184, 'mean_env_wait_ms': 0.0872626575807496, 'mean_env_render_ms': 0.0}","{'episode_reward_max': 500.0, 'episode_reward_min': 500.0, 'episode_reward_mean': 500.0, 'episode_len_mean': 500.0, 'episode_media': {}, 'episodes_this_iter': 8, 'episodes_timesteps_total': 50000, 'policy_reward_min': {}, 'policy_reward_max': {}, 'policy_reward_mean': {}, 'custom_metrics': {}, 'hist_stats': {'episode_reward': [500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0, 500.0], 'episode_lengths': [500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500, 500]}, 'sampler_perf': {'mean_raw_obs_processing_ms': 0.49166435648845436, 'mean_inference_ms': 1.651658352062041, 'mean_action_processing_ms': 0.1782836203454184, 'mean_env_wait_ms': 0.0872626575807496, 'mean_env_render_ms': 0.0}, 'num_faulty_episodes': 0, 'connector_metrics': {'ObsPreprocessorConnector_ms': 0.007634878158569336, 'StateBufferConnector_ms': 0.006203413009643555, 'ViewRequirementAgentConnector_ms': 0.1953420639038086}, 'num_episodes': 8, 'episode_return_max': 500.0, 'episode_return_min': 500.0, 'episode_return_mean': 500.0}","{'training_iteration_time_ms': 18351.297, 'restore_workers_time_ms': 0.023, 'training_step_time_ms': 18351.232, 'sample_time_ms': 5411.947, 'load_time_ms': 0.865, 'load_throughput': 4625900.518, 'learn_time_ms': 12922.23, 'learn_throughput': 309.544, 'synch_weights_time_ms': 14.781}"


You may want to consider increasing the `CheckpointConfig(num_to_keep)` or decreasing the frequency of saving checkpoints.
You can suppress this error by setting the environment variable TUNE_WARN_EXCESSIVE_EXPERIMENT_CHECKPOINT_SYNC_THRESHOLD_S to a smaller value than the current threshold (5.0).
2024-05-14 02:19:03,429	INFO tune.py:1007 -- Wrote the latest version of all result files and experiment state to '/home/jianghaoning/ray_results/PPO_2024-05-14_01-10-58' in 0.0137s.
2024-05-14 02:19:11,354	INFO tune.py:1039 -- Total run time: 4093.20 seconds (4085.21 seconds for the tuning loop).
Resume experiment with: tune.run(..., resume=True)


<ray.tune.analysis.experiment_analysis.ExperimentAnalysis at 0x7f39a324fc50>

RL Modules 是框架特定的神经网络容器：RL Modules 是用于承载神经网络并定义在强化学习中的三个阶段（探索、推断和训练）如何使用它们的容器。它们为神经网络提供了一个统一的封装，以便在不同的强化学习环节中使用。

RL Modules 在强化学习的三个阶段中发挥作用：

探索（Exploration）：在探索阶段，RL Modules 负责定义如何从环境中采样动作，以便代理可以探索环境并收集数据。

推断（Inference）：在推断阶段，RL Modules 负责将观测映射到动作，即根据当前的观测选择合适的动作。

训练（Training）：在训练阶段，RL Modules 负责定义神经网络的训练逻辑，以便通过优化算法来更新神经网络的参数以最大化奖励。

RL Modules 在 RLlib 中的应用：

在 RolloutWorker 中，RL Modules 负责探索和推断逻辑，用于从环境中采样动作，并与环境进行交互。

在 Learner 中，RL Modules 负责训练逻辑，用于训练神经网络参数以最大化累积奖励。

RL Modules 扩展到多智能体情况：在多智能体情况下，一个 MultiAgentRLModule 包含多个 RL Modules，每个 RL Module 可以代表一个智能体的策略。

策略评估过程：在强化学习中，策略评估是指在给定环境和策略的情况下，生成一批经验的过程。这个过程通常被称为“环境交互循环”，因为它涉及到代理与环境进行交互，执行动作并观察结果。

RLlib 中的 RolloutWorker 类：RLlib 提供了 RolloutWorker 类来管理策略评估的过程。RolloutWorker 负责处理与环境的交互，生成经验批次，并在多种情况下处理效率问题，比如使用向量化技术、循环神经网络（RNNs）或在多智能体环境中操作时。

使用 RolloutWorker 生成经验批次：你可以单独使用 RolloutWorker 来生成经验批次。这可以通过在 RolloutWorker 实例上调用 worker.sample() 或在创建为 Ray actors 的 worker 实例上并行调用 worker.sample.remote() 来完成。这样做可以利用并行处理来加速经验采集过程。

In [4]:
import gym
# Setup policy and rollout workers.
env = gym.make("CartPole-v1")
policy = CustomPolicy(env.observation_space, env.action_space, {})
workers = EnvRunnerGroup(
    policy_class=CustomPolicy,
    env_creator=lambda c: gym.make("CartPole-v1"),
    num_env_runners=10)

while True:
    # Gather a batch of samples.
    T1 = SampleBatch.concat_samples(
        ray.get([w.sample.remote() for w in workers.remote_workers()]))

    # Improve the policy using the T1 batch.
    policy.learn_on_batch(T1)

    # The local worker acts as a "parameter server" here.
    # We put the weights of its `policy` into the Ray object store once (`ray.put`)...
    weights = ray.put({"default_policy": policy.get_weights()})
    for w in workers.remote_workers():
        # ... so that we can broacast these weights to all rollout-workers once.
        w.set_weights.remote(weights)

  deprecation(
  deprecation(


NameError: name 'CustomPolicy' is not defined

Sample Batches

RLlib 中数据如何以样本批次的形式进行交换，并描述了典型的样本批次的结构和组成方式。

数据交换形式：在 RLlib 中，无论是在单个进程中还是在一个大型集群中运行，所有数据都以样本批次的形式进行交换。这意味着数据被组织成一批一批的样本，用于训练强化学习模型。

样本批次的组成：样本批次编码了轨迹的一个或多个片段。在强化学习中，轨迹是指代理与环境交互过程中所经历的状态、动作、奖励等序列。样本批次中包含了这些轨迹片段的数据。

典型的样本批次结构：一般来说，RLlib 从 rollout workers 收集大小为 rollout_fragment_length 的批次，并将其中的一个或多个批次串联起来形成大小为 train_batch_size 的批次，这个批次作为随机梯度下降（SGD）的输入。

样本批次的结构：典型的样本批次通常由一系列数组组成，这些数组分别代表了轨迹片段中的状态、动作、奖励等数据。由于所有值都被保存在数组中，这使得数据在网络间的编码和传输变得更加高效

In [8]:
import numpy as np
sample_batch = { 'action_logp': np.ndarray((200,), dtype=float32, min=-0.701, max=-0.685, mean=-0.694),
    'actions': np.ndarray((200,), dtype=int64, min=0.0, max=1.0, mean=0.495),
    'dones': np.ndarray((200,), dtype=bool, min=0.0, max=1.0, mean=0.055),
    'infos': np.ndarray((200,), dtype=object, head={}),
    'new_obs': np.ndarray((200, 4), dtype=float32, min=-2.46, max=2.259, mean=0.018),
    'obs': np.ndarray((200, 4), dtype=float32, min=-2.46, max=2.259, mean=0.016),
    'rewards': np.ndarray((200,), dtype=float32, min=1.0, max=1.0, mean=1.0),
    't': np.ndarray((200,), dtype=int64, min=0.0, max=34.0, mean=9.14)
}

TypeError: 'min' is an invalid keyword argument for ndarray()

training_step() 方法的作用：training_step() 方法是 Algorithm 类中定义的核心执行逻辑，它在任何算法中都起着重要作用。可以将其视为算法伪代码在 Python 中的实现。通过重写 training_step() 方法，开发者可以自定义算法的行为，包括从环境中收集样本数据、将数据传输到算法的其他部分以及更新和管理策略权重等。

training_step() 方法的调用时机：training_step() 方法会在以下情况下被调用：

当用户手动调用 Algorithm 的 train() 方法时，例如，由已构建的 Algorithm 实例调用。

当 RLlib 算法由 Ray Tune 运行时，training_step() 方法将被持续调用，直到满足 Ray Tune 的停止条件。

关键子概念：接下来，通过以 VPG（"vanilla policy gradient"）为例，说明如何使用 training_step() 方法来实现该算法。VPG 算法可以被视为一系列重复步骤或数据流，包括：

采样（从环境中收集数据）

更新策略（学习行为）

广播更新的策略权重（确保所有分布式单元再次具有相同的权重）

报告指标（返回有关性能和运行时的相关统计信息）

In [None]:
def training_step(self) -> ResultDict:
    # 1. Sampling.
    train_batch = synchronous_parallel_sample(
                    worker_set=self.workers,
                    max_env_steps=self.config["train_batch_size"]
                )

    # 2. Updating the Policy.
    train_results = train_one_step(self, train_batch)

    # 3. Synchronize worker weights.
    self.workers.sync_weights()

    # 4. Return results.
    return train_results

In [None]:
train_batch = synchronous_parallel_sample(
                    worker_set=self.workers,
                    max_env_steps=self.config["train_batch_size"]
                ) 

In [None]:
train_results = train_one_step(self, train_batch) # Update the policy.

In [None]:
self.workers.sync_weights()

Sample Batch（样本批次）：在 RLlib 中，用于存储轨迹数据的两种类型是 SampleBatch 和 MultiAgentBatch。所有的 RLlib 抽象（如策略、回放缓冲区等）都是基于这两种类型进行操作的。SampleBatch 用于存储单个智能体的轨迹数据，而 MultiAgentBatch 则用于存储多智能体环境下的轨迹数据。

Rollout Workers（回放工作者）：回放工作者是一个抽象概念，它封装了一个策略（或者在多智能体情况下可能是多个策略）和一个环境。从高层次来看，我们可以使用回放工作者通过调用其 sample() 方法来从环境中收集经验，也可以通过调用其 learn_on_batch() 方法来训练策略。在 RLlib 中，默认情况下，我们会创建一组用于采样和训练的回放工作者。当创建 RLlib 算法时，会调用 setup 方法，其中会创建一个 EnvRunnerGroup 对象。如果在实验配置中设置了 num_env_runners > 0，EnvRunnerGroup 将具有 local_worker 和 remote_workers。在 RLlib 中，通常我们使用 local_worker 进行训练，而使用 remote_workers 进行采样。

Train Ops（训练操作）：这些是用于改进策略并更新工作者的方法。最基本的操作符是 train_one_step，它接受一批经验作为输入，并输出一个包含度量的 ResultDict。对于使用 GPU 进行训练的情况，可以使用 multi_gpu_train_one_step。这些方法使用回放工作者的 learn_on_batch 方法来完成训练更新。

Replay Buffers（回放缓冲区）：RLlib 提供了一系列用于存储和采样经验的回放缓冲区。回放缓冲区是一种用于存储先前观察到的经验，并且可以从中随机采样以进行训练的数据结构。