Simplify total_episode_reward_logger (#635)

* [pickable] Simplify total_episode_reward_logger * Update changelog * [ci skip] Update version * Update version number Co-authored-by: Antonin RAFFIN <antonin.raffin@ensta.org>
Stable-Baselines-Team · Dec 30, 2019 · 6bdb7ce · 6bdb7ce
1 parent 98e9ee9
commit 6bdb7ce
Show file tree

Hide file tree

Showing 14 changed files with 58 additions and 39 deletions.
diff --git a/docs/misc/changelog.rst b/docs/misc/changelog.rst
@@ -6,6 +6,29 @@ Changelog
 For download links, please look at `Github release page <https://github.com/hill-a/stable-baselines/releases>`_.
 
 
+Pre-Release 2.10.0a0 (WIP)
+--------------------------
+
+Breaking Changes:
+^^^^^^^^^^^^^^^^^
+
+New Features:
+^^^^^^^^^^^^^
+
+Bug Fixes:
+^^^^^^^^^^
+
+Deprecations:
+^^^^^^^^^^^^^
+
+Others:
+^^^^^^^
+- Removed redundant return value from `a2c.utils::total_episode_reward_logger`. (@shwang)
+
+Documentation:
+^^^^^^^^^^^^^^
+
+
 Release 2.9.0 (2019-12-20)
 --------------------------
 

diff --git a/setup.py b/setup.py
@@ -146,7 +146,7 @@
       license="MIT",
       long_description=long_description,
       long_description_content_type='text/markdown',
-      version="2.9.0",
+      version="2.10.0a0",
       )
 
 # python setup.py sdist

diff --git a/stable_baselines/__init__.py b/stable_baselines/__init__.py
@@ -20,4 +20,4 @@
     from stable_baselines.trpo_mpi import TRPO
 del mpi4py
 
-__version__ = "2.9.0"
+__version__ = "2.10.0a0"
diff --git a/stable_baselines/a2c/a2c.py b/stable_baselines/a2c/a2c.py
@@ -251,10 +251,10 @@ def learn(self, total_timesteps, callback=None, log_interval=100, tb_log_name="A
                 fps = int((update * self.n_batch) / n_seconds)
 
                 if writer is not None:
-                    self.episode_reward = total_episode_reward_logger(self.episode_reward,
-                                                                      true_reward.reshape((self.n_envs, self.n_steps)),
-                                                                      masks.reshape((self.n_envs, self.n_steps)),
-                                                                      writer, self.num_timesteps)
+                    total_episode_reward_logger(self.episode_reward,
+                                                true_reward.reshape((self.n_envs, self.n_steps)),
+                                                masks.reshape((self.n_envs, self.n_steps)),
+                                                writer, self.num_timesteps)
 
                 self.num_timesteps += self.n_batch
 

diff --git a/stable_baselines/a2c/utils.py b/stable_baselines/a2c/utils.py
@@ -567,8 +567,6 @@ def total_episode_reward_logger(rew_acc, rewards, masks, writer, steps):
     :param masks: (np.array bool) the end of episodes
     :param writer: (TensorFlow Session.writer) the writer to log to
     :param steps: (int) the current timestep
-    :return: (np.array float) the updated total running reward
-    :return: (np.array float) the updated total running reward
     """
     with tf.variable_scope("environment_info", reuse=True):
         for env_idx in range(rewards.shape[0]):
@@ -585,5 +583,3 @@ def total_episode_reward_logger(rew_acc, rewards, masks, writer, steps):
                     summary = tf.Summary(value=[tf.Summary.Value(tag="episode_reward", simple_value=rew_acc[env_idx])])
                     writer.add_summary(summary, steps + dones_idx[k, 0])
                 rew_acc[env_idx] = sum(rewards[env_idx, dones_idx[-1, 0]:])
-
-    return rew_acc
diff --git a/stable_baselines/acer/acer_simple.py b/stable_baselines/acer/acer_simple.py
@@ -505,10 +505,10 @@ def learn(self, total_timesteps, callback=None, log_interval=100, tb_log_name="A
                     buffer.put(enc_obs, actions, rewards, mus, dones, masks)
 
                 if writer is not None:
-                    self.episode_reward = total_episode_reward_logger(self.episode_reward,
-                                                                      rewards.reshape((self.n_envs, self.n_steps)),
-                                                                      dones.reshape((self.n_envs, self.n_steps)),
-                                                                      writer, self.num_timesteps)
+                    total_episode_reward_logger(self.episode_reward,
+                                                rewards.reshape((self.n_envs, self.n_steps)),
+                                                dones.reshape((self.n_envs, self.n_steps)),
+                                                writer, self.num_timesteps)
 
                 # reshape stuff correctly
                 obs = obs.reshape(runner.batch_ob_shape)

diff --git a/stable_baselines/acktr/acktr.py b/stable_baselines/acktr/acktr.py
@@ -354,10 +354,10 @@ def learn(self, total_timesteps, callback=None, log_interval=100, tb_log_name="A
                 fps = int((update * self.n_batch) / n_seconds)
 
                 if writer is not None:
-                    self.episode_reward = total_episode_reward_logger(self.episode_reward,
-                                                                      true_reward.reshape((self.n_envs, self.n_steps)),
-                                                                      masks.reshape((self.n_envs, self.n_steps)),
-                                                                      writer, self.num_timesteps)
+                    total_episode_reward_logger(self.episode_reward,
+                                                true_reward.reshape((self.n_envs, self.n_steps)),
+                                                masks.reshape((self.n_envs, self.n_steps)),
+                                                writer, self.num_timesteps)
 
                 if callback is not None:
                     # Only stop training if return value is False, not when it is None. This is for backwards

diff --git a/stable_baselines/ddpg/ddpg.py b/stable_baselines/ddpg/ddpg.py
@@ -885,8 +885,8 @@ def learn(self, total_timesteps, callback=None, log_interval=100, tb_log_name="D
                             if writer is not None:
                                 ep_rew = np.array([reward]).reshape((1, -1))
                                 ep_done = np.array([done]).reshape((1, -1))
-                                self.episode_reward = total_episode_reward_logger(self.episode_reward, ep_rew, ep_done,
-                                                                                  writer, self.num_timesteps)
+                                total_episode_reward_logger(self.episode_reward, ep_rew, ep_done,
+                                                            writer, self.num_timesteps)
                             step += 1
                             total_steps += 1
                             self.num_timesteps += 1

diff --git a/stable_baselines/deepq/dqn.py b/stable_baselines/deepq/dqn.py
@@ -224,8 +224,8 @@ def learn(self, total_timesteps, callback=None, log_interval=100, tb_log_name="D
                 if writer is not None:
                     ep_rew = np.array([rew]).reshape((1, -1))
                     ep_done = np.array([done]).reshape((1, -1))
-                    self.episode_reward = total_episode_reward_logger(self.episode_reward, ep_rew, ep_done, writer,
-                                                                      self.num_timesteps)
+                    total_episode_reward_logger(self.episode_reward, ep_rew, ep_done, writer,
+                                                self.num_timesteps)
 
                 episode_rewards[-1] += rew
                 if done:

diff --git a/stable_baselines/ppo1/pposgd_simple.py b/stable_baselines/ppo1/pposgd_simple.py
@@ -250,10 +250,10 @@ def learn(self, total_timesteps, callback=None, log_interval=100, tb_log_name="P
 
                     # true_rew is the reward without discount
                     if writer is not None:
-                        self.episode_reward = total_episode_reward_logger(self.episode_reward,
-                                                                          seg["true_rewards"].reshape((self.n_envs, -1)),
-                                                                          seg["dones"].reshape((self.n_envs, -1)),
-                                                                          writer, self.num_timesteps)
+                        total_episode_reward_logger(self.episode_reward,
+                                                    seg["true_rewards"].reshape((self.n_envs, -1)),
+                                                    seg["dones"].reshape((self.n_envs, -1)),
+                                                    writer, self.num_timesteps)
 
                     # predicted value function before udpate
                     vpredbefore = seg["vpred"]

diff --git a/stable_baselines/ppo2/ppo2.py b/stable_baselines/ppo2/ppo2.py
@@ -378,10 +378,10 @@ def learn(self, total_timesteps, callback=None, log_interval=1, tb_log_name="PPO
                 fps = int(self.n_batch / (t_now - t_start))
 
                 if writer is not None:
-                    self.episode_reward = total_episode_reward_logger(self.episode_reward,
-                                                                      true_reward.reshape((self.n_envs, self.n_steps)),
-                                                                      masks.reshape((self.n_envs, self.n_steps)),
-                                                                      writer, self.num_timesteps)
+                    total_episode_reward_logger(self.episode_reward,
+                                                true_reward.reshape((self.n_envs, self.n_steps)),
+                                                masks.reshape((self.n_envs, self.n_steps)),
+                                                writer, self.num_timesteps)
 
                 if self.verbose >= 1 and (update % log_interval == 0 or update == 1):
                     explained_var = explained_variance(values, returns)

diff --git a/stable_baselines/sac/sac.py b/stable_baselines/sac/sac.py
@@ -437,8 +437,8 @@ def learn(self, total_timesteps, callback=None,
                     # Write reward per episode to tensorboard
                     ep_reward = np.array([reward]).reshape((1, -1))
                     ep_done = np.array([done]).reshape((1, -1))
-                    self.episode_reward = total_episode_reward_logger(self.episode_reward, ep_reward,
-                                                                      ep_done, writer, self.num_timesteps)
+                    total_episode_reward_logger(self.episode_reward, ep_reward,
+                                                ep_done, writer, self.num_timesteps)
 
                 if step % self.train_freq == 0:
                     mb_infos_vals = []

diff --git a/stable_baselines/td3/td3.py b/stable_baselines/td3/td3.py
@@ -348,8 +348,8 @@ def learn(self, total_timesteps, callback=None,
                     # Write reward per episode to tensorboard
                     ep_reward = np.array([reward]).reshape((1, -1))
                     ep_done = np.array([done]).reshape((1, -1))
-                    self.episode_reward = total_episode_reward_logger(self.episode_reward, ep_reward,
-                                                                      ep_done, writer, self.num_timesteps)
+                    total_episode_reward_logger(self.episode_reward, ep_reward,
+                                                ep_done, writer, self.num_timesteps)
 
                 if step % self.train_freq == 0:
                     mb_infos_vals = []

diff --git a/stable_baselines/trpo_mpi/trpo_mpi.py b/stable_baselines/trpo_mpi/trpo_mpi.py
@@ -340,11 +340,11 @@ def fisher_vector_product(vec):
 
                         # true_rew is the reward without discount
                         if writer is not None:
-                            self.episode_reward = total_episode_reward_logger(self.episode_reward,
-                                                                              seg["true_rewards"].reshape(
-                                                                                  (self.n_envs, -1)),
-                                                                              seg["dones"].reshape((self.n_envs, -1)),
-                                                                              writer, self.num_timesteps)
+                            total_episode_reward_logger(self.episode_reward,
+                                                        seg["true_rewards"].reshape(
+                                                            (self.n_envs, -1)),
+                                                        seg["dones"].reshape((self.n_envs, -1)),
+                                                        writer, self.num_timesteps)
 
                         args = seg["observations"], seg["observations"], seg["actions"], atarg
                         # Subsampling: see p40-42 of John Schulman thesis