Tutorial Fixes

1. `time_step` needs to be reset after each episode. 2. `next_time_step` should be `time_step` for collecting rewards.
tensorflow · Aug 28, 2019 · 7044707 · 7044707
1 parent a614c5b
commit 7044707
Showing 1 changed file with 2 additions and 1 deletion.
diff --git a/tf_agents/colabs/2_environments_tutorial.ipynb b/tf_agents/colabs/2_environments_tutorial.ipynb
@@ -708,9 +708,10 @@
         "    action = tf.random_uniform([1], 0, 2, dtype=tf.int32)\n",
         "    time_step = tf_env.step(action)\n",
         "    episode_steps += 1\n",
-        "    episode_reward += next_time_step.reward.numpy()\n",
+        "    episode_reward += time_step.reward.numpy()\n",
         "  rewards.append(episode_reward)\n",
         "  steps.append(episode_steps)\n",
+        "  time_step = tf_env.reset()\n",
         "\n",
         "num_steps = np.sum(steps)\n",
         "avg_length = np.mean(steps)\n",