From 4c4216802316bae80852df55998fddb87e71e2d3 Mon Sep 17 00:00:00 2001
From: Deric Pang <dericp@cs.washington.edu>
Date: Thu, 6 Sep 2018 17:13:38 -0700
Subject: [PATCH] Fix bug when academy max steps is set to nonzero value.

---
 ml-agents/mlagents/trainers/trainer_controller.py | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/ml-agents/mlagents/trainers/trainer_controller.py b/ml-agents/mlagents/trainers/trainer_controller.py
index be53dcee89..b4d2e4f854 100644
--- a/ml-agents/mlagents/trainers/trainer_controller.py
+++ b/ml-agents/mlagents/trainers/trainer_controller.py
@@ -336,14 +336,17 @@ def start_learning(self):
                     # If any lessons were incremented or the environment is
                     # ready to be reset
                     if (self.meta_curriculum
-                            and any(lessons_incremented.values())
-                        or self.env.global_done):
+                            and any(lessons_incremented.values())):
                         curr_info = self._reset_env()
                         for brain_name, trainer in self.trainers.items():
                             trainer.end_episode()
                         for brain_name, changed in lessons_incremented.items():
                             if changed:
                                 self.trainers[brain_name].reward_buffer.clear()
+                    elif self.env.global_done:
+                        curr_info = self._reset_env()
+                        for brain_name, trainer in self.trainers.items():
+                            trainer.end_episode()
 
                     # Decide and take an action
                     take_action_vector, \