items optimiser load

sintefneodroid · Aug 6, 2020 · d858b10 · d858b10
1 parent 220f3bd
commit d858b10
Show file tree

Hide file tree

Showing 4 changed files with 25 additions and 20 deletions.
diff --git a/neodroidagent/agents/torch_agents/model_free/off_policy/dqn_agent.py b/neodroidagent/agents/torch_agents/model_free/off_policy/dqn_agent.py
@@ -222,16 +222,18 @@ def _remember(self, *, signal, terminated, transition):
 @param terminated:
 @return:
 """
-
-        a = [TransitionPoint(*s) for s in zip(*transition, signal, terminated)]
-        if self._use_per:
-            with torch.no_grad():
-                td_error, *_ = self._td_error(zip(*a))
-                for a_, e_ in zip(a, td_error.detach().squeeze(-1).cpu().numpy()):
-                    self._memory_buffer.add_transition_point(a_, e_)
+        if transition:
+            a = [TransitionPoint(*s) for s in zip(*transition, signal, terminated)]
+            if self._use_per:
+                with torch.no_grad():
+                    td_error, *_ = self._td_error(zip(*a))
+                    for a_, e_ in zip(a, td_error.detach().squeeze(-1).cpu().numpy()):
+                        self._memory_buffer.add_transition_point(a_, e_)
+            else:
+                for a_ in a:
+                    self._memory_buffer.add_transition_point(a_)
         else:
-            for a_ in a:
-                self._memory_buffer.add_transition_point(a_)
+            raise ValueError('Missing transition')
 
     @drop_unused_kws
     def _sample_model(self, state: Any) -> numpy.ndarray:

diff --git a/neodroidagent/agents/torch_agents/torch_agent.py b/neodroidagent/agents/torch_agents/torch_agent.py
@@ -71,6 +71,7 @@ def post_process_gradients(self, parameters: Iterable[Parameter]) -> None:
 
 @param model:
 @return:
+        :param parameters:
 """
         if self._gradient_clipping.enabled:
             for params in parameters:
@@ -113,6 +114,7 @@ def build(
 @param print_model_repr:
 @param kwargs:
 @return:
+        :param verbose:
 """
         super().build(
             observation_space,
@@ -204,9 +206,9 @@ def load(self, *, save_directory: Path, evaluation: bool = False) -> bool:
 """
         loaded = True
         if save_directory.exists():
-            print("Loading models froms: " + str(save_directory))
+            print(f"Loading models from: {str(save_directory)}")
             for (model_key, model), (optimiser_key, optimiser) in zip(
-                self.models.items(), self.optimisers.values()
+                self.models.items(), self.optimisers.items()
             ):
                 model_identifier = self.model_name(model_key, model)
                 (model, optimiser), loaded = load_latest_model_parameters(
@@ -217,7 +219,7 @@ def load(self, *, save_directory: Path, evaluation: bool = False) -> bool:
                 )
                 if loaded:
                     model = model.to(self._device)
-                    optimiser = optimiser.to(self._device)
+                    #optimiser = optimiser.to(self._device)
                     if evaluation:
                         model = model.eval()
                         model.train(False)  # Redundant

diff --git a/neodroidagent/common/session_factory/vertical/procedures/training/off_policy_episodic.py b/neodroidagent/common/session_factory/vertical/procedures/training/off_policy_episodic.py
@@ -91,13 +91,14 @@ def rollout_off_policy(
 
         state = successor_state
 
-    if use_episodic_buffer:
-        t = TransitionPoint(*zip(*episode_buffer))
-        agent.remember(
-            signal=t.signal,
-            terminated=t.terminal,
-            transition=Transition(t.state, t.action, t.successor_state),
-        )
+    if train_agent:
+        if use_episodic_buffer:
+            t = TransitionPoint(*zip(*episode_buffer))
+            agent.remember(
+                signal=t.signal,
+                terminated=t.terminal,
+                transition=Transition(t.state, t.action, t.successor_state),
+            )
 
     if step_i > 0:
         if train_agent:

diff --git a/neodroidagent/entry_points/cli.py b/neodroidagent/entry_points/cli.py
@@ -49,7 +49,7 @@ def train(self, **overrides) -> None:
         self.agent_callable(config=default_config)
 
     def run(self):
-        pass
+        self.train(train_agent=False,render_frequency=1,save=False)
 
 
 class NeodroidAgentCLI: