rlworkgroup · ryanjulian · Jun 25, 2019 · Jun 23, 2019 · Jun 25, 2019
@@ -39,7 +39,7 @@ def run_task(v):
             baseline=baseline,
             max_path_length=100,
             discount=0.99,
-            step_size=v['step_size'],
+            max_kl_step=v['step_size'],
         )
 
         runner.setup(algo=algo, env=env)

@@ -40,7 +40,7 @@ def run_task(vv):
             baseline=baseline,
             max_path_length=100,
             discount=0.99,
-            step_size=vv['step_size'],
+            max_kl_step=vv['step_size'],
         )
 
         runner.setup(algo=algo, env=env)

@@ -22,7 +22,7 @@ def run_task(*_):
             baseline=baseline,
             max_path_length=500,
             discount=0.99,
-            step_size=0.01)
+            max_kl_step=0.01)
 
         runner.setup(algo, env)
         runner.train(n_epochs=40, batch_size=4000)

@@ -133,6 +133,12 @@ def eval(x):
 
         return eval
 
+    def __getstate__(self):
+        """Object.__getstate__."""
+        new_dict = self.__dict__.copy()
+        del new_dict['opt_fun']
+        return new_dict
+
 
 class ConjugateGradientOptimizer(Serializable):
     """Performs constrained optimization via line search.

@@ -6,6 +6,7 @@
 
 from garage.envs import normalize
 from garage.experiment import LocalRunner
+from garage.experiment import snapshotter
 from garage.np.baselines import LinearFeatureBaseline
 from garage.tf.algos import TRPO
 from garage.tf.envs import TfEnv
@@ -35,6 +36,7 @@ def test_trpo_lstm_cartpole(self):
                 optimizer_args=dict(
                     hvp_approach=FiniteDifferenceHvp(base_eps=1e-5)))
 
+            snapshotter.snapshot_dir = './'
             runner.setup(algo, env)
             last_avg_ret = runner.train(n_epochs=10, batch_size=2048)
             assert last_avg_ret > 80