migooll · migooll · Apr 25, 2022 · Apr 25, 2022
diff --git a/experiments/gp_rc/gp_rc_cartpole.yaml b/experiments/gp_rc/gp_rc_cartpole.yaml
@@ -1,18 +1,14 @@
-cartpole_config:
+task_config:
   info_in_reset: True
   ctrl_freq: 50
   pyb_freq: 50
   gui: False
-  normalized_rl_action_space: False
   episode_len_sec: 5
   # State initialization
   init_state: null
   randomized_init: True
   init_state_randomization_info: null
-  # Randomization
-  inertial_prop: null
-  randomized_inertial_prop: False
-  inertial_prop_randomization_info: null
+
   # Task 
   task: stabilization
   task_info: null
@@ -22,19 +18,23 @@ cartpole_config:
     dynamics:
       - disturbance_func: white_noise
         std: 0.01
-  adversary_disturbance: null 
-  adversary_disturbance_offset: 0.0
-  adversary_disturbance_scale: 0.01
-  # Constraints
-  constraints: null
-  done_on_violation: False
-  use_constraint_penalty: False 
-  constraint_penalty: -1 
   # Misc 
   verbose: False
-  # RL Hyper-parameters
-  obs_wrap_angle: False
-  rew_state_weight: 1.0
-  rew_act_weight: 0.0001
-  rew_exponential: True
-  done_on_out_of_bound: True
+
+
+algo_config:
+  q: [1]
+  r: [0.1]
+  # GP training args
+  train_samples: 500
+  validation_samples: 200
+  train_iterations: [1000]
+  learning_rate: [0.1]
+
+  #H2 optimization args
+  step_size: 0.1
+  max_optim_tries: 100
+
+  # Runner args
+  deque_size: 10
+  eval_batch_size: 1
diff --git a/experiments/gp_rc/gp_rc_experiment.py b/experiments/gp_rc/gp_rc_experiment.py
@@ -33,8 +33,6 @@ def train(config):
     # Create the controller/control_agent.
     control_agent = make(config.algo,
                          env_func,
-                         training=True,
-                         checkpoint_path=os.path.join(config.output_dir, "model_latest.pt"),
                          output_dir=config.output_dir,
                          device=config.device,
                          seed=config.seed,
@@ -86,7 +84,6 @@ def test_policy(config):
     # Create the controller/control_agent.
     control_agent = make(config.algo,
                          env_func,
-                         training=False,
                          checkpoint_path=os.path.join(config.output_dir, "model_latest.pt"),
                          output_dir=config.output_dir,
                          device=config.device,