Merge pull request #2 from Aladoro/main

Simple modular configuration refactoring
facebookresearch · Sep 7, 2021 · c2eab01 · c2eab01
2 parents 568340c + ccb9a4d
commit c2eab01
Show file tree

Hide file tree

Showing 29 changed files with 156 additions and 12 deletions.
diff --git a/config.yaml → cfgs/config.yaml b/config.yaml → cfgs/config.yaml
@@ -1,13 +1,13 @@
 defaults:
+  - _self_
+  - task@_global_: quadruped_walk
   - override hydra/launcher: submitit_local
 
 # task settings
-task: quadruped_walk
 frame_stack: 3
 action_repeat: 2
 discount: 0.99
 # train settings
-num_train_frames: 1000000
 num_seed_frames: 4000
 # eval
 eval_every_frames: 10000
@@ -24,30 +24,33 @@ seed: 1
 device: cuda
 save_video: true
 save_train_video: false
-use_tb: false
+use_tb: true
 # experiment
 experiment: exp
+# agent
+lr: 1e-4
+feature_dim: 50
 
 agent:
   _target_: drqv2.DrQV2Agent
   obs_shape: ??? # to be specified later
   action_shape: ??? # to be specified later
   device: ${device}
-  lr: 1e-4
+  lr: ${lr}
   critic_target_tau: 0.01
   update_every_steps: 2
   use_tb: ${use_tb}
   num_expl_steps: 2000
   hidden_dim: 1024
-  feature_dim: 50
-  stddev_schedule: 'linear(1.0,0.1,500000)'
+  feature_dim: ${feature_dim}
+  stddev_schedule: ${stddev_schedule}
   stddev_clip: 0.3
 
 hydra:
   run:
     dir: ./exp_local/${now:%Y.%m.%d}/${now:%H%M%S}_${hydra.job.override_dirname}
   sweep:
-    dir: ./exp/${now:%Y.%m.%d}/${now:%H%M}_${experiment}
+    dir: ./exp/${now:%Y.%m.%d}/${now:%H%M}_${agent_cfg.experiment}
     subdir: ${hydra.job.num}
   launcher:
     timeout_min: 4300
@@ -56,4 +59,4 @@ hydra:
     tasks_per_node: 1
     mem_gb: 160
     nodes: 1
-    submitit_folder: ./exp/${now:%Y.%m.%d}/${now:%H%M%S}_${experiment}/.slurm
+    submitit_folder: ./exp/${now:%Y.%m.%d}/${now:%H%M%S}_${agent_cfg.experiment}/.slurm
diff --git a/cfgs/task/acrobot_swingup.yaml b/cfgs/task/acrobot_swingup.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: acrobot_swingup
diff --git a/cfgs/task/cartpole_balance.yaml b/cfgs/task/cartpole_balance.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - easy
+  - _self_
+
+task_name: cartpole_balance
diff --git a/cfgs/task/cartpole_balance_sparse.yaml b/cfgs/task/cartpole_balance_sparse.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - easy
+  - _self_
+
+task_name: cartpole_balance_sparse
diff --git a/cfgs/task/cartpole_swingup.yaml b/cfgs/task/cartpole_swingup.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - easy
+  - _self_
+
+task_name: cartpole_swingup
diff --git a/cfgs/task/cartpole_swingup_sparse.yaml b/cfgs/task/cartpole_swingup_sparse.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: cartpole_swingup_sparse
diff --git a/cfgs/task/cheetah_run.yaml b/cfgs/task/cheetah_run.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: cheetah_run
diff --git a/cfgs/task/cup_catch.yaml b/cfgs/task/cup_catch.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - easy
+  - _self_
+
+task_name: cup_catch
diff --git a/cfgs/task/easy.yaml b/cfgs/task/easy.yaml
@@ -0,0 +1,2 @@
+num_train_frames: 1100000
+stddev_schedule: 'linear(1.0,0.1,100000)'
diff --git a/cfgs/task/finger_spin.yaml b/cfgs/task/finger_spin.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - easy
+  - _self_
+
+task_name: finger_spin
diff --git a/cfgs/task/finger_turn_easy.yaml b/cfgs/task/finger_turn_easy.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: finger_turn_easy
diff --git a/cfgs/task/finger_turn_hard.yaml b/cfgs/task/finger_turn_hard.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: finger_turn_hard
diff --git a/cfgs/task/hard.yaml b/cfgs/task/hard.yaml
@@ -0,0 +1,2 @@
+num_train_frames: 30100000
+stddev_schedule: 'linear(1.0,0.1,2000000)'
diff --git a/cfgs/task/hopper_hop.yaml b/cfgs/task/hopper_hop.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: hopper_hop
diff --git a/cfgs/task/hopper_stand.yaml b/cfgs/task/hopper_stand.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - easy
+  - _self_
+
+task_name: hopper_stand
diff --git a/cfgs/task/humanoid_run.yaml b/cfgs/task/humanoid_run.yaml
@@ -0,0 +1,7 @@
+defaults:
+  - hard
+  - _self_
+
+task_name: humanoid_run
+lr: 8e-5
+feature_dim: 100
diff --git a/cfgs/task/humanoid_stand.yaml b/cfgs/task/humanoid_stand.yaml
@@ -0,0 +1,7 @@
+defaults:
+  - hard
+  - _self_
+
+task_name: humanoid_stand
+lr: 8e-5
+feature_dim: 100
diff --git a/cfgs/task/humanoid_walk.yaml b/cfgs/task/humanoid_walk.yaml
@@ -0,0 +1,7 @@
+defaults:
+  - hard
+  - _self_
+
+task_name: humanoid_walk
+lr: 8e-5
+feature_dim: 100
diff --git a/cfgs/task/medium.yaml b/cfgs/task/medium.yaml
@@ -0,0 +1,2 @@
+num_train_frames: 3100000
+stddev_schedule: 'linear(1.0,0.1,500000)'
diff --git a/cfgs/task/pendulum_swingup.yaml b/cfgs/task/pendulum_swingup.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - easy
+  - _self_
+
+task_name: pendulum_swingup
diff --git a/cfgs/task/quadruped_run.yaml b/cfgs/task/quadruped_run.yaml
@@ -0,0 +1,6 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: quadruped_run
+replay_buffer_size: 100000
diff --git a/cfgs/task/quadruped_walk.yaml b/cfgs/task/quadruped_walk.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: quadruped_walk
diff --git a/cfgs/task/reach_duplo.yaml b/cfgs/task/reach_duplo.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: reach_duplo
diff --git a/cfgs/task/reacher_easy.yaml b/cfgs/task/reacher_easy.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: reacher_easy
diff --git a/cfgs/task/reacher_hard.yaml b/cfgs/task/reacher_hard.yaml
@@ -0,0 +1,5 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: reacher_hard
diff --git a/cfgs/task/walker_run.yaml b/cfgs/task/walker_run.yaml
@@ -0,0 +1,7 @@
+defaults:
+  - medium
+  - _self_
+
+task_name: walker_run
+nstep: 1
+batch_size: 512
diff --git a/cfgs/task/walker_stand.yaml b/cfgs/task/walker_stand.yaml
@@ -0,0 +1,7 @@
+defaults:
+  - easy
+  - _self_
+
+task_name: walker_stand
+nstep: 1
+batch_size: 512
diff --git a/cfgs/task/walker_walk.yaml b/cfgs/task/walker_walk.yaml
@@ -0,0 +1,7 @@
+defaults:
+  - easy
+  - _self_
+
+task_name: walker_walk
+nstep: 1
+batch_size: 512
diff --git a/train.py b/train.py
@@ -42,7 +42,8 @@ def __init__(self, cfg):
         self.setup()
 
         self.agent = make_agent(self.train_env.observation_spec(),
-                                self.train_env.action_spec(), cfg.agent)
+                                self.train_env.action_spec(),
+                                self.cfg.agent)
         self.timer = utils.Timer()
         self._global_step = 0
         self._global_episode = 0
@@ -51,9 +52,9 @@ def setup(self):
         # create logger
         self.logger = Logger(self.work_dir, use_tb=self.cfg.use_tb)
         # create envs
-        self.train_env = dmc.make(self.cfg.task, self.cfg.frame_stack,
+        self.train_env = dmc.make(self.cfg.task_name, self.cfg.frame_stack,
                                   self.cfg.action_repeat, self.cfg.seed)
-        self.eval_env = dmc.make(self.cfg.task, self.cfg.frame_stack,
+        self.eval_env = dmc.make(self.cfg.task_name, self.cfg.frame_stack,
                                  self.cfg.action_repeat, self.cfg.seed)
         # create replay buffer
         data_specs = (self.train_env.observation_spec(),
@@ -75,6 +76,7 @@ def setup(self):
         self.train_video_recorder = TrainVideoRecorder(
             self.work_dir if self.cfg.save_train_video else None)
 
+
     @property
     def global_step(self):
         return self._global_step
@@ -202,7 +204,7 @@ def load_snapshot(self):
             self.__dict__[k] = v
 
 
-@hydra.main(config_path='.', config_name='config')
+@hydra.main(config_path='cfgs', config_name='config')
 def main(cfg):
     from train import Workspace as W
     root_dir = Path.cwd()