[RLlib] Issue 20920 (partial solution): contrib/MADDPG + pettingzoo c…

…oop-pong-v4 not working. (#21452)
ray-project · Jan 10, 2022 · b10d553 · b10d553
1 parent f8244a4
commit b10d553
Show file tree

Hide file tree

Showing 20 changed files with 23 additions and 3 deletions.
diff --git a/rllib/agents/a3c/a3c.py b/rllib/agents/a3c/a3c.py
@@ -57,6 +57,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(Trainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["entropy_coeff"] < 0:

diff --git a/rllib/agents/ars/ars.py b/rllib/agents/ars/ars.py
@@ -210,6 +210,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(Trainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["num_gpus"] > 1:

diff --git a/rllib/agents/cql/cql.py b/rllib/agents/cql/cql.py
@@ -105,6 +105,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(SACTrainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["num_gpus"] > 1:

diff --git a/rllib/agents/ddpg/ddpg.py b/rllib/agents/ddpg/ddpg.py
@@ -195,7 +195,7 @@ def get_default_policy_class(self,
 
     @override(SimpleQTrainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
-
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["model"]["custom_model"]:

diff --git a/rllib/agents/dqn/dqn.py b/rllib/agents/dqn/dqn.py
@@ -132,6 +132,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(SimpleQTrainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         # Update effective batch size to include n-step

diff --git a/rllib/agents/dqn/r2d2.py b/rllib/agents/dqn/r2d2.py
@@ -111,6 +111,7 @@ def validate_config(self, config: TrainerConfigDict) -> None:
         Rewrites rollout_fragment_length to take into account burn-in and
         max_seq_len truncation.
         """
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["replay_sequence_length"] != -1:

diff --git a/rllib/agents/dqn/simple_q.py b/rllib/agents/dqn/simple_q.py
@@ -120,6 +120,7 @@ def get_default_config(cls) -> TrainerConfigDict:
     def validate_config(self, config: TrainerConfigDict) -> None:
         """Checks and updates the config based on settings.
         """
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["exploration_config"]["type"] == "ParameterNoise":

diff --git a/rllib/agents/dreamer/dreamer.py b/rllib/agents/dreamer/dreamer.py
@@ -194,6 +194,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(Trainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         config["action_repeat"] = config["env_config"]["frame_skip"]

diff --git a/rllib/agents/es/es.py b/rllib/agents/es/es.py
@@ -210,6 +210,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(Trainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["num_gpus"] > 1:

diff --git a/rllib/agents/maml/maml.py b/rllib/agents/maml/maml.py
@@ -169,6 +169,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(Trainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["num_gpus"] > 1:

diff --git a/rllib/agents/marwil/bc.py b/rllib/agents/marwil/bc.py
@@ -33,6 +33,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(MARWILTrainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["beta"] != 0.0:

diff --git a/rllib/agents/marwil/marwil.py b/rllib/agents/marwil/marwil.py
@@ -82,6 +82,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(Trainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["num_gpus"] > 1:

diff --git a/rllib/agents/mbmpo/mbmpo.py b/rllib/agents/mbmpo/mbmpo.py
@@ -345,6 +345,9 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(Trainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
+        super().validate_config(config)
+
         if config["num_gpus"] > 1:
             raise ValueError("`num_gpus` > 1 not yet supported for MB-MPO!")
         if config["framework"] != "torch":

diff --git a/rllib/agents/qmix/qmix.py b/rllib/agents/qmix/qmix.py
@@ -115,6 +115,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(SimpleQTrainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["framework"] != "torch":

diff --git a/rllib/agents/sac/rnnsac.py b/rllib/agents/sac/rnnsac.py
@@ -45,6 +45,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(SACTrainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["replay_sequence_length"] != -1:

diff --git a/rllib/agents/sac/sac.py b/rllib/agents/sac/sac.py
@@ -193,6 +193,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(DQNTrainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["use_state_preprocessor"] != DEPRECATED_VALUE:

diff --git a/rllib/agents/slateq/slateq.py b/rllib/agents/slateq/slateq.py
@@ -159,6 +159,7 @@ def get_default_config(cls) -> TrainerConfigDict:
 
     @override(Trainer)
     def validate_config(self, config: TrainerConfigDict) -> None:
+        # Call super's validation method.
         super().validate_config(config)
 
         if config["num_gpus"] > 1:

diff --git a/rllib/agents/trainer_template.py b/rllib/agents/trainer_template.py
@@ -149,7 +149,7 @@ def _init(self, config: TrainerConfigDict,
 
         @override(Trainer)
         def validate_config(self, config: PartialTrainerConfigDict):
-            # Call super (Trainer) validation method first.
+            # Call super's validation method.
             Trainer.validate_config(self, config)
             # Then call user defined one, if any.
             if validate_config is not None:

diff --git a/rllib/contrib/maddpg/maddpg.py b/rllib/contrib/maddpg/maddpg.py
@@ -167,6 +167,8 @@ def validate_config(self, config: TrainerConfigDict) -> None:
         This hook is called explicitly prior to TrainOneStep() in the execution
         setups for DQN and APEX.
         """
+        # Call super's validation method.
+        super().validate_config(config)
 
         def f(batch, workers, config):
             policies = dict(workers.local_worker()

diff --git a/rllib/evaluation/worker_set.py b/rllib/evaluation/worker_set.py
@@ -475,7 +475,7 @@ def valid_module(class_path):
         ma_policies = config["multiagent"]["policies"]
         if ma_policies:
             for pid, policy_spec in ma_policies.copy().items():
-                assert isinstance(policy_spec, (PolicySpec, list, tuple))
+                assert isinstance(policy_spec, PolicySpec)
                 # Class is None -> Use `policy_cls`.
                 if policy_spec.policy_class is None:
                     ma_policies[pid] = ma_policies[pid]._replace(