Moved train_loop.sh into a script instead of a function

sgoodfriend · sgoodfriend · commit 3f5e66883d70 · 2023-03-14T16:13:59.000-07:00
diff --git a/benchmarks/benchmark_test.sh b/benchmarks/benchmark_test.sh
diff --git a/benchmarks/colab_atari1.sh b/benchmarks/colab_atari1.sh
@@ -1,5 +1,4 @@
-source benchmarks/train_loop.sh
-ALGOS="ppo"
+ALGO="ppo"
 ENVS="PongNoFrameskip-v4 BreakoutNoFrameskip-v4"
 BENCHMARK_MAX_PROCS="${BENCHMARK_MAX_PROCS:-3}"
-train_loop $ALGOS "$ENVS" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
+bash benchmarks/train_loop.sh -a $ALGO -e "$ENVS" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
diff --git a/benchmarks/colab_atari2.sh b/benchmarks/colab_atari2.sh
@@ -1,5 +1,4 @@
-source benchmarks/train_loop.sh
-ALGOS="ppo"
+ALGO="ppo"
 ENVS="SpaceInvadersNoFrameskip-v4 QbertNoFrameskip-v4"
 BENCHMARK_MAX_PROCS="${BENCHMARK_MAX_PROCS:-3}"
-train_loop $ALGOS "$ENVS" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
+bash benchmarks/train_loop.sh -a $ALGO -e "$ENVS" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
diff --git a/benchmarks/colab_basic.sh b/benchmarks/colab_basic.sh
@@ -1,5 +1,4 @@
-source benchmarks/train_loop.sh
-ALGOS="ppo"
+ALGO="ppo"
 ENVS="CartPole-v1 MountainCar-v0 MountainCarContinuous-v0 Acrobot-v1 LunarLander-v2"
 BENCHMARK_MAX_PROCS="${BENCHMARK_MAX_PROCS:-3}"
-train_loop $ALGOS "$ENVS" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
+bash benchmarks/train_loop.sh -a $ALGO -e "$ENVS" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
diff --git a/benchmarks/colab_carracing.sh b/benchmarks/colab_carracing.sh
@@ -1,5 +1,4 @@
-source benchmarks/train_loop.sh
-ALGOS="ppo"
+ALGO="ppo"
 ENVS="CarRacing-v0"
 BENCHMARK_MAX_PROCS="${BENCHMARK_MAX_PROCS:-3}"
-train_loop $ALGOS "$ENVS" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
+bash benchmarks/train_loop.sh -a $ALGO -e "$ENVS" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
diff --git a/benchmarks/colab_pybullet.sh b/benchmarks/colab_pybullet.sh
@@ -1,5 +1,4 @@
-source benchmarks/train_loop.sh
-ALGOS="ppo"
+ALGO="ppo"
 ENVS="HalfCheetahBulletEnv-v0 AntBulletEnv-v0 HopperBulletEnv-v0 Walker2DBulletEnv-v0"
 BENCHMARK_MAX_PROCS="${BENCHMARK_MAX_PROCS:-3}"
-train_loop $ALGOS "$ENVS" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
+bash benchmarks/train_loop.sh -a $ALGO -e "$ENVS" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
diff --git a/benchmarks/train_loop.sh b/benchmarks/train_loop.sh
@@ -1,15 +1,18 @@
-train_loop () {
-    local WANDB_TAGS="benchmark_$(git rev-parse --short HEAD) host_$(hostname)"
-    local algo
-    local env
-    local seed
-    local WANDB_PROJECT_NAME="${WANDB_PROJECT_NAME:-rl-algo-impls-benchmarks}"
-    local SEEDS="${SEEDS:-1 2 3}"
-    for algo in $(echo $1); do
-        for env in $(echo $2); do
-            for seed in $SEEDS; do
-                echo python train.py --algo $algo --env $env --seed $seed --pool-size 1 --wandb-tags $WANDB_TAGS --wandb-project-name $WANDB_PROJECT_NAME
-            done
-        done
+while getopts a:e:s:p: flag
+do
+    case "${flag}" in
+        a) algo=${OPTARG};;
+        e) envs=${OPTARG};;
+        s) seeds=${OPTARG};;
+        p) project_name=${OPTARG};;
+    esac
+done
+
+WANDB_TAGS="benchmark_$(git rev-parse --short HEAD) host_$(hostname)"
+project_name="${project_name:-rl-algo-impls-benchmarks}"
+seeds="${seeds:-1 2 3}"
+for env in $(echo $envs); do
+    for seed in $seeds; do
+        echo python train.py --algo $algo --env $env --seed $seed --pool-size 1 --wandb-tags $WANDB_TAGS --wandb-project-name $project_name
     done
-}
+done
diff --git a/lambda_labs/benchmark.sh b/lambda_labs/benchmark.sh
@@ -1,15 +1,17 @@
-source benchmarks/train_loop.sh
+while getopts a:j:s: flag
+do
+    case "${flag}" in
+        a) algo=${OPTARG};;
+        j) n_jobs=${OPTARG};;
+        p) project_name=${OPTARG};;
+        s) seeds=${OPTARG};;
+    esac
+done
 
-# export WANDB_PROJECT_NAME="rl-algo-impls"
+n_jobs="${n_jobs:-6}"
+project_name="${project_name:-rl-algo-impls-benchmarks}"
+seeds="${seeds:-1 2 3}"
 
-BENCHMARK_MAX_PROCS="${BENCHMARK_MAX_PROCS:-6}"
-
-ALGOS=(
-    # "vpg"
-    # "dqn"
-    "ppo"
-    # "a2c"
-)
 ENVS=(
     # Basic
     "CartPole-v1"
@@ -31,4 +33,4 @@ ENVS=(
     "SpaceInvadersNoFrameskip-v4"
     "QbertNoFrameskip-v4"
 )
-train_loop "${ALGOS[*]}" "${ENVS[*]}" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
+bash benchmarks/train_loop.sh -a $algo -e "${ENVS[*]}" -p $project_name -s "$seeds" | xargs -I CMD -P $n_jobs bash -c CMD
diff --git a/lambda_labs/impala_atari_benchmark.sh b/lambda_labs/impala_atari_benchmark.sh
@@ -1,19 +1,11 @@
-source benchmarks/train_loop.sh
-
-# export WANDB_PROJECT_NAME="rl-algo-impls"
-
 BENCHMARK_MAX_PROCS="${BENCHMARK_MAX_PROCS:-5}"
 
-ALGOS=(
-    # "vpg"
-    # "dqn"
-    "ppo"
-)
+ALGO="ppo"
 ENVS=(
     "impala-PongNoFrameskip-v4"
     "impala-BreakoutNoFrameskip-v4"
     "impala-SpaceInvadersNoFrameskip-v4"
     "impala-QbertNoFrameskip-v4"
     "impala-CarRacing-v0"
 )
-train_loop "${ALGOS[*]}" "${ENVS[*]}" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
+bash benchmarks/train_loop.sh -a $ALGO -e "${ENVS[*]}" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
diff --git a/lambda_labs/procgen_benchmark.sh b/lambda_labs/procgen_benchmark.sh
@@ -1,18 +1,10 @@
-source benchmarks/train_loop.sh
-
-# export WANDB_PROJECT_NAME="rl-algo-impls"
-
 BENCHMARK_MAX_PROCS="${BENCHMARK_MAX_PROCS:-3}"
 
-ALGOS=(
-    # "vpg"
-    # "dqn"
-    "ppo"
-)
+ALGO="ppo"
 ENVS=(
     "procgen-coinrun-easy"
     "procgen-starpilot-easy"
     "procgen-bossfight-easy"
     "procgen-bigfish-easy"
 )
-train_loop "${ALGOS[*]}" "${ENVS[*]}" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
+bash benchmarks/train_loop.sh -a $ALGO -e "${ENVS[*]}" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
diff --git a/lambda_labs/starpilot_hard_benchmark.sh b/lambda_labs/starpilot_hard_benchmark.sh
@@ -1,16 +1,10 @@
-source benchmarks/train_loop.sh
+BENCHMARK_MAX_PROCS="${BENCHMARK_MAX_PROCS:-5}"
 
-# export WANDB_PROJECT_NAME="rl-algo-impls"
-
-BENCHMARK_MAX_PROCS="${BENCHMARK_MAX_PROCS:-1}"
-
-ALGOS=(
-    "ppo"
-)
+ALGO="ppo"
 ENVS=(
     "procgen-starpilot-hard"
     "procgen-starpilot-hard-2xIMPALA"
     "procgen-starpilot-hard-2xIMPALA-fat"
     "procgen-starpilot-hard-4xIMPALA"
 )
-train_loop "${ALGOS[*]}" "${ENVS[*]}" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
+bash benchmarks/train_loop.sh -a $ALGO -e "${ENVS[*]}" | xargs -I CMD -P $BENCHMARK_MAX_PROCS bash -c CMD
diff --git a/train.py b/train.py
@@ -29,12 +29,12 @@
     parser.add_argument(
         "--pool-size", type=int, default=1, help="Simultaneous training jobs to run"
     )
-    parser.set_defaults(
-        algo="ppo",
-        env="MountainCarContinuous-v0",
-        seed=[1, 2, 3],
-        pool_size=3,
-    )
+    # parser.set_defaults(
+    #     algo="ppo",
+    #     env="HalfCheetahBulletEnv-v0",
+    #     seed=[10, 11, 12],
+    #     pool_size=3,
+    # )
     args = parser.parse_args()
     print(args)