In [None]:
import torch
from dense_scripts.utils.policies import SimpleGRPOPolicy # GRPO is Actor-Only
from dense_scripts.GRPO.grpo import PerStepAdvGRPOTrainer, GRPOConfig
from dense_scripts.utils.envs import DenseLunarLander

# 1. Initialize environments
# We use a non-randomized env for the process supervision task
env_train = DenseLunarLander(randomize_angle=False, randomize_pos=False)
env_eval = DenseLunarLander(randomize_angle=False, randomize_pos=False)

# 2. Initialize the Policy
policy = SimpleGRPOPolicy(env_train.observation_space.shape[0], env_train.action_space.n)

# 3. Configure the Trainer
cfg = GRPOConfig(
    env=env_train, 
    G=32, 
    T=1024, 
    gamma=0.99, 
    log_dir="./runs/GRPO_Process",
    identical_G=False  # <-- CRITICAL: All workers must start from the same seed
)

# 4. Initialize the Trainer
trainer = PerStepAdvGRPOTrainer(policy, cfg, device="cpu")

# 5. Run Training
trainer.train(
    iters=300,
    eval_env=env_eval,
    eval_interval=30,
    eval_episodes=100,
    video_dir="videos/GRPO_Process",
    video_episodes=10
)

üìù Saved hyperparameters to runs/GRPO_Process/grpo_process_18h16_09112025/grpo_config_18h16_09112025.txt

GRPO 'process' mode typically requires identical_G=True.
You have set identical_G=False. This will run G rollouts
from different states, which may destabilize 'process' advantages.



GRPO-Process (18h16_09112025):   0%|                                | 1/300 [00:00<04:40,  1.07it/s, KL=0.007, avgR=-135.8, beta=0.0133, it_s=0.94]

Iter 0000 | avgR -135.77 ¬± 73.82 | KL 0.0073 (Œ≤=0.01333) | Lclip 0.0071 Lkl 0.0073 Lent 1.3770 | steps 3003 eps 32 | time 0.94s


GRPO-Process (18h16_09112025):   1%|‚ñè                               | 2/300 [00:01<04:36,  1.08it/s, KL=0.016, avgR=-166.9, beta=0.0133, it_s=0.92]

Iter 0001 | avgR -166.87 ¬± 83.27 | KL 0.0156 (Œ≤=0.01333) | Lclip 0.0199 Lkl 0.0156 Lent 1.3541 | steps 5757 eps 64 | time 0.92s


GRPO-Process (18h16_09112025):   1%|‚ñé                              | 3/300 [00:02<04:33,  1.09it/s, KL=0.008, avgR=-147.3, beta=0.00889, it_s=0.90]

Iter 0002 | avgR -147.33 ¬± 62.48 | KL 0.0085 (Œ≤=0.008889) | Lclip 0.0087 Lkl 0.0085 Lent 1.3542 | steps 8444 eps 96 | time 0.90s


GRPO-Process (18h16_09112025):   1%|‚ñç                              | 4/300 [00:03<04:22,  1.13it/s, KL=0.007, avgR=-113.2, beta=0.00593, it_s=0.83]

Iter 0003 | avgR -113.20 ¬± 35.59 | KL 0.0070 (Œ≤=0.005926) | Lclip 0.0060 Lkl 0.0070 Lent 1.3438 | steps 10987 eps 128 | time 0.83s


GRPO-Process (18h16_09112025):   2%|‚ñå                              | 5/300 [00:04<04:14,  1.16it/s, KL=0.012, avgR=-138.5, beta=0.00593, it_s=0.82]

Iter 0004 | avgR -138.53 ¬± 64.96 | KL 0.0120 (Œ≤=0.005926) | Lclip 0.0097 Lkl 0.0120 Lent 1.3139 | steps 13549 eps 160 | time 0.82s


GRPO-Process (18h16_09112025):   2%|‚ñå                              | 6/300 [00:05<04:19,  1.14it/s, KL=0.018, avgR=-132.0, beta=0.00593, it_s=0.91]

Iter 0005 | avgR -131.99 ¬± 69.67 | KL 0.0176 (Œ≤=0.005926) | Lclip 0.0233 Lkl 0.0176 Lent 1.2865 | steps 16189 eps 192 | time 0.91s


GRPO-Process (18h16_09112025):   2%|‚ñã                              | 7/300 [00:06<04:21,  1.12it/s, KL=0.008, avgR=-183.1, beta=0.00395, it_s=0.91]

Iter 0006 | avgR -183.10 ¬±106.05 | KL 0.0081 (Œ≤=0.003951) | Lclip 0.0101 Lkl 0.0081 Lent 1.2881 | steps 18940 eps 224 | time 0.91s


GRPO-Process (18h16_09112025):   3%|‚ñä                               | 8/300 [00:07<04:14,  1.15it/s, KL=0.006, avgR=-98.9, beta=0.00263, it_s=0.83]

Iter 0007 | avgR  -98.88 ¬± 27.15 | KL 0.0064 (Œ≤=0.002634) | Lclip 0.0067 Lkl 0.0064 Lent 1.3226 | steps 21424 eps 256 | time 0.83s


GRPO-Process (18h16_09112025):   3%|‚ñâ                              | 9/300 [00:07<04:11,  1.16it/s, KL=0.010, avgR=-116.8, beta=0.00176, it_s=0.84]

Iter 0008 | avgR -116.83 ¬± 71.67 | KL 0.0098 (Œ≤=0.001756) | Lclip 0.0171 Lkl 0.0098 Lent 1.3182 | steps 24154 eps 288 | time 0.84s


GRPO-Process (18h16_09112025):   3%|‚ñà                             | 10/300 [00:08<04:17,  1.12it/s, KL=0.010, avgR=-113.0, beta=0.00176, it_s=0.94]

Iter 0009 | avgR -113.01 ¬± 45.65 | KL 0.0103 (Œ≤=0.001756) | Lclip 0.0109 Lkl 0.0103 Lent 1.2981 | steps 27024 eps 320 | time 0.94s


GRPO-Process (18h16_09112025):   4%|‚ñà                             | 11/300 [00:09<04:17,  1.12it/s, KL=0.013, avgR=-113.2, beta=0.00176, it_s=0.89]

Iter 0010 | avgR -113.21 ¬± 60.05 | KL 0.0128 (Œ≤=0.001756) | Lclip 0.0184 Lkl 0.0128 Lent 1.3047 | steps 29934 eps 352 | time 0.89s


GRPO-Process (18h16_09112025):   4%|‚ñà‚ñè                            | 12/300 [00:10<04:07,  1.16it/s, KL=0.010, avgR=-111.3, beta=0.00176, it_s=0.79]

Iter 0011 | avgR -111.29 ¬± 41.94 | KL 0.0101 (Œ≤=0.001756) | Lclip 0.0078 Lkl 0.0101 Lent 1.2780 | steps 32761 eps 384 | time 0.79s


GRPO-Process (18h16_09112025):   4%|‚ñà‚ñé                             | 13/300 [00:11<04:08,  1.15it/s, KL=0.009, avgR=-88.4, beta=0.00117, it_s=0.88]

Iter 0012 | avgR  -88.40 ¬± 40.89 | KL 0.0089 (Œ≤=0.001171) | Lclip 0.0110 Lkl 0.0089 Lent 1.2587 | steps 35597 eps 416 | time 0.88s


GRPO-Process (18h16_09112025):   5%|‚ñà‚ñç                             | 14/300 [00:12<04:22,  1.09it/s, KL=0.014, avgR=-61.2, beta=0.00117, it_s=1.03]

Iter 0013 | avgR  -61.23 ¬± 36.84 | KL 0.0136 (Œ≤=0.001171) | Lclip 0.0094 Lkl 0.0136 Lent 1.2448 | steps 38472 eps 448 | time 1.03s


GRPO-Process (18h16_09112025):   5%|‚ñà‚ñå                             | 15/300 [00:13<04:51,  1.02s/it, KL=0.008, avgR=-81.0, beta=0.00078, it_s=1.26]

Iter 0014 | avgR  -80.99 ¬± 51.19 | KL 0.0080 (Œ≤=0.0007804) | Lclip 0.0120 Lkl 0.0080 Lent 1.1984 | steps 42262 eps 480 | time 1.26s


GRPO-Process (18h16_09112025):   5%|‚ñà‚ñã                             | 16/300 [00:15<05:16,  1.11s/it, KL=0.011, avgR=-66.1, beta=0.00078, it_s=1.33]

Iter 0015 | avgR  -66.13 ¬± 40.70 | KL 0.0112 (Œ≤=0.0007804) | Lclip 0.0132 Lkl 0.0112 Lent 1.2067 | steps 47226 eps 512 | time 1.33s


GRPO-Process (18h16_09112025):   6%|‚ñà‚ñä                             | 17/300 [00:15<04:50,  1.03s/it, KL=0.008, avgR=-53.6, beta=0.00052, it_s=0.82]

Iter 0016 | avgR  -53.56 ¬± 40.57 | KL 0.0079 (Œ≤=0.0005202) | Lclip 0.0058 Lkl 0.0079 Lent 1.1894 | steps 50508 eps 544 | time 0.82s


GRPO-Process (18h16_09112025):   6%|‚ñà‚ñä                            | 18/300 [00:17<05:05,  1.08s/it, KL=0.005, avgR=-58.2, beta=0.000347, it_s=1.22]

Iter 0017 | avgR  -58.23 ¬± 61.58 | KL 0.0049 (Œ≤=0.0003468) | Lclip 0.0056 Lkl 0.0049 Lent 1.1821 | steps 54842 eps 576 | time 1.22s


GRPO-Process (18h16_09112025):   6%|‚ñà‚ñâ                            | 19/300 [00:18<04:56,  1.06s/it, KL=0.007, avgR=-52.1, beta=0.000231, it_s=0.98]

Iter 0018 | avgR  -52.07 ¬± 29.29 | KL 0.0067 (Œ≤=0.0002312) | Lclip 0.0061 Lkl 0.0067 Lent 1.1852 | steps 57898 eps 608 | time 0.98s


GRPO-Process (18h16_09112025):   7%|‚ñà‚ñà                            | 20/300 [00:18<04:40,  1.00s/it, KL=0.008, avgR=-32.9, beta=0.000154, it_s=0.88]

Iter 0019 | avgR  -32.90 ¬± 28.46 | KL 0.0082 (Œ≤=0.0001541) | Lclip 0.0071 Lkl 0.0082 Lent 1.1298 | steps 61161 eps 640 | time 0.88s


GRPO-Process (18h16_09112025):   7%|‚ñà‚ñà                            | 21/300 [00:19<04:28,  1.04it/s, KL=0.009, avgR=-35.1, beta=0.000103, it_s=0.87]

Iter 0020 | avgR  -35.06 ¬± 42.11 | KL 0.0088 (Œ≤=0.0001028) | Lclip 0.0092 Lkl 0.0088 Lent 1.0956 | steps 64845 eps 672 | time 0.87s


GRPO-Process (18h16_09112025):   7%|‚ñà‚ñà‚ñé                             | 22/300 [00:20<04:42,  1.02s/it, KL=0.006, avgR=-19.4, beta=0.0001, it_s=1.14]

Iter 0021 | avgR  -19.41 ¬± 47.98 | KL 0.0057 (Œ≤=0.0001) | Lclip 0.0048 Lkl 0.0057 Lent 1.1570 | steps 70050 eps 704 | time 1.14s


GRPO-Process (18h16_09112025):   8%|‚ñà‚ñà‚ñç                             | 23/300 [00:21<04:31,  1.02it/s, KL=0.005, avgR=-36.3, beta=0.0001, it_s=0.89]

Iter 0022 | avgR  -36.34 ¬± 48.32 | KL 0.0049 (Œ≤=0.0001) | Lclip 0.0038 Lkl 0.0049 Lent 1.1675 | steps 73949 eps 736 | time 0.89s


GRPO-Process (18h16_09112025):   8%|‚ñà‚ñà‚ñå                             | 24/300 [00:22<04:20,  1.06it/s, KL=0.005, avgR=-49.8, beta=0.0001, it_s=0.85]

Iter 0023 | avgR  -49.76 ¬± 58.86 | KL 0.0047 (Œ≤=0.0001) | Lclip 0.0036 Lkl 0.0047 Lent 1.1314 | steps 77652 eps 768 | time 0.85s


GRPO-Process (18h16_09112025):   8%|‚ñà‚ñà‚ñã                             | 25/300 [00:23<04:16,  1.07it/s, KL=0.011, avgR=-18.0, beta=0.0001, it_s=0.91]

Iter 0024 | avgR  -18.05 ¬± 22.89 | KL 0.0108 (Œ≤=0.0001) | Lclip 0.0078 Lkl 0.0108 Lent 1.1505 | steps 80972 eps 800 | time 0.91s


GRPO-Process (18h16_09112025):   9%|‚ñà‚ñà‚ñä                             | 26/300 [00:24<04:27,  1.02it/s, KL=0.010, avgR=-28.5, beta=0.0001, it_s=1.08]

Iter 0025 | avgR  -28.48 ¬± 30.45 | KL 0.0096 (Œ≤=0.0001) | Lclip 0.0075 Lkl 0.0096 Lent 1.1251 | steps 84543 eps 832 | time 1.08s


GRPO-Process (18h16_09112025):   9%|‚ñà‚ñà‚ñâ                             | 27/300 [00:26<04:55,  1.08s/it, KL=0.007, avgR=-36.6, beta=0.0001, it_s=1.32]

Iter 0026 | avgR  -36.59 ¬± 83.10 | KL 0.0074 (Œ≤=0.0001) | Lclip 0.0064 Lkl 0.0074 Lent 1.1068 | steps 90405 eps 864 | time 1.32s


GRPO-Process (18h16_09112025):   9%|‚ñà‚ñà‚ñà‚ñè                              | 28/300 [00:27<05:14,  1.16s/it, KL=0.006, avgR=3.3, beta=0.0001, it_s=1.32]

Iter 0027 | avgR    3.29 ¬± 45.86 | KL 0.0063 (Œ≤=0.0001) | Lclip 0.0046 Lkl 0.0063 Lent 1.0713 | steps 95868 eps 896 | time 1.32s


GRPO-Process (18h16_09112025):  10%|‚ñà‚ñà‚ñà‚ñè                             | 29/300 [00:28<05:22,  1.19s/it, KL=0.007, avgR=-7.7, beta=0.0001, it_s=1.27]

Iter 0028 | avgR   -7.69 ¬±109.54 | KL 0.0073 (Œ≤=0.0001) | Lclip 0.0057 Lkl 0.0073 Lent 1.1508 | steps 107555 eps 928 | time 1.27s


GRPO-Process (18h16_09112025):  10%|‚ñà‚ñà‚ñà‚ñé                              | 29/300 [00:29<05:22,  1.19s/it, KL=0.009, avgR=6.2, beta=0.0001, it_s=0.92]

Iter 0029 | avgR    6.18 ¬± 29.95 | KL 0.0089 (Œ≤=0.0001) | Lclip 0.0096 Lkl 0.0089 Lent 1.0122 | steps 111026 eps 960 | time 0.92s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Process (18h16_09112025):  10%|‚ñà‚ñà‚ñà‚ñç                              | 30/300 [00:30<06:34,  1.46s/it, KL=0.009, avgR=6.2, beta=0.0001, it_s=0.92]

   ‚úì Reward: -16.99 ¬± 71.82
   ‚úì Success Rate: 6.00%
   ‚úì Legs Touching: 1.51
   ‚úì Mean Velocity: 0.367
   ‚úì Distance from Pad: 0.422


GRPO-Process (18h16_09112025):  10%|‚ñà‚ñà‚ñà‚ñç                             | 31/300 [00:32<06:27,  1.44s/it, KL=0.006, avgR=-7.5, beta=0.0001, it_s=1.40]

Iter 0030 | avgR   -7.51 ¬± 79.55 | KL 0.0061 (Œ≤=0.0001) | Lclip 0.0044 Lkl 0.0061 Lent 1.0657 | steps 119249 eps 992 | time 1.40s


GRPO-Process (18h16_09112025):  11%|‚ñà‚ñà‚ñà‚ñç                            | 32/300 [00:33<06:16,  1.40s/it, KL=0.009, avgR=-78.0, beta=0.0001, it_s=1.31]

Iter 0031 | avgR  -78.04 ¬±101.66 | KL 0.0086 (Œ≤=0.0001) | Lclip 0.0066 Lkl 0.0086 Lent 0.9812 | steps 127563 eps 1024 | time 1.31s


GRPO-Process (18h16_09112025):  11%|‚ñà‚ñà‚ñà‚ñã                              | 33/300 [00:34<06:08,  1.38s/it, KL=0.005, avgR=0.7, beta=0.0001, it_s=1.32]

Iter 0032 | avgR    0.71 ¬± 48.98 | KL 0.0052 (Œ≤=0.0001) | Lclip 0.0034 Lkl 0.0052 Lent 1.1451 | steps 135653 eps 1056 | time 1.32s


GRPO-Process (18h16_09112025):  11%|‚ñà‚ñà‚ñà‚ñã                             | 34/300 [00:36<06:08,  1.38s/it, KL=0.003, avgR=-9.9, beta=0.0001, it_s=1.39]

Iter 0033 | avgR   -9.88 ¬± 76.12 | KL 0.0035 (Œ≤=0.0001) | Lclip 0.0034 Lkl 0.0035 Lent 1.1171 | steps 145957 eps 1088 | time 1.39s


GRPO-Process (18h16_09112025):  12%|‚ñà‚ñà‚ñà‚ñä                             | 35/300 [00:37<06:08,  1.39s/it, KL=0.003, avgR=-0.2, beta=0.0001, it_s=1.40]

Iter 0034 | avgR   -0.16 ¬± 76.72 | KL 0.0026 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0026 Lent 1.0896 | steps 157106 eps 1120 | time 1.40s


GRPO-Process (18h16_09112025):  12%|‚ñà‚ñà‚ñà‚ñà                              | 36/300 [00:38<05:54,  1.34s/it, KL=0.005, avgR=3.2, beta=0.0001, it_s=1.23]

Iter 0035 | avgR    3.16 ¬± 26.33 | KL 0.0050 (Œ≤=0.0001) | Lclip 0.0017 Lkl 0.0050 Lent 1.0106 | steps 162479 eps 1152 | time 1.23s


GRPO-Process (18h16_09112025):  12%|‚ñà‚ñà‚ñà‚ñà                             | 37/300 [00:40<06:12,  1.42s/it, KL=0.007, avgR=45.4, beta=0.0001, it_s=1.58]

Iter 0036 | avgR   45.40 ¬± 79.49 | KL 0.0065 (Œ≤=0.0001) | Lclip 0.0055 Lkl 0.0065 Lent 1.2281 | steps 179758 eps 1184 | time 1.58s


GRPO-Process (18h16_09112025):  13%|‚ñà‚ñà‚ñà‚ñà‚ñè                            | 38/300 [00:41<06:05,  1.40s/it, KL=0.004, avgR=21.9, beta=0.0001, it_s=1.35]

Iter 0037 | avgR   21.86 ¬± 51.32 | KL 0.0044 (Œ≤=0.0001) | Lclip 0.0020 Lkl 0.0044 Lent 1.1373 | steps 189187 eps 1216 | time 1.35s


GRPO-Process (18h16_09112025):  13%|‚ñà‚ñà‚ñà‚ñà‚ñé                            | 39/300 [00:43<06:20,  1.46s/it, KL=0.003, avgR=55.7, beta=0.0001, it_s=1.60]

Iter 0038 | avgR   55.69 ¬± 57.30 | KL 0.0035 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0035 Lent 1.2159 | steps 207871 eps 1248 | time 1.60s


GRPO-Process (18h16_09112025):  13%|‚ñà‚ñà‚ñà‚ñà‚ñç                            | 40/300 [00:44<06:12,  1.43s/it, KL=0.004, avgR=28.5, beta=0.0001, it_s=1.37]

Iter 0039 | avgR   28.46 ¬± 66.55 | KL 0.0037 (Œ≤=0.0001) | Lclip 0.0041 Lkl 0.0037 Lent 1.1448 | steps 220615 eps 1280 | time 1.37s


GRPO-Process (18h16_09112025):  14%|‚ñà‚ñà‚ñà‚ñà‚ñå                            | 41/300 [00:46<06:18,  1.46s/it, KL=0.007, avgR=67.2, beta=0.0001, it_s=1.53]

Iter 0040 | avgR   67.23 ¬± 57.08 | KL 0.0073 (Œ≤=0.0001) | Lclip 0.0027 Lkl 0.0073 Lent 1.2331 | steps 239254 eps 1312 | time 1.53s


GRPO-Process (18h16_09112025):  14%|‚ñà‚ñà‚ñà‚ñà‚ñå                            | 42/300 [00:47<06:05,  1.42s/it, KL=0.005, avgR=24.8, beta=0.0001, it_s=1.30]

Iter 0041 | avgR   24.79 ¬± 37.76 | KL 0.0053 (Œ≤=0.0001) | Lclip 0.0080 Lkl 0.0053 Lent 1.1233 | steps 247435 eps 1344 | time 1.30s


GRPO-Process (18h16_09112025):  14%|‚ñà‚ñà‚ñà‚ñà‚ñã                            | 43/300 [00:49<06:09,  1.44s/it, KL=0.004, avgR=27.0, beta=0.0001, it_s=1.49]

Iter 0042 | avgR   27.01 ¬± 60.36 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0022 Lkl 0.0042 Lent 1.1720 | steps 264792 eps 1376 | time 1.49s


GRPO-Process (18h16_09112025):  15%|‚ñà‚ñà‚ñà‚ñà‚ñä                            | 44/300 [00:50<06:24,  1.50s/it, KL=0.006, avgR=57.1, beta=0.0001, it_s=1.64]

Iter 0043 | avgR   57.13 ¬± 51.86 | KL 0.0059 (Œ≤=0.0001) | Lclip 0.0030 Lkl 0.0059 Lent 1.1992 | steps 286202 eps 1408 | time 1.64s


GRPO-Process (18h16_09112025):  15%|‚ñà‚ñà‚ñà‚ñà‚ñâ                            | 45/300 [00:52<06:30,  1.53s/it, KL=0.007, avgR=26.7, beta=0.0001, it_s=1.60]

Iter 0044 | avgR   26.75 ¬± 75.43 | KL 0.0072 (Œ≤=0.0001) | Lclip 0.0045 Lkl 0.0072 Lent 1.2074 | steps 303992 eps 1440 | time 1.60s


GRPO-Process (18h16_09112025):  15%|‚ñà‚ñà‚ñà‚ñà‚ñà                            | 46/300 [00:53<06:33,  1.55s/it, KL=0.006, avgR=66.2, beta=0.0001, it_s=1.59]

Iter 0045 | avgR   66.22 ¬± 48.39 | KL 0.0061 (Œ≤=0.0001) | Lclip 0.0017 Lkl 0.0061 Lent 1.1980 | steps 322184 eps 1472 | time 1.59s


GRPO-Process (18h16_09112025):  16%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                           | 47/300 [00:55<06:40,  1.58s/it, KL=0.006, avgR=25.2, beta=0.0001, it_s=1.66]

Iter 0046 | avgR   25.25 ¬± 77.44 | KL 0.0058 (Œ≤=0.0001) | Lclip 0.0046 Lkl 0.0058 Lent 1.1752 | steps 340073 eps 1504 | time 1.66s


GRPO-Process (18h16_09112025):  16%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                           | 48/300 [00:57<06:46,  1.61s/it, KL=0.005, avgR=58.6, beta=0.0001, it_s=1.67]

Iter 0047 | avgR   58.60 ¬± 60.16 | KL 0.0055 (Œ≤=0.0001) | Lclip 0.0023 Lkl 0.0055 Lent 1.1714 | steps 363478 eps 1536 | time 1.67s


GRPO-Process (18h16_09112025):  16%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                           | 49/300 [00:58<06:48,  1.63s/it, KL=0.005, avgR=40.4, beta=0.0001, it_s=1.65]

Iter 0048 | avgR   40.42 ¬± 48.52 | KL 0.0051 (Œ≤=0.0001) | Lclip 0.0034 Lkl 0.0051 Lent 1.1500 | steps 383215 eps 1568 | time 1.65s


GRPO-Process (18h16_09112025):  17%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                           | 50/300 [01:00<06:29,  1.56s/it, KL=0.006, avgR=20.6, beta=0.0001, it_s=1.40]

Iter 0049 | avgR   20.61 ¬± 74.94 | KL 0.0059 (Œ≤=0.0001) | Lclip 0.0034 Lkl 0.0059 Lent 1.1308 | steps 397373 eps 1600 | time 1.40s


GRPO-Process (18h16_09112025):  17%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                           | 51/300 [01:02<06:45,  1.63s/it, KL=0.006, avgR=27.3, beta=0.0001, it_s=1.78]

Iter 0050 | avgR   27.26 ¬± 78.18 | KL 0.0056 (Œ≤=0.0001) | Lclip 0.0026 Lkl 0.0056 Lent 1.1599 | steps 417787 eps 1632 | time 1.78s


GRPO-Process (18h16_09112025):  17%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                           | 52/300 [01:03<06:40,  1.61s/it, KL=0.005, avgR=55.9, beta=0.0001, it_s=1.58]

Iter 0051 | avgR   55.86 ¬± 50.85 | KL 0.0047 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0047 Lent 1.1724 | steps 434422 eps 1664 | time 1.58s


GRPO-Process (18h16_09112025):  18%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                           | 53/300 [01:05<06:43,  1.64s/it, KL=0.003, avgR=64.3, beta=0.0001, it_s=1.68]

Iter 0052 | avgR   64.27 ¬± 50.91 | KL 0.0034 (Œ≤=0.0001) | Lclip 0.0041 Lkl 0.0034 Lent 1.2186 | steps 457754 eps 1696 | time 1.68s


GRPO-Process (18h16_09112025):  18%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                           | 54/300 [01:06<06:24,  1.56s/it, KL=0.007, avgR=33.4, beta=0.0001, it_s=1.40]

Iter 0053 | avgR   33.41 ¬± 52.08 | KL 0.0066 (Œ≤=0.0001) | Lclip 0.0072 Lkl 0.0066 Lent 1.1106 | steps 469293 eps 1728 | time 1.40s


GRPO-Process (18h16_09112025):  18%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                           | 55/300 [01:08<06:36,  1.62s/it, KL=0.005, avgR=84.3, beta=0.0001, it_s=1.75]

Iter 0054 | avgR   84.26 ¬± 42.89 | KL 0.0048 (Œ≤=0.0001) | Lclip 0.0029 Lkl 0.0048 Lent 1.1787 | steps 490852 eps 1760 | time 1.75s


GRPO-Process (18h16_09112025):  19%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                          | 56/300 [01:10<06:29,  1.60s/it, KL=0.004, avgR=50.1, beta=0.0001, it_s=1.53]

Iter 0055 | avgR   50.09 ¬± 42.69 | KL 0.0044 (Œ≤=0.0001) | Lclip 0.0032 Lkl 0.0044 Lent 1.1393 | steps 506941 eps 1792 | time 1.53s


GRPO-Process (18h16_09112025):  19%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                          | 57/300 [01:11<06:09,  1.52s/it, KL=0.005, avgR=41.3, beta=0.0001, it_s=1.35]

Iter 0056 | avgR   41.30 ¬± 41.14 | KL 0.0051 (Œ≤=0.0001) | Lclip 0.0031 Lkl 0.0051 Lent 1.1441 | steps 519996 eps 1824 | time 1.35s


GRPO-Process (18h16_09112025):  19%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                          | 58/300 [01:13<06:14,  1.55s/it, KL=0.004, avgR=50.6, beta=0.0001, it_s=1.60]

Iter 0057 | avgR   50.64 ¬± 37.32 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0015 Lkl 0.0042 Lent 1.1637 | steps 537514 eps 1856 | time 1.60s


GRPO-Process (18h16_09112025):  20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                          | 59/300 [01:14<06:21,  1.58s/it, KL=0.004, avgR=28.2, beta=0.0001, it_s=1.67]

Iter 0058 | avgR   28.17 ¬± 52.27 | KL 0.0037 (Œ≤=0.0001) | Lclip 0.0027 Lkl 0.0037 Lent 1.1022 | steps 556315 eps 1888 | time 1.67s


GRPO-Process (18h16_09112025):  20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                          | 59/300 [01:16<06:21,  1.58s/it, KL=0.006, avgR=64.6, beta=0.0001, it_s=1.69]

Iter 0059 | avgR   64.57 ¬± 40.63 | KL 0.0055 (Œ≤=0.0001) | Lclip 0.0027 Lkl 0.0055 Lent 1.1618 | steps 580308 eps 1920 | time 1.69s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Process (18h16_09112025):  20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                          | 60/300 [01:18<08:36,  2.15s/it, KL=0.006, avgR=64.6, beta=0.0001, it_s=1.69]

   ‚úì Reward: 50.75 ¬± 39.31
   ‚úì Success Rate: 7.00%
   ‚úì Legs Touching: 0.90
   ‚úì Mean Velocity: 0.175
   ‚úì Distance from Pad: 0.145


GRPO-Process (18h16_09112025):  20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                          | 61/300 [01:19<07:56,  1.99s/it, KL=0.005, avgR=55.9, beta=0.0001, it_s=1.62]

Iter 0060 | avgR   55.93 ¬± 39.18 | KL 0.0051 (Œ≤=0.0001) | Lclip 0.0022 Lkl 0.0051 Lent 1.1353 | steps 597361 eps 1952 | time 1.62s


GRPO-Process (18h16_09112025):  21%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                          | 62/300 [01:21<07:38,  1.93s/it, KL=0.005, avgR=68.8, beta=0.0001, it_s=1.77]

Iter 0061 | avgR   68.78 ¬± 40.92 | KL 0.0046 (Œ≤=0.0001) | Lclip 0.0022 Lkl 0.0046 Lent 1.1355 | steps 617924 eps 1984 | time 1.77s


GRPO-Process (18h16_09112025):  21%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                          | 63/300 [01:23<07:16,  1.84s/it, KL=0.004, avgR=66.8, beta=0.0001, it_s=1.64]

Iter 0062 | avgR   66.76 ¬± 52.86 | KL 0.0035 (Œ≤=0.0001) | Lclip 0.0015 Lkl 0.0035 Lent 1.1918 | steps 636594 eps 2016 | time 1.64s


GRPO-Process (18h16_09112025):  21%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                          | 64/300 [01:24<06:57,  1.77s/it, KL=0.005, avgR=55.2, beta=0.0001, it_s=1.60]

Iter 0063 | avgR   55.25 ¬± 57.39 | KL 0.0049 (Œ≤=0.0001) | Lclip 0.0019 Lkl 0.0049 Lent 1.1937 | steps 655204 eps 2048 | time 1.60s


GRPO-Process (18h16_09112025):  22%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                         | 65/300 [01:26<06:46,  1.73s/it, KL=0.007, avgR=60.7, beta=0.0001, it_s=1.63]

Iter 0064 | avgR   60.65 ¬± 44.30 | KL 0.0074 (Œ≤=0.0001) | Lclip 0.0037 Lkl 0.0074 Lent 1.1663 | steps 673828 eps 2080 | time 1.63s


GRPO-Process (18h16_09112025):  22%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                         | 66/300 [01:28<06:58,  1.79s/it, KL=0.005, avgR=75.0, beta=0.0001, it_s=1.93]

Iter 0065 | avgR   74.96 ¬± 44.64 | KL 0.0051 (Œ≤=0.0001) | Lclip 0.0032 Lkl 0.0051 Lent 1.1758 | steps 696480 eps 2112 | time 1.93s


GRPO-Process (18h16_09112025):  22%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                         | 67/300 [01:30<06:48,  1.75s/it, KL=0.004, avgR=59.1, beta=0.0001, it_s=1.66]

Iter 0066 | avgR   59.10 ¬± 42.10 | KL 0.0036 (Œ≤=0.0001) | Lclip 0.0020 Lkl 0.0036 Lent 1.1589 | steps 717031 eps 2144 | time 1.66s


GRPO-Process (18h16_09112025):  23%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                         | 68/300 [01:31<06:40,  1.73s/it, KL=0.005, avgR=54.8, beta=0.0001, it_s=1.66]

Iter 0067 | avgR   54.76 ¬± 50.95 | KL 0.0054 (Œ≤=0.0001) | Lclip 0.0035 Lkl 0.0054 Lent 1.1104 | steps 734553 eps 2176 | time 1.66s


GRPO-Process (18h16_09112025):  23%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                         | 69/300 [01:33<06:47,  1.76s/it, KL=0.006, avgR=65.6, beta=0.0001, it_s=1.85]

Iter 0068 | avgR   65.57 ¬± 54.13 | KL 0.0059 (Œ≤=0.0001) | Lclip 0.0032 Lkl 0.0059 Lent 1.1322 | steps 759564 eps 2208 | time 1.85s


GRPO-Process (18h16_09112025):  23%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                         | 70/300 [01:35<06:40,  1.74s/it, KL=0.006, avgR=62.1, beta=0.0001, it_s=1.68]

Iter 0069 | avgR   62.07 ¬± 55.67 | KL 0.0062 (Œ≤=0.0001) | Lclip 0.0020 Lkl 0.0062 Lent 1.1655 | steps 781851 eps 2240 | time 1.68s


GRPO-Process (18h16_09112025):  24%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                         | 71/300 [01:36<06:30,  1.71s/it, KL=0.005, avgR=69.3, beta=0.0001, it_s=1.62]

Iter 0070 | avgR   69.34 ¬± 52.63 | KL 0.0046 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0046 Lent 1.1511 | steps 804315 eps 2272 | time 1.62s


GRPO-Process (18h16_09112025):  24%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                         | 72/300 [01:38<06:27,  1.70s/it, KL=0.005, avgR=78.3, beta=0.0001, it_s=1.68]

Iter 0071 | avgR   78.33 ¬± 46.11 | KL 0.0050 (Œ≤=0.0001) | Lclip 0.0037 Lkl 0.0050 Lent 1.1348 | steps 825754 eps 2304 | time 1.68s


GRPO-Process (18h16_09112025):  24%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                         | 73/300 [01:40<06:24,  1.69s/it, KL=0.005, avgR=54.4, beta=0.0001, it_s=1.67]

Iter 0072 | avgR   54.37 ¬± 37.17 | KL 0.0046 (Œ≤=0.0001) | Lclip 0.0020 Lkl 0.0046 Lent 1.1088 | steps 843665 eps 2336 | time 1.67s


GRPO-Process (18h16_09112025):  25%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                        | 74/300 [01:41<06:25,  1.71s/it, KL=0.003, avgR=56.8, beta=0.0001, it_s=1.73]

Iter 0073 | avgR   56.78 ¬± 46.50 | KL 0.0031 (Œ≤=0.0001) | Lclip 0.0017 Lkl 0.0031 Lent 1.1158 | steps 863134 eps 2368 | time 1.73s


GRPO-Process (18h16_09112025):  25%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                        | 75/300 [01:43<06:27,  1.72s/it, KL=0.005, avgR=52.4, beta=0.0001, it_s=1.76]

Iter 0074 | avgR   52.42 ¬± 41.31 | KL 0.0054 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0054 Lent 1.1316 | steps 883918 eps 2400 | time 1.76s


GRPO-Process (18h16_09112025):  25%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                        | 76/300 [01:45<06:24,  1.72s/it, KL=0.005, avgR=54.1, beta=0.0001, it_s=1.70]

Iter 0075 | avgR   54.09 ¬± 43.88 | KL 0.0045 (Œ≤=0.0001) | Lclip 0.0019 Lkl 0.0045 Lent 1.0950 | steps 905445 eps 2432 | time 1.70s


GRPO-Process (18h16_09112025):  26%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                        | 77/300 [01:47<06:21,  1.71s/it, KL=0.005, avgR=51.5, beta=0.0001, it_s=1.70]

Iter 0076 | avgR   51.47 ¬± 49.01 | KL 0.0050 (Œ≤=0.0001) | Lclip 0.0036 Lkl 0.0050 Lent 1.0791 | steps 927219 eps 2464 | time 1.70s


GRPO-Process (18h16_09112025):  26%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                        | 78/300 [01:48<06:17,  1.70s/it, KL=0.004, avgR=59.1, beta=0.0001, it_s=1.67]

Iter 0077 | avgR   59.15 ¬± 29.22 | KL 0.0040 (Œ≤=0.0001) | Lclip 0.0011 Lkl 0.0040 Lent 1.1050 | steps 946795 eps 2496 | time 1.67s


GRPO-Process (18h16_09112025):  26%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                        | 79/300 [01:50<06:22,  1.73s/it, KL=0.003, avgR=82.0, beta=0.0001, it_s=1.80]

Iter 0078 | avgR   82.00 ¬± 30.92 | KL 0.0031 (Œ≤=0.0001) | Lclip 0.0014 Lkl 0.0031 Lent 1.1450 | steps 972509 eps 2528 | time 1.80s


GRPO-Process (18h16_09112025):  27%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                        | 80/300 [01:52<06:45,  1.84s/it, KL=0.005, avgR=75.8, beta=0.0001, it_s=2.10]

Iter 0079 | avgR   75.83 ¬± 29.67 | KL 0.0051 (Œ≤=0.0001) | Lclip 0.0026 Lkl 0.0051 Lent 1.1328 | steps 1000034 eps 2560 | time 2.10s


GRPO-Process (18h16_09112025):  27%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                        | 81/300 [01:54<07:07,  1.95s/it, KL=0.005, avgR=68.5, beta=0.0001, it_s=2.20]

Iter 0080 | avgR   68.55 ¬± 33.79 | KL 0.0049 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0049 Lent 1.1360 | steps 1027509 eps 2592 | time 2.20s


GRPO-Process (18h16_09112025):  27%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                        | 82/300 [01:57<07:16,  2.00s/it, KL=0.006, avgR=76.2, beta=0.0001, it_s=2.12]

Iter 0081 | avgR   76.17 ¬± 46.08 | KL 0.0057 (Œ≤=0.0001) | Lclip 0.0024 Lkl 0.0057 Lent 1.1669 | steps 1050515 eps 2624 | time 2.12s


GRPO-Process (18h16_09112025):  28%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                       | 83/300 [01:59<07:20,  2.03s/it, KL=0.007, avgR=89.6, beta=0.0001, it_s=2.08]

Iter 0082 | avgR   89.64 ¬± 49.00 | KL 0.0070 (Œ≤=0.0001) | Lclip 0.0030 Lkl 0.0070 Lent 1.1690 | steps 1076404 eps 2656 | time 2.08s


GRPO-Process (18h16_09112025):  28%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                       | 84/300 [02:01<07:20,  2.04s/it, KL=0.005, avgR=64.1, beta=0.0001, it_s=2.06]

Iter 0083 | avgR   64.14 ¬± 38.13 | KL 0.0051 (Œ≤=0.0001) | Lclip 0.0018 Lkl 0.0051 Lent 1.0937 | steps 1103060 eps 2688 | time 2.06s


GRPO-Process (18h16_09112025):  28%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                       | 85/300 [02:03<07:23,  2.06s/it, KL=0.005, avgR=84.2, beta=0.0001, it_s=2.12]

Iter 0084 | avgR   84.23 ¬± 35.56 | KL 0.0047 (Œ≤=0.0001) | Lclip 0.0013 Lkl 0.0047 Lent 1.1198 | steps 1132325 eps 2720 | time 2.12s


GRPO-Process (18h16_09112025):  29%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                       | 86/300 [02:05<07:08,  2.00s/it, KL=0.003, avgR=80.5, beta=0.0001, it_s=1.86]

Iter 0085 | avgR   80.53 ¬± 39.33 | KL 0.0029 (Œ≤=0.0001) | Lclip 0.0009 Lkl 0.0029 Lent 1.1157 | steps 1157188 eps 2752 | time 1.86s


GRPO-Process (18h16_09112025):  29%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                       | 87/300 [02:07<07:14,  2.04s/it, KL=0.004, avgR=73.4, beta=0.0001, it_s=2.13]

Iter 0086 | avgR   73.36 ¬± 64.44 | KL 0.0038 (Œ≤=0.0001) | Lclip 0.0014 Lkl 0.0038 Lent 1.0333 | steps 1184967 eps 2784 | time 2.13s


GRPO-Process (18h16_09112025):  29%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                       | 88/300 [02:08<06:49,  1.93s/it, KL=0.004, avgR=63.2, beta=0.0001, it_s=1.68]

Iter 0087 | avgR   63.21 ¬± 45.24 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0026 Lkl 0.0042 Lent 1.0698 | steps 1207159 eps 2816 | time 1.68s


GRPO-Process (18h16_09112025):  30%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                       | 89/300 [02:11<06:59,  1.99s/it, KL=0.004, avgR=87.5, beta=0.0001, it_s=2.12]

Iter 0088 | avgR   87.49 ¬± 47.51 | KL 0.0039 (Œ≤=0.0001) | Lclip 0.0015 Lkl 0.0039 Lent 1.0994 | steps 1235453 eps 2848 | time 2.12s


GRPO-Process (18h16_09112025):  30%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                       | 89/300 [02:12<06:59,  1.99s/it, KL=0.004, avgR=78.9, beta=0.0001, it_s=1.70]

Iter 0089 | avgR   78.94 ¬± 54.72 | KL 0.0044 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0044 Lent 1.1256 | steps 1259634 eps 2880 | time 1.70s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Process (18h16_09112025):  30%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                       | 90/300 [02:15<09:00,  2.57s/it, KL=0.004, avgR=78.9, beta=0.0001, it_s=1.70]

   ‚úì Reward: 71.94 ¬± 49.12
   ‚úì Success Rate: 5.00%
   ‚úì Legs Touching: 0.45
   ‚úì Mean Velocity: 0.170
   ‚úì Distance from Pad: 0.258


GRPO-Process (18h16_09112025):  30%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                       | 91/300 [02:16<08:15,  2.37s/it, KL=0.004, avgR=73.7, beta=0.0001, it_s=1.90]

Iter 0090 | avgR   73.74 ¬± 45.98 | KL 0.0044 (Œ≤=0.0001) | Lclip 0.0029 Lkl 0.0044 Lent 1.1238 | steps 1283645 eps 2912 | time 1.90s


GRPO-Process (18h16_09112025):  31%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                       | 92/300 [02:18<07:32,  2.17s/it, KL=0.003, avgR=78.1, beta=0.0001, it_s=1.71]

Iter 0091 | avgR   78.08 ¬± 52.60 | KL 0.0035 (Œ≤=0.0001) | Lclip 0.0020 Lkl 0.0035 Lent 1.0781 | steps 1307367 eps 2944 | time 1.71s


GRPO-Process (18h16_09112025):  31%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                      | 93/300 [02:20<07:30,  2.18s/it, KL=0.005, avgR=74.7, beta=0.0001, it_s=2.18]

Iter 0092 | avgR   74.72 ¬± 45.94 | KL 0.0050 (Œ≤=0.0001) | Lclip 0.0022 Lkl 0.0050 Lent 1.0322 | steps 1335471 eps 2976 | time 2.18s


GRPO-Process (18h16_09112025):  31%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                      | 94/300 [02:22<07:10,  2.09s/it, KL=0.004, avgR=71.2, beta=0.0001, it_s=1.88]

Iter 0093 | avgR   71.15 ¬± 45.13 | KL 0.0039 (Œ≤=0.0001) | Lclip 0.0035 Lkl 0.0039 Lent 1.0670 | steps 1359130 eps 3008 | time 1.88s


GRPO-Process (18h16_09112025):  32%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                      | 95/300 [02:25<07:23,  2.17s/it, KL=0.005, avgR=93.9, beta=0.0001, it_s=2.34]

Iter 0094 | avgR   93.88 ¬± 41.56 | KL 0.0046 (Œ≤=0.0001) | Lclip 0.0013 Lkl 0.0046 Lent 1.0587 | steps 1387435 eps 3040 | time 2.34s


GRPO-Process (18h16_09112025):  32%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                      | 96/300 [02:26<07:04,  2.08s/it, KL=0.005, avgR=69.9, beta=0.0001, it_s=1.88]

Iter 0095 | avgR   69.89 ¬± 40.90 | KL 0.0055 (Œ≤=0.0001) | Lclip 0.0027 Lkl 0.0055 Lent 1.0941 | steps 1411338 eps 3072 | time 1.88s


GRPO-Process (18h16_09112025):  32%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                      | 97/300 [02:28<06:49,  2.02s/it, KL=0.002, avgR=76.4, beta=0.0001, it_s=1.87]

Iter 0096 | avgR   76.37 ¬± 47.00 | KL 0.0020 (Œ≤=0.0001) | Lclip 0.0008 Lkl 0.0020 Lent 1.0662 | steps 1437154 eps 3104 | time 1.87s


GRPO-Process (18h16_09112025):  33%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                      | 98/300 [02:30<06:35,  1.96s/it, KL=0.005, avgR=72.2, beta=0.0001, it_s=1.82]

Iter 0097 | avgR   72.18 ¬± 58.96 | KL 0.0051 (Œ≤=0.0001) | Lclip 0.0030 Lkl 0.0051 Lent 1.0940 | steps 1459353 eps 3136 | time 1.82s


GRPO-Process (18h16_09112025):  33%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                      | 99/300 [02:32<06:46,  2.02s/it, KL=0.005, avgR=97.8, beta=0.0001, it_s=2.16]

Iter 0098 | avgR   97.75 ¬± 59.33 | KL 0.0045 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0045 Lent 1.0677 | steps 1487225 eps 3168 | time 2.16s


GRPO-Process (18h16_09112025):  33%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                    | 100/300 [02:34<06:21,  1.91s/it, KL=0.004, avgR=107.2, beta=0.0001, it_s=1.64]

Iter 0099 | avgR  107.22 ¬± 63.88 | KL 0.0044 (Œ≤=0.0001) | Lclip 0.0015 Lkl 0.0044 Lent 1.0257 | steps 1510288 eps 3200 | time 1.64s


GRPO-Process (18h16_09112025):  34%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                     | 101/300 [02:36<06:13,  1.88s/it, KL=0.004, avgR=83.6, beta=0.0001, it_s=1.81]

Iter 0100 | avgR   83.60 ¬± 58.25 | KL 0.0039 (Œ≤=0.0001) | Lclip 0.0038 Lkl 0.0039 Lent 1.0117 | steps 1531973 eps 3232 | time 1.81s


GRPO-Process (18h16_09112025):  34%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                     | 102/300 [02:37<05:59,  1.82s/it, KL=0.004, avgR=82.8, beta=0.0001, it_s=1.67]

Iter 0101 | avgR   82.77 ¬± 49.01 | KL 0.0036 (Œ≤=0.0001) | Lclip 0.0031 Lkl 0.0036 Lent 1.0700 | steps 1553524 eps 3264 | time 1.67s


GRPO-Process (18h16_09112025):  34%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                     | 103/300 [02:39<06:03,  1.84s/it, KL=0.004, avgR=94.3, beta=0.0001, it_s=1.90]

Iter 0102 | avgR   94.26 ¬± 45.71 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0018 Lkl 0.0042 Lent 1.0645 | steps 1578649 eps 3296 | time 1.90s


GRPO-Process (18h16_09112025):  35%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                     | 104/300 [02:42<06:20,  1.94s/it, KL=0.004, avgR=94.6, beta=0.0001, it_s=2.17]

Iter 0103 | avgR   94.64 ¬± 31.91 | KL 0.0044 (Œ≤=0.0001) | Lclip 0.0018 Lkl 0.0044 Lent 1.1185 | steps 1605465 eps 3328 | time 2.17s


GRPO-Process (18h16_09112025):  35%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                    | 105/300 [02:44<06:41,  2.06s/it, KL=0.004, avgR=93.6, beta=0.0001, it_s=2.32]

Iter 0104 | avgR   93.65 ¬± 30.84 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0018 Lkl 0.0042 Lent 1.0976 | steps 1636432 eps 3360 | time 2.32s


GRPO-Process (18h16_09112025):  35%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                    | 106/300 [02:46<06:44,  2.09s/it, KL=0.004, avgR=85.2, beta=0.0001, it_s=2.15]

Iter 0105 | avgR   85.22 ¬± 32.33 | KL 0.0041 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0041 Lent 1.1127 | steps 1667182 eps 3392 | time 2.15s


GRPO-Process (18h16_09112025):  36%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                    | 107/300 [02:48<06:41,  2.08s/it, KL=0.006, avgR=80.4, beta=0.0001, it_s=2.05]

Iter 0106 | avgR   80.37 ¬± 39.57 | KL 0.0060 (Œ≤=0.0001) | Lclip 0.0029 Lkl 0.0060 Lent 1.0843 | steps 1694555 eps 3424 | time 2.05s


GRPO-Process (18h16_09112025):  36%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                    | 108/300 [02:50<06:20,  1.98s/it, KL=0.004, avgR=83.4, beta=0.0001, it_s=1.76]

Iter 0107 | avgR   83.37 ¬± 40.59 | KL 0.0037 (Œ≤=0.0001) | Lclip 0.0029 Lkl 0.0037 Lent 1.0596 | steps 1719506 eps 3456 | time 1.76s


GRPO-Process (18h16_09112025):  36%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                    | 109/300 [02:52<06:31,  2.05s/it, KL=0.005, avgR=86.2, beta=0.0001, it_s=2.20]

Iter 0108 | avgR   86.19 ¬± 39.34 | KL 0.0052 (Œ≤=0.0001) | Lclip 0.0027 Lkl 0.0052 Lent 1.0721 | steps 1747042 eps 3488 | time 2.20s


GRPO-Process (18h16_09112025):  37%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                    | 110/300 [02:54<06:38,  2.10s/it, KL=0.003, avgR=89.1, beta=0.0001, it_s=2.20]

Iter 0109 | avgR   89.11 ¬± 32.30 | KL 0.0035 (Œ≤=0.0001) | Lclip 0.0012 Lkl 0.0035 Lent 1.1032 | steps 1777216 eps 3520 | time 2.20s


GRPO-Process (18h16_09112025):  37%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                    | 111/300 [02:56<06:44,  2.14s/it, KL=0.005, avgR=97.4, beta=0.0001, it_s=2.23]

Iter 0110 | avgR   97.44 ¬± 48.14 | KL 0.0046 (Œ≤=0.0001) | Lclip 0.0028 Lkl 0.0046 Lent 1.1301 | steps 1806624 eps 3552 | time 2.23s


GRPO-Process (18h16_09112025):  37%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                    | 112/300 [02:59<06:48,  2.17s/it, KL=0.005, avgR=80.8, beta=0.0001, it_s=2.24]

Iter 0111 | avgR   80.76 ¬± 37.20 | KL 0.0049 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0049 Lent 1.0977 | steps 1833292 eps 3584 | time 2.24s


GRPO-Process (18h16_09112025):  38%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                    | 113/300 [03:01<06:49,  2.19s/it, KL=0.005, avgR=87.5, beta=0.0001, it_s=2.23]

Iter 0112 | avgR   87.47 ¬± 44.55 | KL 0.0054 (Œ≤=0.0001) | Lclip 0.0014 Lkl 0.0054 Lent 1.1046 | steps 1860841 eps 3616 | time 2.23s


GRPO-Process (18h16_09112025):  38%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                   | 114/300 [03:03<06:54,  2.23s/it, KL=0.004, avgR=99.1, beta=0.0001, it_s=2.31]

Iter 0113 | avgR   99.09 ¬± 37.18 | KL 0.0043 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0043 Lent 1.0497 | steps 1891031 eps 3648 | time 2.31s


GRPO-Process (18h16_09112025):  38%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                   | 115/300 [03:05<06:47,  2.20s/it, KL=0.004, avgR=84.4, beta=0.0001, it_s=2.14]

Iter 0114 | avgR   84.39 ¬± 36.91 | KL 0.0043 (Œ≤=0.0001) | Lclip 0.0027 Lkl 0.0043 Lent 1.0695 | steps 1922074 eps 3680 | time 2.14s


GRPO-Process (18h16_09112025):  39%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                   | 116/300 [03:07<06:38,  2.17s/it, KL=0.004, avgR=97.6, beta=0.0001, it_s=2.07]

Iter 0115 | avgR   97.64 ¬± 44.92 | KL 0.0043 (Œ≤=0.0001) | Lclip 0.0014 Lkl 0.0043 Lent 1.0555 | steps 1950297 eps 3712 | time 2.07s


GRPO-Process (18h16_09112025):  39%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                   | 117/300 [03:10<06:36,  2.16s/it, KL=0.005, avgR=94.1, beta=0.0001, it_s=2.16]

Iter 0116 | avgR   94.11 ¬± 33.14 | KL 0.0049 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0049 Lent 1.0881 | steps 1982615 eps 3744 | time 2.16s


GRPO-Process (18h16_09112025):  39%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                  | 118/300 [03:12<06:39,  2.19s/it, KL=0.004, avgR=109.6, beta=0.0001, it_s=2.26]

Iter 0117 | avgR  109.57 ¬± 27.56 | KL 0.0040 (Œ≤=0.0001) | Lclip 0.0019 Lkl 0.0040 Lent 1.0683 | steps 2015224 eps 3776 | time 2.26s


GRPO-Process (18h16_09112025):  40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                   | 119/300 [03:14<06:33,  2.17s/it, KL=0.003, avgR=86.9, beta=0.0001, it_s=2.13]

Iter 0118 | avgR   86.88 ¬± 36.36 | KL 0.0033 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0033 Lent 1.0861 | steps 2044566 eps 3808 | time 2.13s


GRPO-Process (18h16_09112025):  40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                   | 119/300 [03:16<06:33,  2.17s/it, KL=0.005, avgR=84.1, beta=0.0001, it_s=2.33]

Iter 0119 | avgR   84.06 ¬± 33.98 | KL 0.0046 (Œ≤=0.0001) | Lclip 0.0018 Lkl 0.0046 Lent 1.0565 | steps 2074703 eps 3840 | time 2.33s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Process (18h16_09112025):  40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                   | 120/300 [03:19<08:49,  2.94s/it, KL=0.005, avgR=84.1, beta=0.0001, it_s=2.33]

   ‚úì Reward: 93.67 ¬± 50.23
   ‚úì Success Rate: 2.00%
   ‚úì Legs Touching: 0.36
   ‚úì Mean Velocity: 0.062
   ‚úì Distance from Pad: 0.292


GRPO-Process (18h16_09112025):  40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                   | 121/300 [03:21<07:50,  2.63s/it, KL=0.005, avgR=90.8, beta=0.0001, it_s=1.89]

Iter 0120 | avgR   90.82 ¬± 55.95 | KL 0.0047 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0047 Lent 1.0727 | steps 2100586 eps 3872 | time 1.89s


GRPO-Process (18h16_09112025):  41%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                   | 122/300 [03:23<07:30,  2.53s/it, KL=0.004, avgR=85.2, beta=0.0001, it_s=2.30]

Iter 0121 | avgR   85.24 ¬± 24.51 | KL 0.0044 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0044 Lent 1.0874 | steps 2132492 eps 3904 | time 2.30s


GRPO-Process (18h16_09112025):  41%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                  | 123/300 [03:25<07:12,  2.44s/it, KL=0.004, avgR=100.4, beta=0.0001, it_s=2.24]

Iter 0122 | avgR  100.45 ¬± 49.75 | KL 0.0045 (Œ≤=0.0001) | Lclip 0.0022 Lkl 0.0045 Lent 1.0565 | steps 2162316 eps 3936 | time 2.24s


GRPO-Process (18h16_09112025):  41%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                  | 124/300 [03:27<06:57,  2.37s/it, KL=0.004, avgR=119.5, beta=0.0001, it_s=2.20]

Iter 0123 | avgR  119.52 ¬± 49.70 | KL 0.0036 (Œ≤=0.0001) | Lclip 0.0020 Lkl 0.0036 Lent 1.0626 | steps 2191537 eps 3968 | time 2.20s


GRPO-Process (18h16_09112025):  42%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                  | 125/300 [03:30<06:42,  2.30s/it, KL=0.005, avgR=92.9, beta=0.0001, it_s=2.13]

Iter 0124 | avgR   92.93 ¬± 37.86 | KL 0.0053 (Œ≤=0.0001) | Lclip 0.0022 Lkl 0.0053 Lent 1.1317 | steps 2219278 eps 4000 | time 2.13s


GRPO-Process (18h16_09112025):  42%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                  | 126/300 [03:32<06:34,  2.27s/it, KL=0.003, avgR=91.4, beta=0.0001, it_s=2.18]

Iter 0125 | avgR   91.37 ¬± 39.10 | KL 0.0027 (Œ≤=0.0001) | Lclip 0.0011 Lkl 0.0027 Lent 1.1165 | steps 2247710 eps 4032 | time 2.18s


GRPO-Process (18h16_09112025):  42%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                  | 127/300 [03:34<06:33,  2.27s/it, KL=0.005, avgR=99.9, beta=0.0001, it_s=2.29]

Iter 0126 | avgR   99.86 ¬± 32.90 | KL 0.0046 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0046 Lent 1.1066 | steps 2278519 eps 4064 | time 2.29s


GRPO-Process (18h16_09112025):  43%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                 | 128/300 [03:36<06:26,  2.24s/it, KL=0.004, avgR=108.9, beta=0.0001, it_s=2.17]

Iter 0127 | avgR  108.91 ¬± 35.83 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0020 Lkl 0.0042 Lent 1.1318 | steps 2309336 eps 4096 | time 2.17s


GRPO-Process (18h16_09112025):  43%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                 | 129/300 [03:38<06:25,  2.26s/it, KL=0.006, avgR=106.6, beta=0.0001, it_s=2.28]

Iter 0128 | avgR  106.64 ¬± 23.09 | KL 0.0059 (Œ≤=0.0001) | Lclip 0.0027 Lkl 0.0059 Lent 1.1455 | steps 2342104 eps 4128 | time 2.28s


GRPO-Process (18h16_09112025):  43%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                 | 130/300 [03:41<06:18,  2.23s/it, KL=0.005, avgR=102.7, beta=0.0001, it_s=2.16]

Iter 0129 | avgR  102.74 ¬± 38.93 | KL 0.0047 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0047 Lent 1.1179 | steps 2372098 eps 4160 | time 2.16s


GRPO-Process (18h16_09112025):  44%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                  | 131/300 [03:43<06:02,  2.15s/it, KL=0.005, avgR=84.4, beta=0.0001, it_s=1.95]

Iter 0130 | avgR   84.42 ¬± 39.54 | KL 0.0048 (Œ≤=0.0001) | Lclip 0.0023 Lkl 0.0048 Lent 1.1295 | steps 2397940 eps 4192 | time 1.95s


GRPO-Process (18h16_09112025):  44%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                 | 132/300 [03:45<06:38,  2.37s/it, KL=0.006, avgR=100.4, beta=0.0001, it_s=2.89]

Iter 0131 | avgR  100.40 ¬± 34.73 | KL 0.0055 (Œ≤=0.0001) | Lclip 0.0030 Lkl 0.0055 Lent 1.0979 | steps 2428817 eps 4224 | time 2.89s


GRPO-Process (18h16_09112025):  44%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                 | 133/300 [03:48<06:27,  2.32s/it, KL=0.007, avgR=99.9, beta=0.0001, it_s=2.19]

Iter 0132 | avgR   99.91 ¬± 41.53 | KL 0.0074 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0074 Lent 1.1277 | steps 2457267 eps 4256 | time 2.19s


GRPO-Process (18h16_09112025):  45%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                 | 134/300 [03:50<06:22,  2.30s/it, KL=0.004, avgR=102.7, beta=0.0001, it_s=2.26]

Iter 0133 | avgR  102.75 ¬± 47.49 | KL 0.0041 (Œ≤=0.0001) | Lclip 0.0013 Lkl 0.0041 Lent 1.1023 | steps 2486613 eps 4288 | time 2.26s


GRPO-Process (18h16_09112025):  45%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                 | 135/300 [03:53<06:38,  2.41s/it, KL=0.004, avgR=100.8, beta=0.0001, it_s=2.67]

Iter 0134 | avgR  100.76 ¬± 35.07 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0042 Lent 1.0558 | steps 2518506 eps 4320 | time 2.67s


GRPO-Process (18h16_09112025):  45%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                 | 136/300 [03:55<06:32,  2.39s/it, KL=0.004, avgR=101.3, beta=0.0001, it_s=2.33]

Iter 0135 | avgR  101.30 ¬± 38.91 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0022 Lkl 0.0042 Lent 1.1041 | steps 2547867 eps 4352 | time 2.33s


GRPO-Process (18h16_09112025):  46%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                 | 137/300 [03:57<06:16,  2.31s/it, KL=0.005, avgR=91.0, beta=0.0001, it_s=2.12]

Iter 0136 | avgR   91.03 ¬± 43.31 | KL 0.0048 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0048 Lent 1.1352 | steps 2576320 eps 4384 | time 2.12s


GRPO-Process (18h16_09112025):  46%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                 | 138/300 [03:59<06:06,  2.26s/it, KL=0.005, avgR=92.8, beta=0.0001, it_s=2.15]

Iter 0137 | avgR   92.77 ¬± 31.49 | KL 0.0048 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0048 Lent 1.1260 | steps 2605599 eps 4416 | time 2.15s


GRPO-Process (18h16_09112025):  46%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                | 139/300 [04:02<06:16,  2.34s/it, KL=0.004, avgR=103.7, beta=0.0001, it_s=2.51]

Iter 0138 | avgR  103.74 ¬± 36.38 | KL 0.0043 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0043 Lent 1.0542 | steps 2636633 eps 4448 | time 2.51s


GRPO-Process (18h16_09112025):  47%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                 | 140/300 [04:04<06:24,  2.41s/it, KL=0.004, avgR=97.6, beta=0.0001, it_s=2.56]

Iter 0139 | avgR   97.56 ¬± 44.39 | KL 0.0041 (Œ≤=0.0001) | Lclip 0.0014 Lkl 0.0041 Lent 1.0921 | steps 2666885 eps 4480 | time 2.56s


GRPO-Process (18h16_09112025):  47%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                 | 141/300 [04:06<06:10,  2.33s/it, KL=0.005, avgR=97.0, beta=0.0001, it_s=2.16]

Iter 0140 | avgR   96.98 ¬± 40.11 | KL 0.0055 (Œ≤=0.0001) | Lclip 0.0017 Lkl 0.0055 Lent 1.0995 | steps 2696101 eps 4512 | time 2.16s


GRPO-Process (18h16_09112025):  47%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                | 142/300 [04:09<06:01,  2.29s/it, KL=0.004, avgR=104.5, beta=0.0001, it_s=2.18]

Iter 0141 | avgR  104.48 ¬± 39.96 | KL 0.0038 (Œ≤=0.0001) | Lclip 0.0017 Lkl 0.0038 Lent 1.0952 | steps 2725460 eps 4544 | time 2.18s


GRPO-Process (18h16_09112025):  48%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                | 143/300 [04:11<05:50,  2.23s/it, KL=0.003, avgR=88.0, beta=0.0001, it_s=2.10]

Iter 0142 | avgR   88.01 ¬± 42.55 | KL 0.0032 (Œ≤=0.0001) | Lclip 0.0010 Lkl 0.0032 Lent 1.1154 | steps 2752189 eps 4576 | time 2.10s


GRPO-Process (18h16_09112025):  48%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                | 144/300 [04:13<06:05,  2.34s/it, KL=0.005, avgR=107.5, beta=0.0001, it_s=2.60]

Iter 0143 | avgR  107.46 ¬± 33.38 | KL 0.0048 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0048 Lent 1.0649 | steps 2782283 eps 4608 | time 2.60s


GRPO-Process (18h16_09112025):  48%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                | 145/300 [04:16<05:55,  2.30s/it, KL=0.004, avgR=101.1, beta=0.0001, it_s=2.18]

Iter 0144 | avgR  101.12 ¬± 41.90 | KL 0.0036 (Œ≤=0.0001) | Lclip 0.0006 Lkl 0.0036 Lent 1.0678 | steps 2811880 eps 4640 | time 2.18s


GRPO-Process (18h16_09112025):  49%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                | 146/300 [04:18<06:05,  2.37s/it, KL=0.004, avgR=113.6, beta=0.0001, it_s=2.54]

Iter 0145 | avgR  113.65 ¬± 37.10 | KL 0.0045 (Œ≤=0.0001) | Lclip 0.0018 Lkl 0.0045 Lent 1.0793 | steps 2843032 eps 4672 | time 2.54s


GRPO-Process (18h16_09112025):  49%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè               | 147/300 [04:21<06:16,  2.46s/it, KL=0.004, avgR=103.7, beta=0.0001, it_s=2.65]

Iter 0146 | avgR  103.70 ¬± 30.56 | KL 0.0037 (Œ≤=0.0001) | Lclip 0.0014 Lkl 0.0037 Lent 1.0578 | steps 2874091 eps 4704 | time 2.65s


GRPO-Process (18h16_09112025):  49%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                | 148/300 [04:23<06:04,  2.40s/it, KL=0.004, avgR=97.7, beta=0.0001, it_s=2.26]

Iter 0147 | avgR   97.67 ¬± 38.61 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0012 Lkl 0.0042 Lent 1.0328 | steps 2903001 eps 4736 | time 2.26s


GRPO-Process (18h16_09112025):  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç               | 149/300 [04:26<06:12,  2.47s/it, KL=0.005, avgR=113.7, beta=0.0001, it_s=2.62]

Iter 0148 | avgR  113.65 ¬± 36.05 | KL 0.0053 (Œ≤=0.0001) | Lclip 0.0018 Lkl 0.0053 Lent 1.0439 | steps 2935358 eps 4768 | time 2.62s


GRPO-Process (18h16_09112025):  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç               | 149/300 [04:28<06:12,  2.47s/it, KL=0.005, avgR=109.1, beta=0.0001, it_s=2.62]

Iter 0149 | avgR  109.11 ¬± 29.34 | KL 0.0047 (Œ≤=0.0001) | Lclip 0.0017 Lkl 0.0047 Lent 1.0657 | steps 2966188 eps 4800 | time 2.62s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Process (18h16_09112025):  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå               | 150/300 [04:31<08:11,  3.28s/it, KL=0.005, avgR=109.1, beta=0.0001, it_s=2.62]

   ‚úì Reward: 101.04 ¬± 36.89
   ‚úì Success Rate: 2.00%
   ‚úì Legs Touching: 0.12
   ‚úì Mean Velocity: 0.201
   ‚úì Distance from Pad: 0.212


GRPO-Process (18h16_09112025):  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                | 151/300 [04:33<07:41,  3.10s/it, KL=0.005, avgR=98.6, beta=0.0001, it_s=2.67]

Iter 0150 | avgR   98.56 ¬± 35.59 | KL 0.0050 (Œ≤=0.0001) | Lclip 0.0015 Lkl 0.0050 Lent 1.0483 | steps 2998082 eps 4832 | time 2.67s


GRPO-Process (18h16_09112025):  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè               | 152/300 [04:36<07:16,  2.95s/it, KL=0.004, avgR=91.2, beta=0.0001, it_s=2.60]

Iter 0151 | avgR   91.20 ¬± 31.65 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0014 Lkl 0.0042 Lent 1.0501 | steps 3029132 eps 4864 | time 2.60s


GRPO-Process (18h16_09112025):  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé               | 153/300 [04:39<06:58,  2.85s/it, KL=0.005, avgR=82.6, beta=0.0001, it_s=2.60]

Iter 0152 | avgR   82.58 ¬± 80.25 | KL 0.0050 (Œ≤=0.0001) | Lclip 0.0017 Lkl 0.0050 Lent 1.0366 | steps 3059215 eps 4896 | time 2.60s


GRPO-Process (18h16_09112025):  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç               | 154/300 [04:41<06:52,  2.82s/it, KL=0.003, avgR=95.4, beta=0.0001, it_s=2.77]

Iter 0153 | avgR   95.37 ¬± 30.86 | KL 0.0034 (Œ≤=0.0001) | Lclip 0.0020 Lkl 0.0034 Lent 1.0559 | steps 3091983 eps 4928 | time 2.77s


GRPO-Process (18h16_09112025):  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà               | 155/300 [04:44<06:49,  2.82s/it, KL=0.003, avgR=106.7, beta=0.0001, it_s=2.82]

Iter 0154 | avgR  106.72 ¬± 43.80 | KL 0.0031 (Œ≤=0.0001) | Lclip 0.0006 Lkl 0.0031 Lent 1.0264 | steps 3122448 eps 4960 | time 2.82s


GRPO-Process (18h16_09112025):  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã               | 156/300 [04:47<06:41,  2.79s/it, KL=0.006, avgR=89.3, beta=0.0001, it_s=2.71]

Iter 0155 | avgR   89.33 ¬± 69.95 | KL 0.0059 (Œ≤=0.0001) | Lclip 0.0014 Lkl 0.0059 Lent 1.0376 | steps 3152678 eps 4992 | time 2.71s


GRPO-Process (18h16_09112025):  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã               | 157/300 [04:50<06:40,  2.80s/it, KL=0.003, avgR=86.6, beta=0.0001, it_s=2.83]

Iter 0156 | avgR   86.59 ¬± 25.67 | KL 0.0031 (Œ≤=0.0001) | Lclip 0.0012 Lkl 0.0031 Lent 1.0620 | steps 3185446 eps 5024 | time 2.83s


GRPO-Process (18h16_09112025):  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä               | 158/300 [04:53<06:34,  2.78s/it, KL=0.003, avgR=97.9, beta=0.0001, it_s=2.72]

Iter 0157 | avgR   97.91 ¬± 43.15 | KL 0.0031 (Œ≤=0.0001) | Lclip 0.0008 Lkl 0.0031 Lent 1.0048 | steps 3215807 eps 5056 | time 2.72s


GRPO-Process (18h16_09112025):  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ               | 159/300 [04:55<06:26,  2.74s/it, KL=0.004, avgR=90.9, beta=0.0001, it_s=2.64]

Iter 0158 | avgR   90.88 ¬± 36.78 | KL 0.0037 (Œ≤=0.0001) | Lclip 0.0022 Lkl 0.0037 Lent 1.0835 | steps 3246838 eps 5088 | time 2.64s


GRPO-Process (18h16_09112025):  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå              | 160/300 [04:58<06:23,  2.74s/it, KL=0.005, avgR=102.8, beta=0.0001, it_s=2.72]

Iter 0159 | avgR  102.83 ¬± 31.63 | KL 0.0046 (Œ≤=0.0001) | Lclip 0.0019 Lkl 0.0046 Lent 1.0668 | steps 3279606 eps 5120 | time 2.72s


GRPO-Process (18h16_09112025):  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè              | 161/300 [05:01<06:13,  2.69s/it, KL=0.004, avgR=95.4, beta=0.0001, it_s=2.56]

Iter 0160 | avgR   95.44 ¬± 49.85 | KL 0.0037 (Œ≤=0.0001) | Lclip 0.0015 Lkl 0.0037 Lent 1.0811 | steps 3310624 eps 5152 | time 2.56s


GRPO-Process (18h16_09112025):  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé              | 162/300 [05:03<05:48,  2.52s/it, KL=0.003, avgR=95.4, beta=0.0001, it_s=2.14]

Iter 0161 | avgR   95.41 ¬± 38.78 | KL 0.0034 (Œ≤=0.0001) | Lclip 0.0024 Lkl 0.0034 Lent 1.0736 | steps 3339328 eps 5184 | time 2.14s


GRPO-Process (18h16_09112025):  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä              | 163/300 [05:05<05:50,  2.56s/it, KL=0.003, avgR=107.8, beta=0.0001, it_s=2.63]

Iter 0162 | avgR  107.82 ¬± 45.90 | KL 0.0025 (Œ≤=0.0001) | Lclip 0.0004 Lkl 0.0025 Lent 1.0774 | steps 3371206 eps 5216 | time 2.63s


GRPO-Process (18h16_09112025):  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ              | 164/300 [05:08<05:52,  2.60s/it, KL=0.005, avgR=128.0, beta=0.0001, it_s=2.68]

Iter 0163 | avgR  128.02 ¬± 35.46 | KL 0.0050 (Œ≤=0.0001) | Lclip 0.0014 Lkl 0.0050 Lent 1.0561 | steps 3403974 eps 5248 | time 2.68s


GRPO-Process (18h16_09112025):  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà              | 165/300 [05:11<05:48,  2.58s/it, KL=0.005, avgR=104.5, beta=0.0001, it_s=2.55]

Iter 0164 | avgR  104.46 ¬± 35.78 | KL 0.0053 (Œ≤=0.0001) | Lclip 0.0026 Lkl 0.0053 Lent 1.0781 | steps 3434949 eps 5280 | time 2.55s


GRPO-Process (18h16_09112025):  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè             | 166/300 [05:13<05:48,  2.60s/it, KL=0.005, avgR=105.1, beta=0.0001, it_s=2.63]

Iter 0165 | avgR  105.14 ¬± 35.50 | KL 0.0053 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0053 Lent 1.0600 | steps 3467099 eps 5312 | time 2.63s


GRPO-Process (18h16_09112025):  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé             | 167/300 [05:16<05:50,  2.64s/it, KL=0.004, avgR=100.4, beta=0.0001, it_s=2.72]

Iter 0166 | avgR  100.39 ¬± 30.59 | KL 0.0036 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0036 Lent 1.0460 | steps 3499867 eps 5344 | time 2.72s


GRPO-Process (18h16_09112025):  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé             | 168/300 [05:19<05:48,  2.64s/it, KL=0.005, avgR=109.8, beta=0.0001, it_s=2.66]

Iter 0167 | avgR  109.83 ¬± 38.12 | KL 0.0047 (Œ≤=0.0001) | Lclip 0.0024 Lkl 0.0047 Lent 1.0155 | steps 3531462 eps 5376 | time 2.66s


GRPO-Process (18h16_09112025):  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà              | 169/300 [05:21<05:49,  2.67s/it, KL=0.005, avgR=89.6, beta=0.0001, it_s=2.73]

Iter 0168 | avgR   89.58 ¬± 31.15 | KL 0.0047 (Œ≤=0.0001) | Lclip 0.0023 Lkl 0.0047 Lent 1.0877 | steps 3561614 eps 5408 | time 2.73s


GRPO-Process (18h16_09112025):  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå             | 170/300 [05:24<05:44,  2.65s/it, KL=0.007, avgR=113.1, beta=0.0001, it_s=2.59]

Iter 0169 | avgR  113.13 ¬± 42.12 | KL 0.0067 (Œ≤=0.0001) | Lclip 0.0026 Lkl 0.0067 Lent 1.0963 | steps 3593824 eps 5440 | time 2.59s


GRPO-Process (18h16_09112025):  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã             | 171/300 [05:26<05:38,  2.63s/it, KL=0.006, avgR=115.5, beta=0.0001, it_s=2.57]

Iter 0170 | avgR  115.49 ¬± 40.00 | KL 0.0056 (Œ≤=0.0001) | Lclip 0.0015 Lkl 0.0056 Lent 1.0693 | steps 3624739 eps 5472 | time 2.57s


GRPO-Process (18h16_09112025):  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä             | 172/300 [05:29<05:34,  2.61s/it, KL=0.005, avgR=113.1, beta=0.0001, it_s=2.57]

Iter 0171 | avgR  113.07 ¬± 41.24 | KL 0.0053 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0053 Lent 1.0692 | steps 3655246 eps 5504 | time 2.57s


GRPO-Process (18h16_09112025):  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ             | 173/300 [05:32<05:28,  2.59s/it, KL=0.005, avgR=104.4, beta=0.0001, it_s=2.54]

Iter 0172 | avgR  104.42 ¬± 47.66 | KL 0.0048 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0048 Lent 1.1165 | steps 3685393 eps 5536 | time 2.54s


GRPO-Process (18h16_09112025):  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ             | 174/300 [05:34<05:27,  2.60s/it, KL=0.004, avgR=103.2, beta=0.0001, it_s=2.61]

Iter 0173 | avgR  103.23 ¬± 33.67 | KL 0.0044 (Œ≤=0.0001) | Lclip 0.0015 Lkl 0.0044 Lent 1.0805 | steps 3717294 eps 5568 | time 2.61s


GRPO-Process (18h16_09112025):  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà             | 175/300 [05:37<05:24,  2.59s/it, KL=0.006, avgR=100.0, beta=0.0001, it_s=2.58]

Iter 0174 | avgR   99.98 ¬± 23.33 | KL 0.0057 (Œ≤=0.0001) | Lclip 0.0027 Lkl 0.0057 Lent 1.0892 | steps 3748399 eps 5600 | time 2.58s


GRPO-Process (18h16_09112025):  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè            | 176/300 [05:39<05:20,  2.58s/it, KL=0.005, avgR=107.0, beta=0.0001, it_s=2.56]

Iter 0175 | avgR  107.00 ¬± 39.50 | KL 0.0050 (Œ≤=0.0001) | Lclip 0.0013 Lkl 0.0050 Lent 1.1097 | steps 3780473 eps 5632 | time 2.56s


GRPO-Process (18h16_09112025):  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ             | 177/300 [05:42<05:17,  2.58s/it, KL=0.004, avgR=98.9, beta=0.0001, it_s=2.58]

Iter 0176 | avgR   98.85 ¬± 34.16 | KL 0.0045 (Œ≤=0.0001) | Lclip 0.0020 Lkl 0.0045 Lent 1.1018 | steps 3810647 eps 5664 | time 2.58s


GRPO-Process (18h16_09112025):  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç            | 178/300 [05:44<05:01,  2.47s/it, KL=0.005, avgR=100.5, beta=0.0001, it_s=2.20]

Iter 0177 | avgR  100.48 ¬± 45.39 | KL 0.0052 (Œ≤=0.0001) | Lclip 0.0004 Lkl 0.0052 Lent 1.0869 | steps 3839925 eps 5696 | time 2.20s


GRPO-Process (18h16_09112025):  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà             | 179/300 [05:46<04:49,  2.39s/it, KL=0.005, avgR=92.3, beta=0.0001, it_s=2.20]

Iter 0178 | avgR   92.33 ¬± 36.65 | KL 0.0053 (Œ≤=0.0001) | Lclip 0.0023 Lkl 0.0053 Lent 1.1224 | steps 3869226 eps 5728 | time 2.20s


GRPO-Process (18h16_09112025):  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç            | 179/300 [05:49<04:49,  2.39s/it, KL=0.004, avgR=103.5, beta=0.0001, it_s=2.69]

Iter 0179 | avgR  103.46 ¬± 38.69 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0013 Lkl 0.0042 Lent 1.0883 | steps 3900218 eps 5760 | time 2.69s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Process (18h16_09112025):  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå            | 180/300 [05:51<06:26,  3.22s/it, KL=0.004, avgR=103.5, beta=0.0001, it_s=2.69]

   ‚úì Reward: 101.69 ¬± 47.18
   ‚úì Success Rate: 1.00%
   ‚úì Legs Touching: 0.15
   ‚úì Mean Velocity: 0.303
   ‚úì Distance from Pad: 0.289


GRPO-Process (18h16_09112025):  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã            | 181/300 [05:54<06:00,  3.03s/it, KL=0.003, avgR=104.9, beta=0.0001, it_s=2.58]

Iter 0180 | avgR  104.85 ¬± 44.38 | KL 0.0031 (Œ≤=0.0001) | Lclip 0.0011 Lkl 0.0031 Lent 1.0586 | steps 3930327 eps 5792 | time 2.58s


GRPO-Process (18h16_09112025):  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä            | 182/300 [05:57<05:49,  2.96s/it, KL=0.004, avgR=103.9, beta=0.0001, it_s=2.80]

Iter 0181 | avgR  103.90 ¬± 29.60 | KL 0.0036 (Œ≤=0.0001) | Lclip 0.0012 Lkl 0.0036 Lent 1.1201 | steps 3962244 eps 5824 | time 2.80s


GRPO-Process (18h16_09112025):  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ            | 183/300 [05:59<05:31,  2.84s/it, KL=0.005, avgR=101.0, beta=0.0001, it_s=2.53]

Iter 0182 | avgR  101.03 ¬± 47.44 | KL 0.0051 (Œ≤=0.0001) | Lclip 0.0018 Lkl 0.0051 Lent 1.1012 | steps 3992743 eps 5856 | time 2.53s


GRPO-Process (18h16_09112025):  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà            | 184/300 [06:02<05:21,  2.77s/it, KL=0.005, avgR=100.4, beta=0.0001, it_s=2.62]

Iter 0183 | avgR  100.36 ¬± 39.52 | KL 0.0048 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0048 Lent 1.0815 | steps 4022943 eps 5888 | time 2.62s


GRPO-Process (18h16_09112025):  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà            | 185/300 [06:05<05:14,  2.73s/it, KL=0.005, avgR=112.1, beta=0.0001, it_s=2.64]

Iter 0184 | avgR  112.08 ¬± 37.44 | KL 0.0045 (Œ≤=0.0001) | Lclip 0.0023 Lkl 0.0045 Lent 1.0550 | steps 4053313 eps 5920 | time 2.64s


GRPO-Process (18h16_09112025):  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä            | 186/300 [06:07<04:52,  2.56s/it, KL=0.005, avgR=91.9, beta=0.0001, it_s=2.16]

Iter 0185 | avgR   91.86 ¬± 45.90 | KL 0.0051 (Œ≤=0.0001) | Lclip 0.0012 Lkl 0.0051 Lent 1.0702 | steps 4082629 eps 5952 | time 2.16s


GRPO-Process (18h16_09112025):  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ            | 187/300 [06:09<04:36,  2.45s/it, KL=0.005, avgR=98.0, beta=0.0001, it_s=2.17]

Iter 0186 | avgR   98.05 ¬± 40.15 | KL 0.0052 (Œ≤=0.0001) | Lclip 0.0024 Lkl 0.0052 Lent 1.0577 | steps 4112357 eps 5984 | time 2.17s


GRPO-Process (18h16_09112025):  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç           | 188/300 [06:12<04:38,  2.48s/it, KL=0.004, avgR=107.1, beta=0.0001, it_s=2.57]

Iter 0187 | avgR  107.09 ¬± 38.33 | KL 0.0040 (Œ≤=0.0001) | Lclip 0.0011 Lkl 0.0040 Lent 1.0583 | steps 4144242 eps 6016 | time 2.57s


GRPO-Process (18h16_09112025):  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè           | 189/300 [06:14<04:41,  2.54s/it, KL=0.004, avgR=97.1, beta=0.0001, it_s=2.67]

Iter 0188 | avgR   97.08 ¬± 42.97 | KL 0.0041 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0041 Lent 1.0786 | steps 4175296 eps 6048 | time 2.67s


GRPO-Process (18h16_09112025):  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã           | 190/300 [06:17<04:43,  2.58s/it, KL=0.004, avgR=112.4, beta=0.0001, it_s=2.66]

Iter 0189 | avgR  112.36 ¬± 32.13 | KL 0.0041 (Œ≤=0.0001) | Lclip 0.0015 Lkl 0.0041 Lent 1.0852 | steps 4208064 eps 6080 | time 2.66s


GRPO-Process (18h16_09112025):  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã           | 191/300 [06:19<04:41,  2.58s/it, KL=0.004, avgR=113.1, beta=0.0001, it_s=2.59]

Iter 0190 | avgR  113.14 ¬± 53.04 | KL 0.0042 (Œ≤=0.0001) | Lclip 0.0027 Lkl 0.0042 Lent 1.0421 | steps 4239238 eps 6112 | time 2.59s


GRPO-Process (18h16_09112025):  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä           | 192/300 [06:22<04:38,  2.58s/it, KL=0.004, avgR=110.0, beta=0.0001, it_s=2.56]

Iter 0191 | avgR  110.00 ¬± 41.77 | KL 0.0038 (Œ≤=0.0001) | Lclip 0.0017 Lkl 0.0038 Lent 1.0332 | steps 4269530 eps 6144 | time 2.56s


GRPO-Process (18h16_09112025):  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå           | 193/300 [06:25<04:34,  2.57s/it, KL=0.004, avgR=98.2, beta=0.0001, it_s=2.55]

Iter 0192 | avgR   98.20 ¬± 37.90 | KL 0.0036 (Œ≤=0.0001) | Lclip 0.0014 Lkl 0.0036 Lent 1.0511 | steps 4299708 eps 6176 | time 2.55s


GRPO-Process (18h16_09112025):  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã           | 194/300 [06:27<04:32,  2.57s/it, KL=0.004, avgR=83.7, beta=0.0001, it_s=2.56]

Iter 0193 | avgR   83.66 ¬± 35.35 | KL 0.0035 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0035 Lent 1.0717 | steps 4330745 eps 6208 | time 2.56s


GRPO-Process (18h16_09112025):  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè          | 195/300 [06:30<04:34,  2.62s/it, KL=0.006, avgR=106.5, beta=0.0001, it_s=2.72]

Iter 0194 | avgR  106.47 ¬± 42.94 | KL 0.0056 (Œ≤=0.0001) | Lclip 0.0021 Lkl 0.0056 Lent 1.0741 | steps 4361592 eps 6240 | time 2.72s


GRPO-Process (18h16_09112025):  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ           | 196/300 [06:32<04:28,  2.58s/it, KL=0.005, avgR=95.4, beta=0.0001, it_s=2.51]

Iter 0195 | avgR   95.43 ¬± 36.22 | KL 0.0048 (Œ≤=0.0001) | Lclip 0.0013 Lkl 0.0048 Lent 1.0793 | steps 4392637 eps 6272 | time 2.51s


GRPO-Process (18h16_09112025):  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé          | 197/300 [06:35<04:28,  2.61s/it, KL=0.005, avgR=105.8, beta=0.0001, it_s=2.65]

Iter 0196 | avgR  105.78 ¬± 40.60 | KL 0.0048 (Œ≤=0.0001) | Lclip 0.0011 Lkl 0.0048 Lent 1.0589 | steps 4422958 eps 6304 | time 2.65s


GRPO-Process (18h16_09112025):  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç          | 198/300 [06:37<04:15,  2.51s/it, KL=0.004, avgR=103.2, beta=0.0001, it_s=2.27]

Iter 0197 | avgR  103.15 ¬± 46.78 | KL 0.0044 (Œ≤=0.0001) | Lclip 0.0019 Lkl 0.0044 Lent 1.0395 | steps 4452271 eps 6336 | time 2.27s


In [5]:

import torch
from dense_scripts.utils.policies import SimpleGRPOPolicy
from dense_scripts.GRPO.grpo import PerEpAdvGRPOTrainer, GRPOConfig
from dense_scripts.utils.envs import DenseLunarLander

# 1. Initialize environments (randomized is good for this mode)
env_train = DenseLunarLander(randomize_angle=True, randomize_pos=True)
env_eval = DenseLunarLander(randomize_angle=False, randomize_pos=False)

# 2. Initialize the Policy
policy = SimpleGRPOPolicy(env_train.observation_space.shape[0], env_train.action_space.n)

# 3. Configure the Trainer
cfg = GRPOConfig(
    env=env_train, 
    G=32, 
    T=1024, 
    gamma=0.99, 
    log_dir="./runs/GRPO_Outcome",
    identical_G=True # <-- We want diverse, random rollouts
)

# 4. Initialize the Trainer
trainer = PerEpAdvGRPOTrainer(policy, cfg, device="cpu")

# 5. Run Training
trainer.train(
    iters=300,
    eval_env=env_eval,
    eval_interval=30,
    eval_episodes=100,
    video_dir="videos/GRPO_Outcome",
    video_episodes=10
)

üìù Saved hyperparameters to runs/GRPO_Outcome/grpo_outcome_18h07_09112025/grpo_config_18h07_09112025.txt

GRPO 'outcome' mode typically requires identical_G=False.
You have set identical_G=True. This will run G rollouts
from the same state, which may reduce diversity and harm learning.



GRPO-Outcome (18h07_09112025):   3%|‚ñà‚ñè                                 | 1/30 [00:00<00:28,  1.03it/s, KL=0.013, avgR=-421.8, beta=0.02, it_s=0.97]

Iter 0000 | avgR -421.77 ¬± 53.76 | KL 0.0128 (Œ≤=0.02) | Lclip 0.0234 Lkl 0.0128 Lent 1.3309 | steps 3048 eps 32 | time 0.97s


GRPO-Outcome (18h07_09112025):   7%|‚ñà‚ñà‚ñé                                | 2/30 [00:01<00:27,  1.03it/s, KL=0.028, avgR=-314.0, beta=0.03, it_s=0.96]

Iter 0001 | avgR -313.97 ¬±138.77 | KL 0.0280 (Œ≤=0.03) | Lclip 0.0282 Lkl 0.0280 Lent 1.2462 | steps 7424 eps 64 | time 0.96s


GRPO-Outcome (18h07_09112025):  10%|‚ñà‚ñà‚ñà‚ñå                               | 3/30 [00:02<00:24,  1.12it/s, KL=0.010, avgR=-154.5, beta=0.02, it_s=0.79]

Iter 0002 | avgR -154.50 ¬± 41.66 | KL 0.0097 (Œ≤=0.02) | Lclip 0.0185 Lkl 0.0097 Lent 1.3435 | steps 10616 eps 96 | time 0.79s


GRPO-Outcome (18h07_09112025):  13%|‚ñà‚ñà‚ñà‚ñà‚ñä                               | 4/30 [00:03<00:22,  1.18it/s, KL=0.013, avgR=-68.2, beta=0.02, it_s=0.79]

Iter 0003 | avgR  -68.21 ¬±  4.93 | KL 0.0125 (Œ≤=0.02) | Lclip 0.0266 Lkl 0.0125 Lent 1.2739 | steps 13000 eps 128 | time 0.79s


GRPO-Outcome (18h07_09112025):  17%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                             | 5/30 [00:04<00:21,  1.15it/s, KL=0.010, avgR=-364.2, beta=0.02, it_s=0.89]

Iter 0004 | avgR -364.18 ¬± 23.29 | KL 0.0104 (Œ≤=0.02) | Lclip 0.0197 Lkl 0.0104 Lent 1.2510 | steps 15856 eps 160 | time 0.89s


GRPO-Outcome (18h07_09112025):  20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                            | 6/30 [00:05<00:20,  1.15it/s, KL=0.011, avgR=-152.2, beta=0.02, it_s=0.87]

Iter 0005 | avgR -152.18 ¬± 27.83 | KL 0.0108 (Œ≤=0.02) | Lclip 0.0175 Lkl 0.0108 Lent 1.2253 | steps 18808 eps 192 | time 0.87s


GRPO-Outcome (18h07_09112025):  23%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                          | 7/30 [00:06<00:20,  1.14it/s, KL=0.013, avgR=-124.0, beta=0.02, it_s=0.89]

Iter 0006 | avgR -124.04 ¬± 55.42 | KL 0.0133 (Œ≤=0.02) | Lclip 0.0228 Lkl 0.0133 Lent 1.2878 | steps 21720 eps 224 | time 0.89s


GRPO-Outcome (18h07_09112025):  27%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                         | 8/30 [00:07<00:18,  1.16it/s, KL=0.011, avgR=-109.1, beta=0.02, it_s=0.83]

Iter 0007 | avgR -109.06 ¬± 47.31 | KL 0.0112 (Œ≤=0.02) | Lclip 0.0127 Lkl 0.0112 Lent 1.2150 | steps 25344 eps 256 | time 0.83s


GRPO-Outcome (18h07_09112025):  30%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                        | 9/30 [00:07<00:18,  1.14it/s, KL=0.019, avgR=-220.1, beta=0.02, it_s=0.91]

Iter 0008 | avgR -220.05 ¬±102.02 | KL 0.0187 (Œ≤=0.02) | Lclip 0.0192 Lkl 0.0187 Lent 1.1757 | steps 29888 eps 288 | time 0.91s


GRPO-Outcome (18h07_09112025):  33%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                     | 10/30 [00:08<00:17,  1.12it/s, KL=0.008, avgR=-348.9, beta=0.0133, it_s=0.93]

Iter 0009 | avgR -348.89 ¬± 22.84 | KL 0.0078 (Œ≤=0.01333) | Lclip 0.0127 Lkl 0.0078 Lent 1.2998 | steps 33000 eps 320 | time 0.93s


GRPO-Outcome (18h07_09112025):  37%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                    | 11/30 [00:09<00:16,  1.13it/s, KL=0.012, avgR=-369.0, beta=0.0133, it_s=0.87]

Iter 0010 | avgR -368.99 ¬± 91.22 | KL 0.0124 (Œ≤=0.01333) | Lclip 0.0190 Lkl 0.0124 Lent 1.1609 | steps 36448 eps 352 | time 0.87s


GRPO-Outcome (18h07_09112025):  40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                   | 12/30 [00:10<00:15,  1.14it/s, KL=0.011, avgR=-268.5, beta=0.0133, it_s=0.84]

Iter 0011 | avgR -268.49 ¬± 13.45 | KL 0.0107 (Œ≤=0.01333) | Lclip 0.0131 Lkl 0.0107 Lent 1.1791 | steps 39336 eps 384 | time 0.84s


GRPO-Outcome (18h07_09112025):  43%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                  | 13/30 [00:11<00:14,  1.17it/s, KL=0.014, avgR=-135.9, beta=0.0133, it_s=0.81]

Iter 0012 | avgR -135.95 ¬±  3.98 | KL 0.0144 (Œ≤=0.01333) | Lclip 0.0159 Lkl 0.0144 Lent 0.9866 | steps 43056 eps 416 | time 0.81s


GRPO-Outcome (18h07_09112025):  47%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                | 14/30 [00:12<00:13,  1.19it/s, KL=0.006, avgR=-352.3, beta=0.00889, it_s=0.80]

Iter 0013 | avgR -352.27 ¬± 63.42 | KL 0.0063 (Œ≤=0.008889) | Lclip 0.0131 Lkl 0.0063 Lent 1.0267 | steps 46528 eps 448 | time 0.80s


GRPO-Outcome (18h07_09112025):  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå               | 15/30 [00:12<00:12,  1.22it/s, KL=0.014, avgR=-410.6, beta=0.00889, it_s=0.77]

Iter 0014 | avgR -410.64 ¬± 34.64 | KL 0.0141 (Œ≤=0.008889) | Lclip 0.0221 Lkl 0.0141 Lent 1.0245 | steps 49368 eps 480 | time 0.77s


GRPO-Outcome (18h07_09112025):  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå              | 16/30 [00:13<00:11,  1.26it/s, KL=0.009, avgR=-155.1, beta=0.00593, it_s=0.74]

Iter 0015 | avgR -155.08 ¬± 14.54 | KL 0.0088 (Œ≤=0.005926) | Lclip 0.0160 Lkl 0.0088 Lent 0.4815 | steps 51448 eps 512 | time 0.74s


GRPO-Outcome (18h07_09112025):  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå             | 17/30 [00:14<00:10,  1.23it/s, KL=0.009, avgR=-155.1, beta=0.00395, it_s=0.84]

Iter 0016 | avgR -155.08 ¬±  3.92 | KL 0.0091 (Œ≤=0.003951) | Lclip 0.0207 Lkl 0.0091 Lent 0.6138 | steps 54120 eps 544 | time 0.84s


GRPO-Outcome (18h07_09112025):  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå            | 18/30 [00:15<00:09,  1.22it/s, KL=0.005, avgR=-137.6, beta=0.00263, it_s=0.83]

Iter 0017 | avgR -137.59 ¬±  0.11 | KL 0.0048 (Œ≤=0.002634) | Lclip 0.0097 Lkl 0.0048 Lent 0.4288 | steps 56024 eps 576 | time 0.83s


GRPO-Outcome (18h07_09112025):  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã           | 19/30 [00:16<00:09,  1.20it/s, KL=0.013, avgR=-203.6, beta=0.00263, it_s=0.87]

Iter 0018 | avgR -203.60 ¬± 50.20 | KL 0.0134 (Œ≤=0.002634) | Lclip 0.0168 Lkl 0.0134 Lent 0.6922 | steps 58920 eps 608 | time 0.87s


GRPO-Outcome (18h07_09112025):  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã          | 20/30 [00:17<00:08,  1.22it/s, KL=0.004, avgR=-142.0, beta=0.00176, it_s=0.79]

Iter 0019 | avgR -141.96 ¬±  9.28 | KL 0.0037 (Œ≤=0.001756) | Lclip 0.0076 Lkl 0.0037 Lent 0.7466 | steps 61712 eps 640 | time 0.79s


GRPO-Outcome (18h07_09112025):  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã         | 21/30 [00:18<00:07,  1.15it/s, KL=0.004, avgR=-131.2, beta=0.00117, it_s=0.98]

Iter 0020 | avgR -131.24 ¬± 12.30 | KL 0.0038 (Œ≤=0.001171) | Lclip 0.0089 Lkl 0.0038 Lent 0.6444 | steps 64328 eps 672 | time 0.98s


GRPO-Outcome (18h07_09112025):  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã        | 22/30 [00:18<00:06,  1.19it/s, KL=0.007, avgR=-100.6, beta=0.00078, it_s=0.76]

Iter 0021 | avgR -100.61 ¬±  5.97 | KL 0.0067 (Œ≤=0.0007804) | Lclip 0.0162 Lkl 0.0067 Lent 0.6290 | steps 66792 eps 704 | time 0.76s


GRPO-Outcome (18h07_09112025):  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå       | 23/30 [00:19<00:05,  1.23it/s, KL=0.004, avgR=-85.7, beta=0.00052, it_s=0.76]

Iter 0022 | avgR  -85.71 ¬± 11.12 | KL 0.0036 (Œ≤=0.0005202) | Lclip 0.0089 Lkl 0.0036 Lent 0.6183 | steps 68648 eps 736 | time 0.76s


GRPO-Outcome (18h07_09112025):  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà      | 24/30 [00:20<00:04,  1.23it/s, KL=0.006, avgR=-100.3, beta=0.000347, it_s=0.81]

Iter 0023 | avgR -100.25 ¬± 13.30 | KL 0.0060 (Œ≤=0.0003468) | Lclip 0.0102 Lkl 0.0060 Lent 0.5621 | steps 70800 eps 768 | time 0.81s


GRPO-Outcome (18h07_09112025):  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä     | 25/30 [00:21<00:04,  1.20it/s, KL=0.047, avgR=-121.9, beta=0.00052, it_s=0.86]

Iter 0024 | avgR -121.94 ¬±  9.31 | KL 0.0470 (Œ≤=0.0005202) | Lclip 0.0244 Lkl 0.0470 Lent 0.9360 | steps 74632 eps 800 | time 0.86s


GRPO-Outcome (18h07_09112025):  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 26/30 [00:22<00:03,  1.19it/s, KL=0.017, avgR=-221.3, beta=0.00052, it_s=0.86]

Iter 0025 | avgR -221.29 ¬± 66.47 | KL 0.0173 (Œ≤=0.0005202) | Lclip 0.0234 Lkl 0.0173 Lent 1.0481 | steps 78216 eps 832 | time 0.86s


GRPO-Outcome (18h07_09112025):  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 27/30 [00:22<00:02,  1.19it/s, KL=0.008, avgR=-105.1, beta=0.000347, it_s=0.83]

Iter 0026 | avgR -105.07 ¬± 72.45 | KL 0.0083 (Œ≤=0.0003468) | Lclip 0.0160 Lkl 0.0083 Lent 1.0525 | steps 81048 eps 864 | time 0.83s


GRPO-Outcome (18h07_09112025):  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 28/30 [00:24<00:01,  1.09it/s, KL=0.018, avgR=-164.9, beta=0.000347, it_s=1.08]

Iter 0027 | avgR -164.88 ¬± 60.27 | KL 0.0177 (Œ≤=0.0003468) | Lclip 0.0225 Lkl 0.0177 Lent 0.9043 | steps 84320 eps 896 | time 1.08s


GRPO-Outcome (18h07_09112025):  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 29/30 [00:24<00:00,  1.09it/s, KL=0.010, avgR=-106.3, beta=0.000347, it_s=0.92]

Iter 0028 | avgR -106.34 ¬± 10.77 | KL 0.0103 (Œ≤=0.0003468) | Lclip 0.0180 Lkl 0.0103 Lent 0.5804 | steps 86352 eps 928 | time 0.92s


GRPO-Outcome (18h07_09112025):  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 29/30 [00:25<00:00,  1.09it/s, KL=0.007, avgR=-200.3, beta=0.000231, it_s=0.89]

Iter 0029 | avgR -200.30 ¬± 59.97 | KL 0.0070 (Œ≤=0.0002312) | Lclip 0.0126 Lkl 0.0070 Lent 0.4759 | steps 89792 eps 960 | time 0.89s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Outcome (18h07_09112025): 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 30/30 [00:26<00:00,  1.13it/s, KL=0.007, avgR=-200.3, beta=0.000231, it_s=0.89]


   ‚úì Reward: -151.82 ¬± 53.63
   ‚úì Success Rate: 12.00%
   ‚úì Legs Touching: 1.32
   ‚úì Mean Velocity: 0.700
   ‚úì Distance from Pad: 0.382
‚úÖ Training finished. Logs saved to runs/GRPO_Outcome/grpo_outcome_18h07_09112025
üé• Saving videos to videos/GRPO_Outcome/outcome_G32_18h07_09112025
üé• Recording 10 episodes from DenseLunarLander...




‚úÖ Saved MP4 video: videos/GRPO_Outcome/outcome_G32_18h07_09112025/DenseLunarLander_ep01_R-154.7.mp4 | Reward: -154.7
‚úÖ Saved MP4 video: videos/GRPO_Outcome/outcome_G32_18h07_09112025/DenseLunarLander_ep02_R-131.7.mp4 | Reward: -131.7




‚úÖ Saved MP4 video: videos/GRPO_Outcome/outcome_G32_18h07_09112025/DenseLunarLander_ep03_R-151.4.mp4 | Reward: -151.4




‚úÖ Saved MP4 video: videos/GRPO_Outcome/outcome_G32_18h07_09112025/DenseLunarLander_ep04_R-175.9.mp4 | Reward: -175.9
‚úÖ Saved MP4 video: videos/GRPO_Outcome/outcome_G32_18h07_09112025/DenseLunarLander_ep05_R-163.2.mp4 | Reward: -163.2




‚úÖ Saved MP4 video: videos/GRPO_Outcome/outcome_G32_18h07_09112025/DenseLunarLander_ep06_R-174.4.mp4 | Reward: -174.4
‚úÖ Saved MP4 video: videos/GRPO_Outcome/outcome_G32_18h07_09112025/DenseLunarLander_ep07_R-134.9.mp4 | Reward: -134.9




‚úÖ Saved MP4 video: videos/GRPO_Outcome/outcome_G32_18h07_09112025/DenseLunarLander_ep08_R-86.6.mp4 | Reward: -86.6
‚úÖ Saved MP4 video: videos/GRPO_Outcome/outcome_G32_18h07_09112025/DenseLunarLander_ep09_R-128.0.mp4 | Reward: -128.0




‚úÖ Saved MP4 video: videos/GRPO_Outcome/outcome_G32_18h07_09112025/DenseLunarLander_ep10_R10.3.mp4 | Reward: 10.3
üìù Saved video run params to videos/GRPO_Outcome/outcome_G32_18h07_09112025/grpo_config_18h07_09112025.txt


SimpleGRPOPolicy(
  (net): Sequential(
    (0): Linear(in_features=8, out_features=128, bias=True)
    (1): Tanh()
    (2): Linear(in_features=128, out_features=128, bias=True)
    (3): Tanh()
    (4): Linear(in_features=128, out_features=4, bias=True)
  )
)

In [3]:
import torch
from dense_scripts.utils.policies import SimpleGRPOPolicy
from dense_scripts.GRPO.grpo import HybridAdvGRPOTrainer, GRPOConfig
from dense_scripts.utils.envs import DenseLunarLander

# 1. Initialize environments (randomized is good for this mode)
env_train = DenseLunarLander(randomize_angle=True, randomize_pos=True)
env_eval = DenseLunarLander(randomize_angle=False, randomize_pos=False)

# 2. Initialize the Policy
policy = SimpleGRPOPolicy(env_train.observation_space.shape[0], env_train.action_space.n)

# 3. Configure the Trainer
cfg = GRPOConfig(
    env=env_train, 
    G=32, 
    T=2048, 
    gamma=0.99, 
    log_dir="./runs/GRPO_Hybrid",
    identical_G=False, # <-- We want diverse, random rollouts
    
    # Tune the hybrid-specific parameters
    hybrid_alpha=1.0,
    hybrid_beta=0.05,
    hybrid_clip=None
)

# 4. Initialize the Trainer
trainer = HybridAdvGRPOTrainer(policy, cfg, device="cpu")

# 5. Run Training
trainer.train(
    iters=300,
    eval_env=env_eval,
    eval_interval=30,
    eval_episodes=100,
    video_dir="videos/GRPO_Hybrid",
    video_episodes=10
)

üìù Saved hyperparameters to runs/GRPO_Hybrid/grpo_hybrid_18h29_09112025/grpo_config_18h29_09112025.txt


GRPO-Hybrid (18h29_09112025):   0%|                                   | 1/300 [00:00<04:20,  1.15it/s, KL=0.012, avgR=-211.7, beta=0.02, it_s=0.87]

Iter 0000 | avgR -211.69 ¬±122.11 | KL 0.0118 (Œ≤=0.02) | Lclip -0.1207 Lkl 0.0118 Lent 1.3717 | steps 2818 eps 32 | time 0.87s


GRPO-Hybrid (18h29_09112025):   1%|‚ñè                                  | 2/300 [00:01<04:04,  1.22it/s, KL=0.010, avgR=-163.4, beta=0.02, it_s=0.78]

Iter 0001 | avgR -163.43 ¬± 98.28 | KL 0.0101 (Œ≤=0.02) | Lclip -0.2952 Lkl 0.0101 Lent 1.3501 | steps 5793 eps 64 | time 0.78s


GRPO-Hybrid (18h29_09112025):   1%|‚ñé                                | 3/300 [00:02<03:59,  1.24it/s, KL=0.009, avgR=-138.3, beta=0.0133, it_s=0.79]

Iter 0002 | avgR -138.26 ¬± 54.35 | KL 0.0091 (Œ≤=0.01333) | Lclip -0.0588 Lkl 0.0091 Lent 1.3633 | steps 8747 eps 96 | time 0.79s


GRPO-Hybrid (18h29_09112025):   1%|‚ñç                               | 4/300 [00:03<04:04,  1.21it/s, KL=0.008, avgR=-136.7, beta=0.00889, it_s=0.86]

Iter 0003 | avgR -136.66 ¬± 51.72 | KL 0.0075 (Œ≤=0.008889) | Lclip -0.1030 Lkl 0.0075 Lent 1.3644 | steps 12054 eps 128 | time 0.86s


GRPO-Hybrid (18h29_09112025):   2%|‚ñå                               | 5/300 [00:04<04:04,  1.21it/s, KL=0.010, avgR=-188.0, beta=0.00889, it_s=0.83]

Iter 0004 | avgR -187.97 ¬±102.64 | KL 0.0104 (Œ≤=0.008889) | Lclip -0.1780 Lkl 0.0104 Lent 1.3390 | steps 14750 eps 160 | time 0.83s


GRPO-Hybrid (18h29_09112025):   2%|‚ñã                               | 6/300 [00:05<04:07,  1.19it/s, KL=0.014, avgR=-106.6, beta=0.00889, it_s=0.87]

Iter 0005 | avgR -106.63 ¬± 16.32 | KL 0.0136 (Œ≤=0.008889) | Lclip -0.0889 Lkl 0.0136 Lent 1.3615 | steps 17240 eps 192 | time 0.87s


GRPO-Hybrid (18h29_09112025):   2%|‚ñã                               | 7/300 [00:05<04:11,  1.17it/s, KL=0.010, avgR=-113.8, beta=0.00889, it_s=0.89]

Iter 0006 | avgR -113.75 ¬± 39.90 | KL 0.0101 (Œ≤=0.008889) | Lclip -0.1092 Lkl 0.0101 Lent 1.3432 | steps 20182 eps 224 | time 0.89s


GRPO-Hybrid (18h29_09112025):   3%|‚ñä                               | 8/300 [00:06<04:19,  1.12it/s, KL=0.011, avgR=-146.1, beta=0.00889, it_s=0.95]

Iter 0007 | avgR -146.08 ¬± 78.57 | KL 0.0113 (Œ≤=0.008889) | Lclip -0.1341 Lkl 0.0113 Lent 1.3123 | steps 23855 eps 256 | time 0.95s


GRPO-Hybrid (18h29_09112025):   3%|‚ñâ                               | 9/300 [00:08<05:24,  1.12s/it, KL=0.007, avgR=-154.9, beta=0.00593, it_s=1.61]

Iter 0008 | avgR -154.89 ¬± 70.12 | KL 0.0068 (Œ≤=0.005926) | Lclip -0.0247 Lkl 0.0068 Lent 1.3212 | steps 28923 eps 288 | time 1.61s


GRPO-Hybrid (18h29_09112025):   3%|‚ñà                              | 10/300 [00:09<05:14,  1.08s/it, KL=0.009, avgR=-116.3, beta=0.00395, it_s=1.01]

Iter 0009 | avgR -116.33 ¬± 35.93 | KL 0.0089 (Œ≤=0.003951) | Lclip -0.0269 Lkl 0.0089 Lent 1.3542 | steps 32366 eps 320 | time 1.01s


GRPO-Hybrid (18h29_09112025):   4%|‚ñà‚ñè                              | 11/300 [00:10<05:01,  1.04s/it, KL=0.006, avgR=-81.3, beta=0.00263, it_s=0.95]

Iter 0010 | avgR  -81.34 ¬± 29.89 | KL 0.0062 (Œ≤=0.002634) | Lclip -0.0317 Lkl 0.0062 Lent 1.3512 | steps 35124 eps 352 | time 0.95s


GRPO-Hybrid (18h29_09112025):   4%|‚ñà‚ñè                             | 12/300 [00:12<05:55,  1.23s/it, KL=0.007, avgR=-130.9, beta=0.00176, it_s=1.67]

Iter 0011 | avgR -130.89 ¬± 74.80 | KL 0.0072 (Œ≤=0.001756) | Lclip -0.0207 Lkl 0.0072 Lent 1.3116 | steps 40214 eps 384 | time 1.67s


GRPO-Hybrid (18h29_09112025):   4%|‚ñà‚ñç                              | 13/300 [00:13<05:26,  1.14s/it, KL=0.007, avgR=-79.2, beta=0.00117, it_s=0.92]

Iter 0012 | avgR  -79.18 ¬± 30.87 | KL 0.0072 (Œ≤=0.001171) | Lclip -0.0536 Lkl 0.0072 Lent 1.3123 | steps 43454 eps 416 | time 0.92s


GRPO-Hybrid (18h29_09112025):   5%|‚ñà‚ñç                             | 14/300 [00:13<04:54,  1.03s/it, KL=0.012, avgR=-103.3, beta=0.00117, it_s=0.78]

Iter 0013 | avgR -103.29 ¬± 43.91 | KL 0.0123 (Œ≤=0.001171) | Lclip -0.0549 Lkl 0.0123 Lent 1.2424 | steps 46487 eps 448 | time 0.78s


GRPO-Hybrid (18h29_09112025):   5%|‚ñà‚ñå                              | 15/300 [00:14<04:39,  1.02it/s, KL=0.009, avgR=-39.4, beta=0.00078, it_s=0.86]

Iter 0014 | avgR  -39.44 ¬± 40.05 | KL 0.0091 (Œ≤=0.0007804) | Lclip -0.0162 Lkl 0.0091 Lent 1.2718 | steps 49967 eps 480 | time 0.86s


GRPO-Hybrid (18h29_09112025):   5%|‚ñà‚ñã                              | 16/300 [00:15<04:30,  1.05it/s, KL=0.013, avgR=-80.1, beta=0.00078, it_s=0.89]

Iter 0015 | avgR  -80.09 ¬±110.32 | KL 0.0126 (Œ≤=0.0007804) | Lclip -0.2918 Lkl 0.0126 Lent 1.2518 | steps 53384 eps 512 | time 0.89s


GRPO-Hybrid (18h29_09112025):   6%|‚ñà‚ñä                              | 17/300 [00:17<05:37,  1.19s/it, KL=0.004, avgR=-81.9, beta=0.00052, it_s=1.75]

Iter 0016 | avgR  -81.85 ¬± 56.49 | KL 0.0044 (Œ≤=0.0005202) | Lclip -0.2147 Lkl 0.0044 Lent 1.2340 | steps 60964 eps 544 | time 1.75s


GRPO-Hybrid (18h29_09112025):   6%|‚ñà‚ñä                             | 18/300 [00:18<05:35,  1.19s/it, KL=0.013, avgR=-144.9, beta=0.00052, it_s=1.18]

Iter 0017 | avgR -144.92 ¬± 87.09 | KL 0.0125 (Œ≤=0.0005202) | Lclip -0.3974 Lkl 0.0125 Lent 1.2151 | steps 66050 eps 576 | time 1.18s


GRPO-Hybrid (18h29_09112025):   6%|‚ñà‚ñà                              | 19/300 [00:20<06:10,  1.32s/it, KL=0.015, avgR=-57.2, beta=0.00052, it_s=1.61]

Iter 0018 | avgR  -57.17 ¬± 44.73 | KL 0.0152 (Œ≤=0.0005202) | Lclip -0.2499 Lkl 0.0152 Lent 1.2639 | steps 73410 eps 608 | time 1.61s


GRPO-Hybrid (18h29_09112025):   7%|‚ñà‚ñà‚ñè                             | 20/300 [00:20<05:29,  1.18s/it, KL=0.013, avgR=-69.3, beta=0.00052, it_s=0.85]

Iter 0019 | avgR  -69.33 ¬± 44.17 | KL 0.0134 (Œ≤=0.0005202) | Lclip -0.0066 Lkl 0.0134 Lent 1.1774 | steps 76551 eps 640 | time 0.85s


GRPO-Hybrid (18h29_09112025):   7%|‚ñà‚ñà‚ñè                            | 21/300 [00:22<06:03,  1.30s/it, KL=0.006, avgR=-38.8, beta=0.000347, it_s=1.60]

Iter 0020 | avgR  -38.83 ¬± 29.35 | KL 0.0057 (Œ≤=0.0003468) | Lclip -0.0600 Lkl 0.0057 Lent 1.2597 | steps 81920 eps 672 | time 1.60s


GRPO-Hybrid (18h29_09112025):   7%|‚ñà‚ñà‚ñé                            | 22/300 [00:23<05:31,  1.19s/it, KL=0.008, avgR=-58.7, beta=0.000231, it_s=0.93]

Iter 0021 | avgR  -58.75 ¬± 30.29 | KL 0.0075 (Œ≤=0.0002312) | Lclip -0.0910 Lkl 0.0075 Lent 1.1885 | steps 84895 eps 704 | time 0.93s


GRPO-Hybrid (18h29_09112025):   8%|‚ñà‚ñà‚ñç                            | 23/300 [00:24<05:09,  1.12s/it, KL=0.014, avgR=-43.5, beta=0.000231, it_s=0.94]

Iter 0022 | avgR  -43.47 ¬± 34.00 | KL 0.0139 (Œ≤=0.0002312) | Lclip -0.0601 Lkl 0.0139 Lent 1.1746 | steps 87874 eps 736 | time 0.94s


GRPO-Hybrid (18h29_09112025):   8%|‚ñà‚ñà‚ñç                            | 24/300 [00:25<04:45,  1.04s/it, KL=0.009, avgR=-37.3, beta=0.000154, it_s=0.84]

Iter 0023 | avgR  -37.27 ¬± 38.72 | KL 0.0092 (Œ≤=0.0001541) | Lclip -0.0800 Lkl 0.0092 Lent 1.2331 | steps 92228 eps 768 | time 0.84s


GRPO-Hybrid (18h29_09112025):   8%|‚ñà‚ñà‚ñå                            | 25/300 [00:26<04:29,  1.02it/s, KL=0.006, avgR=-11.7, beta=0.000103, it_s=0.85]

Iter 0024 | avgR  -11.71 ¬± 32.06 | KL 0.0065 (Œ≤=0.0001028) | Lclip -0.0618 Lkl 0.0065 Lent 1.1705 | steps 95908 eps 800 | time 0.85s


GRPO-Hybrid (18h29_09112025):   9%|‚ñà‚ñà‚ñä                              | 26/300 [00:27<05:28,  1.20s/it, KL=0.006, avgR=-40.4, beta=0.0001, it_s=1.71]

Iter 0025 | avgR  -40.35 ¬± 36.80 | KL 0.0058 (Œ≤=0.0001) | Lclip -0.0323 Lkl 0.0058 Lent 1.1528 | steps 101381 eps 832 | time 1.71s


GRPO-Hybrid (18h29_09112025):   9%|‚ñà‚ñà‚ñâ                              | 27/300 [00:29<06:01,  1.32s/it, KL=0.006, avgR=-16.5, beta=0.0001, it_s=1.61]

Iter 0026 | avgR  -16.48 ¬± 45.47 | KL 0.0060 (Œ≤=0.0001) | Lclip -0.1138 Lkl 0.0060 Lent 1.1784 | steps 108196 eps 864 | time 1.61s


GRPO-Hybrid (18h29_09112025):   9%|‚ñà‚ñà‚ñâ                             | 28/300 [00:31<06:22,  1.41s/it, KL=0.010, avgR=-140.0, beta=0.0001, it_s=1.59]

Iter 0027 | avgR -139.99 ¬±106.92 | KL 0.0096 (Œ≤=0.0001) | Lclip 0.0554 Lkl 0.0096 Lent 1.1919 | steps 114562 eps 896 | time 1.59s


GRPO-Hybrid (18h29_09112025):  10%|‚ñà‚ñà‚ñà‚ñè                             | 29/300 [00:31<05:39,  1.25s/it, KL=0.008, avgR=-37.5, beta=0.0001, it_s=0.89]

Iter 0028 | avgR  -37.54 ¬± 30.64 | KL 0.0077 (Œ≤=0.0001) | Lclip -0.1147 Lkl 0.0077 Lent 1.1691 | steps 118459 eps 928 | time 0.89s


GRPO-Hybrid (18h29_09112025):  10%|‚ñà‚ñà‚ñà‚ñè                             | 29/300 [00:33<05:39,  1.25s/it, KL=0.016, avgR=-37.7, beta=0.0001, it_s=1.83]

Iter 0029 | avgR  -37.66 ¬± 62.93 | KL 0.0163 (Œ≤=0.0001) | Lclip -0.3544 Lkl 0.0163 Lent 1.2294 | steps 128589 eps 960 | time 1.83s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Hybrid (18h29_09112025):  10%|‚ñà‚ñà‚ñà‚ñé                             | 30/300 [00:34<07:29,  1.66s/it, KL=0.016, avgR=-37.7, beta=0.0001, it_s=1.83]

   ‚úì Reward: -38.90 ¬± 35.58
   ‚úì Success Rate: 6.00%
   ‚úì Legs Touching: 1.59
   ‚úì Mean Velocity: 0.398
   ‚úì Distance from Pad: 0.291


GRPO-Hybrid (18h29_09112025):  10%|‚ñà‚ñà‚ñà‚ñç                             | 31/300 [00:35<06:18,  1.41s/it, KL=0.006, avgR=-33.7, beta=0.0001, it_s=0.80]

Iter 0030 | avgR  -33.73 ¬± 32.09 | KL 0.0063 (Œ≤=0.0001) | Lclip -0.0891 Lkl 0.0063 Lent 1.2220 | steps 132055 eps 992 | time 0.80s


GRPO-Hybrid (18h29_09112025):  11%|‚ñà‚ñà‚ñà‚ñå                             | 32/300 [00:36<05:32,  1.24s/it, KL=0.006, avgR=-44.4, beta=0.0001, it_s=0.85]

Iter 0031 | avgR  -44.41 ¬± 15.77 | KL 0.0060 (Œ≤=0.0001) | Lclip -0.0659 Lkl 0.0060 Lent 1.2328 | steps 135442 eps 1024 | time 0.85s


GRPO-Hybrid (18h29_09112025):  11%|‚ñà‚ñà‚ñà‚ñã                             | 33/300 [00:37<05:00,  1.13s/it, KL=0.008, avgR=-40.1, beta=0.0001, it_s=0.86]

Iter 0032 | avgR  -40.06 ¬± 26.92 | KL 0.0080 (Œ≤=0.0001) | Lclip -0.0162 Lkl 0.0080 Lent 1.2000 | steps 138839 eps 1056 | time 0.86s


GRPO-Hybrid (18h29_09112025):  11%|‚ñà‚ñà‚ñà‚ñã                             | 34/300 [00:38<05:54,  1.33s/it, KL=0.005, avgR=-41.9, beta=0.0001, it_s=1.81]

Iter 0033 | avgR  -41.95 ¬± 40.75 | KL 0.0053 (Œ≤=0.0001) | Lclip -0.2482 Lkl 0.0053 Lent 1.2582 | steps 146438 eps 1088 | time 1.81s


GRPO-Hybrid (18h29_09112025):  12%|‚ñà‚ñà‚ñà‚ñä                             | 35/300 [00:39<05:18,  1.20s/it, KL=0.011, avgR=-42.1, beta=0.0001, it_s=0.90]

Iter 0034 | avgR  -42.11 ¬± 45.42 | KL 0.0106 (Œ≤=0.0001) | Lclip -0.0298 Lkl 0.0106 Lent 1.2165 | steps 149890 eps 1120 | time 0.90s


GRPO-Hybrid (18h29_09112025):  12%|‚ñà‚ñà‚ñà‚ñâ                             | 36/300 [00:41<05:58,  1.36s/it, KL=0.005, avgR=-67.8, beta=0.0001, it_s=1.72]

Iter 0035 | avgR  -67.75 ¬± 45.50 | KL 0.0046 (Œ≤=0.0001) | Lclip -0.0701 Lkl 0.0046 Lent 1.2303 | steps 155139 eps 1152 | time 1.72s


GRPO-Hybrid (18h29_09112025):  12%|‚ñà‚ñà‚ñà‚ñà                             | 37/300 [00:42<05:20,  1.22s/it, KL=0.013, avgR=-38.6, beta=0.0001, it_s=0.88]

Iter 0036 | avgR  -38.61 ¬± 26.42 | KL 0.0134 (Œ≤=0.0001) | Lclip -0.1071 Lkl 0.0134 Lent 1.1849 | steps 158211 eps 1184 | time 0.88s


GRPO-Hybrid (18h29_09112025):  13%|‚ñà‚ñà‚ñà‚ñà‚ñè                            | 38/300 [00:43<04:58,  1.14s/it, KL=0.006, avgR=-55.0, beta=0.0001, it_s=0.96]

Iter 0037 | avgR  -54.97 ¬± 50.17 | KL 0.0063 (Œ≤=0.0001) | Lclip -0.0236 Lkl 0.0063 Lent 1.2330 | steps 162242 eps 1216 | time 0.96s


GRPO-Hybrid (18h29_09112025):  13%|‚ñà‚ñà‚ñà‚ñà‚ñé                            | 39/300 [00:44<04:43,  1.08s/it, KL=0.009, avgR=-47.7, beta=0.0001, it_s=0.95]

Iter 0038 | avgR  -47.70 ¬± 39.97 | KL 0.0090 (Œ≤=0.0001) | Lclip -0.1160 Lkl 0.0090 Lent 1.2420 | steps 166131 eps 1248 | time 0.95s


GRPO-Hybrid (18h29_09112025):  13%|‚ñà‚ñà‚ñà‚ñà‚ñç                            | 40/300 [00:45<04:35,  1.06s/it, KL=0.007, avgR=-26.3, beta=0.0001, it_s=1.00]

Iter 0039 | avgR  -26.30 ¬± 19.22 | KL 0.0071 (Œ≤=0.0001) | Lclip -0.0333 Lkl 0.0071 Lent 1.2489 | steps 169731 eps 1280 | time 1.00s


GRPO-Hybrid (18h29_09112025):  14%|‚ñà‚ñà‚ñà‚ñà‚ñå                            | 41/300 [00:46<04:23,  1.02s/it, KL=0.008, avgR=-54.1, beta=0.0001, it_s=0.92]

Iter 0040 | avgR  -54.11 ¬± 50.43 | KL 0.0083 (Œ≤=0.0001) | Lclip -0.0323 Lkl 0.0083 Lent 1.2344 | steps 173383 eps 1312 | time 0.92s


GRPO-Hybrid (18h29_09112025):  14%|‚ñà‚ñà‚ñà‚ñà‚ñå                            | 42/300 [00:47<04:20,  1.01s/it, KL=0.010, avgR=-49.0, beta=0.0001, it_s=0.98]

Iter 0041 | avgR  -49.02 ¬± 33.86 | KL 0.0102 (Œ≤=0.0001) | Lclip -0.1409 Lkl 0.0102 Lent 1.1775 | steps 177239 eps 1344 | time 0.98s


GRPO-Hybrid (18h29_09112025):  14%|‚ñà‚ñà‚ñà‚ñà‚ñã                            | 43/300 [00:48<04:10,  1.03it/s, KL=0.007, avgR=-93.1, beta=0.0001, it_s=0.89]

Iter 0042 | avgR  -93.10 ¬± 56.27 | KL 0.0070 (Œ≤=0.0001) | Lclip -0.0628 Lkl 0.0070 Lent 1.2089 | steps 180956 eps 1376 | time 0.89s


GRPO-Hybrid (18h29_09112025):  15%|‚ñà‚ñà‚ñà‚ñà‚ñä                            | 44/300 [00:49<04:26,  1.04s/it, KL=0.010, avgR=-61.5, beta=0.0001, it_s=1.19]

Iter 0043 | avgR  -61.49 ¬± 56.18 | KL 0.0104 (Œ≤=0.0001) | Lclip -0.0636 Lkl 0.0104 Lent 1.2520 | steps 185673 eps 1408 | time 1.19s


GRPO-Hybrid (18h29_09112025):  15%|‚ñà‚ñà‚ñà‚ñà‚ñâ                            | 45/300 [00:50<04:12,  1.01it/s, KL=0.011, avgR=-75.0, beta=0.0001, it_s=0.87]

Iter 0044 | avgR  -74.98 ¬± 33.98 | KL 0.0109 (Œ≤=0.0001) | Lclip -0.0579 Lkl 0.0109 Lent 1.2241 | steps 189208 eps 1440 | time 0.87s


GRPO-Hybrid (18h29_09112025):  15%|‚ñà‚ñà‚ñà‚ñà‚ñà                            | 46/300 [00:51<04:07,  1.03it/s, KL=0.005, avgR=-26.8, beta=0.0001, it_s=0.93]

Iter 0045 | avgR  -26.81 ¬± 27.37 | KL 0.0047 (Œ≤=0.0001) | Lclip -0.0325 Lkl 0.0047 Lent 1.2051 | steps 192529 eps 1472 | time 0.93s


GRPO-Hybrid (18h29_09112025):  16%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                           | 47/300 [00:52<04:04,  1.03it/s, KL=0.006, avgR=-16.4, beta=0.0001, it_s=0.95]

Iter 0046 | avgR  -16.40 ¬± 22.59 | KL 0.0058 (Œ≤=0.0001) | Lclip -0.0900 Lkl 0.0058 Lent 1.2636 | steps 196406 eps 1504 | time 0.95s


GRPO-Hybrid (18h29_09112025):  16%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                           | 48/300 [00:52<03:54,  1.07it/s, KL=0.012, avgR=-59.3, beta=0.0001, it_s=0.84]

Iter 0047 | avgR  -59.33 ¬± 24.67 | KL 0.0115 (Œ≤=0.0001) | Lclip -0.0664 Lkl 0.0115 Lent 1.1764 | steps 199397 eps 1536 | time 0.84s


GRPO-Hybrid (18h29_09112025):  16%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                           | 49/300 [00:53<03:46,  1.11it/s, KL=0.013, avgR=-58.0, beta=0.0001, it_s=0.84]

Iter 0048 | avgR  -58.04 ¬± 53.57 | KL 0.0127 (Œ≤=0.0001) | Lclip -0.1494 Lkl 0.0127 Lent 1.2371 | steps 202872 eps 1568 | time 0.84s


GRPO-Hybrid (18h29_09112025):  17%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                           | 50/300 [00:54<03:43,  1.12it/s, KL=0.008, avgR=-62.5, beta=0.0001, it_s=0.87]

Iter 0049 | avgR  -62.50 ¬± 34.93 | KL 0.0081 (Œ≤=0.0001) | Lclip -0.1292 Lkl 0.0081 Lent 1.2105 | steps 205804 eps 1600 | time 0.87s


GRPO-Hybrid (18h29_09112025):  17%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                           | 51/300 [00:56<04:41,  1.13s/it, KL=0.009, avgR=-54.1, beta=0.0001, it_s=1.68]

Iter 0050 | avgR  -54.08 ¬± 53.94 | KL 0.0095 (Œ≤=0.0001) | Lclip -0.1191 Lkl 0.0095 Lent 1.2067 | steps 211168 eps 1632 | time 1.68s


GRPO-Hybrid (18h29_09112025):  17%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                           | 52/300 [00:57<04:17,  1.04s/it, KL=0.005, avgR=-48.8, beta=0.0001, it_s=0.82]

Iter 0051 | avgR  -48.80 ¬± 19.93 | KL 0.0053 (Œ≤=0.0001) | Lclip -0.0106 Lkl 0.0053 Lent 1.2108 | steps 214303 eps 1664 | time 0.82s


GRPO-Hybrid (18h29_09112025):  18%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                           | 53/300 [00:57<04:00,  1.03it/s, KL=0.011, avgR=-56.5, beta=0.0001, it_s=0.83]

Iter 0052 | avgR  -56.52 ¬± 21.98 | KL 0.0114 (Œ≤=0.0001) | Lclip -0.1014 Lkl 0.0114 Lent 1.2249 | steps 217427 eps 1696 | time 0.83s


GRPO-Hybrid (18h29_09112025):  18%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                           | 54/300 [00:58<03:47,  1.08it/s, KL=0.018, avgR=-63.9, beta=0.0001, it_s=0.81]

Iter 0053 | avgR  -63.90 ¬± 44.82 | KL 0.0177 (Œ≤=0.0001) | Lclip -0.0686 Lkl 0.0177 Lent 1.2070 | steps 220440 eps 1728 | time 0.81s


GRPO-Hybrid (18h29_09112025):  18%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                           | 55/300 [00:59<03:38,  1.12it/s, KL=0.008, avgR=-51.2, beta=0.0001, it_s=0.81]

Iter 0054 | avgR  -51.15 ¬± 47.73 | KL 0.0079 (Œ≤=0.0001) | Lclip -0.0336 Lkl 0.0079 Lent 1.2133 | steps 223839 eps 1760 | time 0.81s


GRPO-Hybrid (18h29_09112025):  19%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                          | 56/300 [01:00<03:43,  1.09it/s, KL=0.006, avgR=-42.3, beta=0.0001, it_s=0.97]

Iter 0055 | avgR  -42.31 ¬± 47.97 | KL 0.0056 (Œ≤=0.0001) | Lclip -0.1393 Lkl 0.0056 Lent 1.2315 | steps 227331 eps 1792 | time 0.97s


GRPO-Hybrid (18h29_09112025):  19%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                          | 57/300 [01:01<03:39,  1.11it/s, KL=0.009, avgR=-44.4, beta=0.0001, it_s=0.86]

Iter 0056 | avgR  -44.45 ¬± 28.65 | KL 0.0093 (Œ≤=0.0001) | Lclip 0.0147 Lkl 0.0093 Lent 1.1385 | steps 230289 eps 1824 | time 0.86s


GRPO-Hybrid (18h29_09112025):  19%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                          | 58/300 [01:02<03:33,  1.14it/s, KL=0.007, avgR=-41.3, beta=0.0001, it_s=0.83]

Iter 0057 | avgR  -41.33 ¬± 34.16 | KL 0.0071 (Œ≤=0.0001) | Lclip -0.0193 Lkl 0.0071 Lent 1.1736 | steps 233934 eps 1856 | time 0.83s


GRPO-Hybrid (18h29_09112025):  20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                          | 59/300 [01:03<04:18,  1.07s/it, KL=0.004, avgR=-49.9, beta=0.0001, it_s=1.52]

Iter 0058 | avgR  -49.93 ¬± 32.76 | KL 0.0036 (Œ≤=0.0001) | Lclip -0.0270 Lkl 0.0036 Lent 1.1862 | steps 239374 eps 1888 | time 1.52s


GRPO-Hybrid (18h29_09112025):  20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                          | 59/300 [01:05<04:18,  1.07s/it, KL=0.008, avgR=-12.8, beta=0.0001, it_s=1.52]

Iter 0059 | avgR  -12.81 ¬± 25.21 | KL 0.0081 (Œ≤=0.0001) | Lclip -0.0816 Lkl 0.0081 Lent 1.2200 | steps 245140 eps 1920 | time 1.52s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Hybrid (18h29_09112025):  20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                          | 60/300 [01:06<05:43,  1.43s/it, KL=0.008, avgR=-12.8, beta=0.0001, it_s=1.52]

   ‚úì Reward: -25.74 ¬± 33.78
   ‚úì Success Rate: 9.00%
   ‚úì Legs Touching: 1.77
   ‚úì Mean Velocity: 0.401
   ‚úì Distance from Pad: 0.303


GRPO-Hybrid (18h29_09112025):  20%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                          | 61/300 [01:06<05:06,  1.28s/it, KL=0.009, avgR=-30.4, beta=0.0001, it_s=0.93]

Iter 0060 | avgR  -30.36 ¬± 25.51 | KL 0.0086 (Œ≤=0.0001) | Lclip -0.1067 Lkl 0.0086 Lent 1.1810 | steps 248459 eps 1952 | time 0.93s


GRPO-Hybrid (18h29_09112025):  21%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                          | 62/300 [01:07<04:42,  1.19s/it, KL=0.006, avgR=-44.2, beta=0.0001, it_s=0.96]

Iter 0061 | avgR  -44.23 ¬± 29.90 | KL 0.0063 (Œ≤=0.0001) | Lclip -0.0792 Lkl 0.0063 Lent 1.1967 | steps 251837 eps 1984 | time 0.96s


GRPO-Hybrid (18h29_09112025):  21%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                          | 63/300 [01:08<04:24,  1.12s/it, KL=0.009, avgR=-34.3, beta=0.0001, it_s=0.95]

Iter 0062 | avgR  -34.27 ¬± 26.06 | KL 0.0086 (Œ≤=0.0001) | Lclip -0.0629 Lkl 0.0086 Lent 1.2188 | steps 254584 eps 2016 | time 0.95s


GRPO-Hybrid (18h29_09112025):  21%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                          | 64/300 [01:09<04:12,  1.07s/it, KL=0.011, avgR=-49.6, beta=0.0001, it_s=0.96]

Iter 0063 | avgR  -49.60 ¬± 29.40 | KL 0.0111 (Œ≤=0.0001) | Lclip -0.0225 Lkl 0.0111 Lent 1.2441 | steps 257729 eps 2048 | time 0.96s


GRPO-Hybrid (18h29_09112025):  22%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                         | 65/300 [01:10<04:01,  1.03s/it, KL=0.008, avgR=-48.2, beta=0.0001, it_s=0.92]

Iter 0064 | avgR  -48.21 ¬± 35.00 | KL 0.0083 (Œ≤=0.0001) | Lclip -0.0021 Lkl 0.0083 Lent 1.2131 | steps 261563 eps 2080 | time 0.92s


GRPO-Hybrid (18h29_09112025):  22%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                         | 66/300 [01:11<03:50,  1.01it/s, KL=0.006, avgR=-20.8, beta=0.0001, it_s=0.89]

Iter 0065 | avgR  -20.80 ¬± 30.61 | KL 0.0057 (Œ≤=0.0001) | Lclip -0.0410 Lkl 0.0057 Lent 1.2077 | steps 265461 eps 2112 | time 0.89s


GRPO-Hybrid (18h29_09112025):  22%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                         | 67/300 [01:12<04:12,  1.09s/it, KL=0.020, avgR=-58.8, beta=0.0001, it_s=1.31]

Iter 0066 | avgR  -58.78 ¬± 60.17 | KL 0.0199 (Œ≤=0.0001) | Lclip -0.2423 Lkl 0.0199 Lent 1.1976 | steps 270662 eps 2144 | time 1.31s


GRPO-Hybrid (18h29_09112025):  23%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                         | 68/300 [01:13<03:54,  1.01s/it, KL=0.007, avgR=-46.7, beta=0.0001, it_s=0.84]

Iter 0067 | avgR  -46.68 ¬± 26.94 | KL 0.0066 (Œ≤=0.0001) | Lclip -0.0622 Lkl 0.0066 Lent 1.2139 | steps 273789 eps 2176 | time 0.84s


GRPO-Hybrid (18h29_09112025):  23%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                         | 69/300 [01:14<03:43,  1.03it/s, KL=0.009, avgR=-30.0, beta=0.0001, it_s=0.86]

Iter 0068 | avgR  -29.95 ¬± 38.22 | KL 0.0089 (Œ≤=0.0001) | Lclip -0.0440 Lkl 0.0089 Lent 1.2386 | steps 277269 eps 2208 | time 0.86s


GRPO-Hybrid (18h29_09112025):  23%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                         | 70/300 [01:15<03:32,  1.08it/s, KL=0.009, avgR=-44.6, beta=0.0001, it_s=0.82]

Iter 0069 | avgR  -44.61 ¬± 19.50 | KL 0.0087 (Œ≤=0.0001) | Lclip -0.0929 Lkl 0.0087 Lent 1.1963 | steps 280361 eps 2240 | time 0.82s


GRPO-Hybrid (18h29_09112025):  24%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                         | 71/300 [01:16<03:31,  1.08it/s, KL=0.008, avgR=-37.1, beta=0.0001, it_s=0.91]

Iter 0070 | avgR  -37.07 ¬± 24.24 | KL 0.0078 (Œ≤=0.0001) | Lclip -0.0972 Lkl 0.0078 Lent 1.1881 | steps 283551 eps 2272 | time 0.91s


GRPO-Hybrid (18h29_09112025):  24%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                         | 72/300 [01:17<03:27,  1.10it/s, KL=0.008, avgR=-27.4, beta=0.0001, it_s=0.88]

Iter 0071 | avgR  -27.36 ¬± 30.49 | KL 0.0076 (Œ≤=0.0001) | Lclip -0.0496 Lkl 0.0076 Lent 1.1948 | steps 286818 eps 2304 | time 0.88s


GRPO-Hybrid (18h29_09112025):  24%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                         | 73/300 [01:18<03:30,  1.08it/s, KL=0.011, avgR=-39.5, beta=0.0001, it_s=0.96]

Iter 0072 | avgR  -39.53 ¬± 29.69 | KL 0.0114 (Œ≤=0.0001) | Lclip -0.0413 Lkl 0.0114 Lent 1.2167 | steps 289982 eps 2336 | time 0.96s


GRPO-Hybrid (18h29_09112025):  25%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                        | 74/300 [01:19<03:23,  1.11it/s, KL=0.012, avgR=-45.7, beta=0.0001, it_s=0.83]

Iter 0073 | avgR  -45.66 ¬± 35.39 | KL 0.0125 (Œ≤=0.0001) | Lclip -0.0032 Lkl 0.0125 Lent 1.2074 | steps 293691 eps 2368 | time 0.83s


GRPO-Hybrid (18h29_09112025):  25%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                        | 75/300 [01:20<03:52,  1.04s/it, KL=0.015, avgR=-46.9, beta=0.0001, it_s=1.35]

Iter 0074 | avgR  -46.85 ¬± 80.02 | KL 0.0146 (Œ≤=0.0001) | Lclip -0.3571 Lkl 0.0146 Lent 1.2165 | steps 300249 eps 2400 | time 1.35s


GRPO-Hybrid (18h29_09112025):  25%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                        | 76/300 [01:21<03:35,  1.04it/s, KL=0.005, avgR=-45.0, beta=0.0001, it_s=0.79]

Iter 0075 | avgR  -45.00 ¬± 27.32 | KL 0.0054 (Œ≤=0.0001) | Lclip 0.0020 Lkl 0.0054 Lent 1.1768 | steps 303638 eps 2432 | time 0.79s


GRPO-Hybrid (18h29_09112025):  26%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                        | 77/300 [01:22<03:37,  1.03it/s, KL=0.007, avgR=-22.6, beta=0.0001, it_s=1.00]

Iter 0076 | avgR  -22.64 ¬± 46.28 | KL 0.0072 (Œ≤=0.0001) | Lclip -0.1087 Lkl 0.0072 Lent 1.1495 | steps 307868 eps 2464 | time 1.00s


GRPO-Hybrid (18h29_09112025):  26%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                        | 78/300 [01:23<04:04,  1.10s/it, KL=0.006, avgR=-59.6, beta=0.0001, it_s=1.39]

Iter 0077 | avgR  -59.55 ¬± 48.07 | KL 0.0064 (Œ≤=0.0001) | Lclip -0.0942 Lkl 0.0064 Lent 1.1313 | steps 312746 eps 2496 | time 1.39s


GRPO-Hybrid (18h29_09112025):  26%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                        | 79/300 [01:24<03:48,  1.04s/it, KL=0.006, avgR=-14.4, beta=0.0001, it_s=0.88]

Iter 0078 | avgR  -14.37 ¬± 25.05 | KL 0.0059 (Œ≤=0.0001) | Lclip -0.1200 Lkl 0.0059 Lent 1.1838 | steps 316282 eps 2528 | time 0.88s


GRPO-Hybrid (18h29_09112025):  27%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                         | 80/300 [01:25<03:31,  1.04it/s, KL=0.008, avgR=-7.1, beta=0.0001, it_s=0.79]

Iter 0079 | avgR   -7.10 ¬± 26.06 | KL 0.0085 (Œ≤=0.0001) | Lclip -0.0983 Lkl 0.0085 Lent 1.1402 | steps 320038 eps 2560 | time 0.79s


GRPO-Hybrid (18h29_09112025):  27%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                       | 81/300 [01:27<04:20,  1.19s/it, KL=0.028, avgR=-39.5, beta=0.00015, it_s=1.72]

Iter 0080 | avgR  -39.46 ¬± 81.01 | KL 0.0284 (Œ≤=0.00015) | Lclip -0.2953 Lkl 0.0284 Lent 1.2667 | steps 334951 eps 2592 | time 1.72s


GRPO-Hybrid (18h29_09112025):  27%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                        | 82/300 [01:27<04:02,  1.11s/it, KL=0.007, avgR=-9.5, beta=0.0001, it_s=0.93]

Iter 0081 | avgR   -9.46 ¬± 22.02 | KL 0.0072 (Œ≤=0.0001) | Lclip -0.0753 Lkl 0.0072 Lent 1.1700 | steps 338504 eps 2624 | time 0.93s


GRPO-Hybrid (18h29_09112025):  28%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                       | 83/300 [01:28<03:42,  1.03s/it, KL=0.011, avgR=-33.4, beta=0.0001, it_s=0.83]

Iter 0082 | avgR  -33.40 ¬± 26.16 | KL 0.0105 (Œ≤=0.0001) | Lclip -0.0499 Lkl 0.0105 Lent 1.1407 | steps 341666 eps 2656 | time 0.83s


GRPO-Hybrid (18h29_09112025):  28%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                       | 84/300 [01:30<04:16,  1.19s/it, KL=0.011, avgR=-41.5, beta=0.0001, it_s=1.56]

Iter 0083 | avgR  -41.52 ¬± 47.35 | KL 0.0109 (Œ≤=0.0001) | Lclip -0.2470 Lkl 0.0109 Lent 1.2338 | steps 347850 eps 2688 | time 1.56s


GRPO-Hybrid (18h29_09112025):  28%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                       | 85/300 [01:31<03:56,  1.10s/it, KL=0.004, avgR=-24.6, beta=0.0001, it_s=0.89]

Iter 0084 | avgR  -24.61 ¬± 25.51 | KL 0.0040 (Œ≤=0.0001) | Lclip -0.0558 Lkl 0.0040 Lent 1.2364 | steps 351106 eps 2720 | time 0.89s


GRPO-Hybrid (18h29_09112025):  29%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                       | 86/300 [01:32<03:37,  1.01s/it, KL=0.007, avgR=-43.8, beta=0.0001, it_s=0.81]

Iter 0085 | avgR  -43.80 ¬± 23.85 | KL 0.0075 (Œ≤=0.0001) | Lclip -0.0682 Lkl 0.0075 Lent 1.2113 | steps 354567 eps 2752 | time 0.81s


GRPO-Hybrid (18h29_09112025):  29%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                       | 87/300 [01:33<04:23,  1.24s/it, KL=0.004, avgR=-33.0, beta=0.0001, it_s=1.76]

Iter 0086 | avgR  -33.02 ¬± 29.82 | KL 0.0045 (Œ≤=0.0001) | Lclip -0.0571 Lkl 0.0045 Lent 1.2194 | steps 360236 eps 2784 | time 1.76s


GRPO-Hybrid (18h29_09112025):  29%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                       | 88/300 [01:34<04:07,  1.17s/it, KL=0.007, avgR=-23.0, beta=0.0001, it_s=1.00]

Iter 0087 | avgR  -22.98 ¬± 22.86 | KL 0.0075 (Œ≤=0.0001) | Lclip 0.0370 Lkl 0.0075 Lent 1.1200 | steps 363747 eps 2816 | time 1.00s


GRPO-Hybrid (18h29_09112025):  30%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                        | 89/300 [01:35<03:51,  1.10s/it, KL=0.008, avgR=-5.3, beta=0.0001, it_s=0.93]

Iter 0088 | avgR   -5.30 ¬± 24.31 | KL 0.0085 (Œ≤=0.0001) | Lclip -0.0267 Lkl 0.0085 Lent 1.1838 | steps 367919 eps 2848 | time 0.93s


GRPO-Hybrid (18h29_09112025):  30%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                       | 89/300 [01:36<03:51,  1.10s/it, KL=0.005, avgR=-24.7, beta=0.0001, it_s=1.17]

Iter 0089 | avgR  -24.65 ¬± 46.88 | KL 0.0053 (Œ≤=0.0001) | Lclip -0.0582 Lkl 0.0053 Lent 1.1926 | steps 372438 eps 2880 | time 1.17s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Hybrid (18h29_09112025):  30%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                       | 90/300 [01:38<05:30,  1.57s/it, KL=0.005, avgR=-24.7, beta=0.0001, it_s=1.17]

   ‚úì Reward: -47.96 ¬± 67.07
   ‚úì Success Rate: 2.00%
   ‚úì Legs Touching: 1.53
   ‚úì Mean Velocity: 0.494
   ‚úì Distance from Pad: 0.442


GRPO-Hybrid (18h29_09112025):  30%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                       | 91/300 [01:39<04:41,  1.35s/it, KL=0.008, avgR=-80.4, beta=0.0001, it_s=0.82]

Iter 0090 | avgR  -80.39 ¬± 51.95 | KL 0.0079 (Œ≤=0.0001) | Lclip 0.0026 Lkl 0.0079 Lent 1.2083 | steps 376502 eps 2912 | time 0.82s


GRPO-Hybrid (18h29_09112025):  31%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                       | 92/300 [01:40<04:31,  1.31s/it, KL=0.006, avgR=-31.7, beta=0.0001, it_s=1.21]

Iter 0091 | avgR  -31.67 ¬± 55.97 | KL 0.0062 (Œ≤=0.0001) | Lclip -0.0470 Lkl 0.0062 Lent 1.1866 | steps 380680 eps 2944 | time 1.21s


GRPO-Hybrid (18h29_09112025):  31%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                      | 93/300 [01:42<05:03,  1.47s/it, KL=0.014, avgR=-56.0, beta=0.0001, it_s=1.83]

Iter 0092 | avgR  -56.03 ¬± 85.55 | KL 0.0142 (Œ≤=0.0001) | Lclip -0.2580 Lkl 0.0142 Lent 1.2770 | steps 391648 eps 2976 | time 1.83s


GRPO-Hybrid (18h29_09112025):  31%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                       | 94/300 [01:43<04:29,  1.31s/it, KL=0.008, avgR=-9.9, beta=0.0001, it_s=0.93]

Iter 0093 | avgR   -9.92 ¬± 20.92 | KL 0.0084 (Œ≤=0.0001) | Lclip 0.0187 Lkl 0.0084 Lent 1.2013 | steps 395510 eps 3008 | time 0.93s


GRPO-Hybrid (18h29_09112025):  32%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                      | 95/300 [01:44<04:05,  1.20s/it, KL=0.007, avgR=-32.4, beta=0.0001, it_s=0.94]

Iter 0094 | avgR  -32.42 ¬± 40.65 | KL 0.0068 (Œ≤=0.0001) | Lclip -0.1021 Lkl 0.0068 Lent 1.1916 | steps 399164 eps 3040 | time 0.94s


GRPO-Hybrid (18h29_09112025):  32%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                      | 96/300 [01:45<03:47,  1.12s/it, KL=0.009, avgR=-18.8, beta=0.0001, it_s=0.92]

Iter 0095 | avgR  -18.78 ¬± 27.73 | KL 0.0093 (Œ≤=0.0001) | Lclip -0.0740 Lkl 0.0093 Lent 1.2036 | steps 402930 eps 3072 | time 0.92s


GRPO-Hybrid (18h29_09112025):  32%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                      | 97/300 [01:46<03:38,  1.08s/it, KL=0.006, avgR=-41.2, beta=0.0001, it_s=0.99]

Iter 0096 | avgR  -41.19 ¬± 29.05 | KL 0.0062 (Œ≤=0.0001) | Lclip -0.0961 Lkl 0.0062 Lent 1.2353 | steps 407846 eps 3104 | time 0.99s


GRPO-Hybrid (18h29_09112025):  33%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                      | 98/300 [01:47<03:35,  1.07s/it, KL=0.007, avgR=-46.6, beta=0.0001, it_s=1.03]

Iter 0097 | avgR  -46.65 ¬± 31.87 | KL 0.0072 (Œ≤=0.0001) | Lclip -0.0528 Lkl 0.0072 Lent 1.2067 | steps 412879 eps 3136 | time 1.03s


GRPO-Hybrid (18h29_09112025):  33%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                      | 99/300 [01:48<03:31,  1.05s/it, KL=0.006, avgR=-57.4, beta=0.0001, it_s=1.01]

Iter 0098 | avgR  -57.36 ¬± 49.73 | KL 0.0057 (Œ≤=0.0001) | Lclip -0.0053 Lkl 0.0057 Lent 1.2516 | steps 417972 eps 3168 | time 1.01s


GRPO-Hybrid (18h29_09112025):  33%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                     | 100/300 [01:49<04:14,  1.27s/it, KL=0.014, avgR=-67.5, beta=0.0001, it_s=1.78]

Iter 0099 | avgR  -67.48 ¬± 96.18 | KL 0.0136 (Œ≤=0.0001) | Lclip -0.4679 Lkl 0.0136 Lent 1.2052 | steps 428962 eps 3200 | time 1.78s


GRPO-Hybrid (18h29_09112025):  34%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                     | 101/300 [01:51<03:59,  1.20s/it, KL=0.009, avgR=-57.4, beta=0.0001, it_s=1.04]

Iter 0100 | avgR  -57.45 ¬± 67.19 | KL 0.0086 (Œ≤=0.0001) | Lclip -0.1265 Lkl 0.0086 Lent 1.1693 | steps 433684 eps 3232 | time 1.04s


GRPO-Hybrid (18h29_09112025):  34%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                     | 102/300 [01:52<03:48,  1.15s/it, KL=0.012, avgR=-60.3, beta=0.0001, it_s=1.03]

Iter 0101 | avgR  -60.33 ¬± 85.60 | KL 0.0118 (Œ≤=0.0001) | Lclip -0.2480 Lkl 0.0118 Lent 1.2372 | steps 438913 eps 3264 | time 1.03s


GRPO-Hybrid (18h29_09112025):  34%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                     | 103/300 [01:52<03:29,  1.07s/it, KL=0.009, avgR=-26.1, beta=0.0001, it_s=0.86]

Iter 0102 | avgR  -26.07 ¬± 32.61 | KL 0.0087 (Œ≤=0.0001) | Lclip -0.0297 Lkl 0.0087 Lent 1.2349 | steps 442451 eps 3296 | time 0.86s


GRPO-Hybrid (18h29_09112025):  35%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                     | 104/300 [01:53<03:14,  1.01it/s, KL=0.009, avgR=-51.5, beta=0.0001, it_s=0.82]

Iter 0103 | avgR  -51.52 ¬± 37.40 | KL 0.0091 (Œ≤=0.0001) | Lclip -0.0957 Lkl 0.0091 Lent 1.2410 | steps 446114 eps 3328 | time 0.82s


GRPO-Hybrid (18h29_09112025):  35%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                    | 105/300 [01:55<03:35,  1.10s/it, KL=0.014, avgR=-43.4, beta=0.0001, it_s=1.36]

Iter 0104 | avgR  -43.41 ¬± 58.47 | KL 0.0137 (Œ≤=0.0001) | Lclip -0.3273 Lkl 0.0137 Lent 1.2612 | steps 453277 eps 3360 | time 1.36s


GRPO-Hybrid (18h29_09112025):  35%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                    | 106/300 [01:55<03:20,  1.03s/it, KL=0.015, avgR=-19.1, beta=0.0001, it_s=0.86]

Iter 0105 | avgR  -19.12 ¬± 25.90 | KL 0.0155 (Œ≤=0.0001) | Lclip -0.0444 Lkl 0.0155 Lent 1.2358 | steps 457336 eps 3392 | time 0.86s


GRPO-Hybrid (18h29_09112025):  36%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                    | 107/300 [01:56<03:08,  1.02it/s, KL=0.014, avgR=-12.8, beta=0.0001, it_s=0.85]

Iter 0106 | avgR  -12.82 ¬± 53.20 | KL 0.0142 (Œ≤=0.0001) | Lclip -0.1835 Lkl 0.0142 Lent 1.2388 | steps 461153 eps 3424 | time 0.85s


GRPO-Hybrid (18h29_09112025):  36%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                    | 108/300 [01:57<03:02,  1.05it/s, KL=0.008, avgR=-68.6, beta=0.0001, it_s=0.88]

Iter 0107 | avgR  -68.58 ¬± 52.82 | KL 0.0085 (Œ≤=0.0001) | Lclip -0.0600 Lkl 0.0085 Lent 1.2201 | steps 465433 eps 3456 | time 0.88s


GRPO-Hybrid (18h29_09112025):  36%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                    | 109/300 [01:58<03:09,  1.01it/s, KL=0.007, avgR=-39.0, beta=0.0001, it_s=1.08]

Iter 0108 | avgR  -38.98 ¬± 38.23 | KL 0.0067 (Œ≤=0.0001) | Lclip -0.3088 Lkl 0.0067 Lent 1.1793 | steps 471480 eps 3488 | time 1.08s


GRPO-Hybrid (18h29_09112025):  37%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                    | 110/300 [01:59<03:07,  1.01it/s, KL=0.010, avgR=-19.5, beta=0.0001, it_s=0.97]

Iter 0109 | avgR  -19.53 ¬± 43.40 | KL 0.0103 (Œ≤=0.0001) | Lclip -0.1208 Lkl 0.0103 Lent 1.1489 | steps 475363 eps 3520 | time 0.97s


GRPO-Hybrid (18h29_09112025):  37%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                    | 111/300 [02:00<03:14,  1.03s/it, KL=0.010, avgR=-44.0, beta=0.0001, it_s=1.13]

Iter 0110 | avgR  -43.98 ¬± 66.44 | KL 0.0102 (Œ≤=0.0001) | Lclip -0.2628 Lkl 0.0102 Lent 1.1942 | steps 482451 eps 3552 | time 1.13s


GRPO-Hybrid (18h29_09112025):  37%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                    | 112/300 [02:02<03:18,  1.06s/it, KL=0.006, avgR=-22.4, beta=0.0001, it_s=1.11]

Iter 0111 | avgR  -22.42 ¬± 40.60 | KL 0.0063 (Œ≤=0.0001) | Lclip -0.0353 Lkl 0.0063 Lent 1.1983 | steps 488994 eps 3584 | time 1.11s


GRPO-Hybrid (18h29_09112025):  38%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                    | 113/300 [02:03<04:04,  1.31s/it, KL=0.003, avgR=-69.0, beta=0.0001, it_s=1.89]

Iter 0112 | avgR  -69.02 ¬±112.60 | KL 0.0034 (Œ≤=0.0001) | Lclip -0.3715 Lkl 0.0034 Lent 1.1190 | steps 506573 eps 3616 | time 1.89s


GRPO-Hybrid (18h29_09112025):  38%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                   | 114/300 [02:04<03:45,  1.21s/it, KL=0.007, avgR=-19.4, beta=0.0001, it_s=0.99]

Iter 0113 | avgR  -19.36 ¬± 31.04 | KL 0.0074 (Œ≤=0.0001) | Lclip -0.0710 Lkl 0.0074 Lent 1.1580 | steps 511230 eps 3648 | time 0.99s


GRPO-Hybrid (18h29_09112025):  38%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                     | 115/300 [02:05<03:35,  1.16s/it, KL=0.008, avgR=1.0, beta=0.0001, it_s=1.05]

Iter 0114 | avgR    0.98 ¬± 23.50 | KL 0.0075 (Œ≤=0.0001) | Lclip -0.1627 Lkl 0.0075 Lent 1.2121 | steps 516441 eps 3680 | time 1.05s


GRPO-Hybrid (18h29_09112025):  39%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                   | 116/300 [02:06<03:13,  1.05s/it, KL=0.012, avgR=-13.7, beta=0.0001, it_s=0.78]

Iter 0115 | avgR  -13.73 ¬± 27.17 | KL 0.0119 (Œ≤=0.0001) | Lclip -0.1124 Lkl 0.0119 Lent 1.1702 | steps 519948 eps 3712 | time 0.78s


GRPO-Hybrid (18h29_09112025):  39%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                   | 117/300 [02:07<03:08,  1.03s/it, KL=0.005, avgR=-25.7, beta=0.0001, it_s=0.97]

Iter 0116 | avgR  -25.66 ¬± 32.20 | KL 0.0053 (Œ≤=0.0001) | Lclip -0.0642 Lkl 0.0053 Lent 1.1771 | steps 524732 eps 3744 | time 0.97s


GRPO-Hybrid (18h29_09112025):  39%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                   | 118/300 [02:09<03:56,  1.30s/it, KL=0.010, avgR=-39.4, beta=0.0001, it_s=1.92]

Iter 0117 | avgR  -39.43 ¬± 82.01 | KL 0.0097 (Œ≤=0.0001) | Lclip -0.3232 Lkl 0.0097 Lent 1.2574 | steps 539786 eps 3776 | time 1.92s


GRPO-Hybrid (18h29_09112025):  40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                   | 119/300 [02:10<03:32,  1.18s/it, KL=0.010, avgR=-59.2, beta=0.0001, it_s=0.89]

Iter 0118 | avgR  -59.16 ¬± 39.97 | KL 0.0098 (Œ≤=0.0001) | Lclip -0.1186 Lkl 0.0098 Lent 1.2076 | steps 543838 eps 3808 | time 0.89s


GRPO-Hybrid (18h29_09112025):  40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                   | 119/300 [02:11<03:32,  1.18s/it, KL=0.008, avgR=-15.6, beta=0.0001, it_s=1.06]

Iter 0119 | avgR  -15.63 ¬± 29.87 | KL 0.0081 (Œ≤=0.0001) | Lclip -0.0726 Lkl 0.0081 Lent 1.2593 | steps 548061 eps 3840 | time 1.06s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Hybrid (18h29_09112025):  40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                   | 120/300 [02:12<04:10,  1.39s/it, KL=0.008, avgR=-15.6, beta=0.0001, it_s=1.06]

   ‚úì Reward: -56.26 ¬± 21.38
   ‚úì Success Rate: 12.00%
   ‚úì Legs Touching: 1.64
   ‚úì Mean Velocity: 0.477
   ‚úì Distance from Pad: 0.266


GRPO-Hybrid (18h29_09112025):  40%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                   | 121/300 [02:13<03:45,  1.26s/it, KL=0.010, avgR=-44.7, beta=0.0001, it_s=0.94]

Iter 0120 | avgR  -44.71 ¬± 24.16 | KL 0.0098 (Œ≤=0.0001) | Lclip -0.0096 Lkl 0.0098 Lent 1.2262 | steps 551034 eps 3872 | time 0.94s


GRPO-Hybrid (18h29_09112025):  41%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                   | 122/300 [02:14<03:29,  1.18s/it, KL=0.011, avgR=-59.2, beta=0.0001, it_s=0.99]

Iter 0121 | avgR  -59.18 ¬± 55.46 | KL 0.0108 (Œ≤=0.0001) | Lclip -0.1192 Lkl 0.0108 Lent 1.2373 | steps 556593 eps 3904 | time 0.99s


GRPO-Hybrid (18h29_09112025):  41%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                   | 123/300 [02:15<03:20,  1.13s/it, KL=0.009, avgR=-31.3, beta=0.0001, it_s=1.02]

Iter 0122 | avgR  -31.34 ¬± 31.36 | KL 0.0089 (Œ≤=0.0001) | Lclip -0.0289 Lkl 0.0089 Lent 1.2020 | steps 560631 eps 3936 | time 1.02s


GRPO-Hybrid (18h29_09112025):  41%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                   | 124/300 [02:16<03:22,  1.15s/it, KL=0.002, avgR=-6.0, beta=0.0001, it_s=1.18]

Iter 0123 | avgR   -5.96 ¬± 43.45 | KL 0.0023 (Œ≤=0.0001) | Lclip -0.0461 Lkl 0.0023 Lent 1.2372 | steps 565293 eps 3968 | time 1.18s


GRPO-Hybrid (18h29_09112025):  42%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                  | 125/300 [02:17<03:14,  1.11s/it, KL=0.004, avgR=-36.9, beta=0.0001, it_s=1.02]

Iter 0124 | avgR  -36.89 ¬± 21.87 | KL 0.0039 (Œ≤=0.0001) | Lclip -0.0255 Lkl 0.0039 Lent 1.2356 | steps 569236 eps 4000 | time 1.02s


GRPO-Hybrid (18h29_09112025):  42%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                  | 126/300 [02:18<03:16,  1.13s/it, KL=0.012, avgR=-18.4, beta=0.0001, it_s=1.17]

Iter 0125 | avgR  -18.43 ¬± 40.49 | KL 0.0118 (Œ≤=0.0001) | Lclip -0.3196 Lkl 0.0118 Lent 1.2730 | steps 574088 eps 4032 | time 1.17s


GRPO-Hybrid (18h29_09112025):  42%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                  | 127/300 [02:19<03:09,  1.10s/it, KL=0.007, avgR=-31.0, beta=0.0001, it_s=1.02]

Iter 0126 | avgR  -31.03 ¬± 24.09 | KL 0.0066 (Œ≤=0.0001) | Lclip -0.0475 Lkl 0.0066 Lent 1.2394 | steps 577573 eps 4064 | time 1.02s


GRPO-Hybrid (18h29_09112025):  43%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                  | 128/300 [02:20<03:02,  1.06s/it, KL=0.007, avgR=-56.1, beta=0.0001, it_s=0.98]

Iter 0127 | avgR  -56.08 ¬± 40.78 | KL 0.0067 (Œ≤=0.0001) | Lclip -0.0634 Lkl 0.0067 Lent 1.2191 | steps 581425 eps 4096 | time 0.98s


GRPO-Hybrid (18h29_09112025):  43%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                  | 129/300 [02:22<03:30,  1.23s/it, KL=0.010, avgR=-40.5, beta=0.0001, it_s=1.62]

Iter 0128 | avgR  -40.47 ¬± 47.96 | KL 0.0097 (Œ≤=0.0001) | Lclip -0.0986 Lkl 0.0097 Lent 1.2612 | steps 588190 eps 4128 | time 1.62s


GRPO-Hybrid (18h29_09112025):  43%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                  | 130/300 [02:24<03:50,  1.36s/it, KL=0.007, avgR=-54.4, beta=0.0001, it_s=1.64]

Iter 0129 | avgR  -54.39 ¬± 39.48 | KL 0.0066 (Œ≤=0.0001) | Lclip -0.0153 Lkl 0.0066 Lent 1.2585 | steps 594191 eps 4160 | time 1.64s


GRPO-Hybrid (18h29_09112025):  44%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                  | 131/300 [02:24<03:25,  1.21s/it, KL=0.005, avgR=-13.7, beta=0.0001, it_s=0.88]

Iter 0130 | avgR  -13.68 ¬± 37.58 | KL 0.0049 (Œ≤=0.0001) | Lclip -0.0313 Lkl 0.0049 Lent 1.1868 | steps 598261 eps 4192 | time 0.88s


GRPO-Hybrid (18h29_09112025):  44%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                  | 132/300 [02:26<03:47,  1.35s/it, KL=0.008, avgR=-15.6, beta=0.0001, it_s=1.67]

Iter 0131 | avgR  -15.61 ¬± 30.07 | KL 0.0077 (Œ≤=0.0001) | Lclip -0.0109 Lkl 0.0077 Lent 1.2442 | steps 603857 eps 4224 | time 1.67s


GRPO-Hybrid (18h29_09112025):  44%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                 | 133/300 [02:27<03:22,  1.21s/it, KL=0.006, avgR=-12.7, beta=0.0001, it_s=0.88]

Iter 0132 | avgR  -12.68 ¬± 24.35 | KL 0.0061 (Œ≤=0.0001) | Lclip -0.0581 Lkl 0.0061 Lent 1.1829 | steps 607381 eps 4256 | time 0.88s


GRPO-Hybrid (18h29_09112025):  45%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                 | 134/300 [02:28<03:03,  1.11s/it, KL=0.011, avgR=-17.6, beta=0.0001, it_s=0.86]

Iter 0133 | avgR  -17.62 ¬± 39.53 | KL 0.0111 (Œ≤=0.0001) | Lclip -0.1345 Lkl 0.0111 Lent 1.1969 | steps 611243 eps 4288 | time 0.86s


GRPO-Hybrid (18h29_09112025):  45%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                  | 135/300 [02:29<02:48,  1.02s/it, KL=0.006, avgR=-5.9, beta=0.0001, it_s=0.81]

Iter 0134 | avgR   -5.91 ¬± 28.51 | KL 0.0065 (Œ≤=0.0001) | Lclip -0.0857 Lkl 0.0065 Lent 1.2075 | steps 614882 eps 4320 | time 0.81s


GRPO-Hybrid (18h29_09112025):  45%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                 | 136/300 [02:30<02:44,  1.00s/it, KL=0.014, avgR=-37.1, beta=0.0001, it_s=0.96]

Iter 0135 | avgR  -37.11 ¬± 40.01 | KL 0.0136 (Œ≤=0.0001) | Lclip 0.0164 Lkl 0.0136 Lent 1.1958 | steps 618495 eps 4352 | time 0.96s


GRPO-Hybrid (18h29_09112025):  46%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                 | 137/300 [02:31<02:42,  1.00it/s, KL=0.006, avgR=-39.1, beta=0.0001, it_s=0.97]

Iter 0136 | avgR  -39.06 ¬± 34.14 | KL 0.0062 (Œ≤=0.0001) | Lclip -0.0115 Lkl 0.0062 Lent 1.1904 | steps 622108 eps 4384 | time 0.97s


GRPO-Hybrid (18h29_09112025):  46%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                 | 138/300 [02:32<02:38,  1.02it/s, KL=0.004, avgR=-6.8, beta=0.0001, it_s=0.93]

Iter 0137 | avgR   -6.83 ¬± 22.75 | KL 0.0045 (Œ≤=0.0001) | Lclip -0.0192 Lkl 0.0045 Lent 1.2151 | steps 625737 eps 4416 | time 0.93s


GRPO-Hybrid (18h29_09112025):  46%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                 | 139/300 [02:33<03:18,  1.23s/it, KL=0.008, avgR=-8.3, beta=0.0001, it_s=1.83]

Iter 0138 | avgR   -8.34 ¬± 32.10 | KL 0.0076 (Œ≤=0.0001) | Lclip -0.0536 Lkl 0.0076 Lent 1.2096 | steps 631248 eps 4448 | time 1.83s


GRPO-Hybrid (18h29_09112025):  47%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                 | 140/300 [02:34<03:05,  1.16s/it, KL=0.010, avgR=-21.6, beta=0.0001, it_s=0.98]

Iter 0139 | avgR  -21.61 ¬± 29.98 | KL 0.0101 (Œ≤=0.0001) | Lclip -0.0366 Lkl 0.0101 Lent 1.2032 | steps 635039 eps 4480 | time 0.98s


GRPO-Hybrid (18h29_09112025):  47%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                 | 141/300 [02:35<02:54,  1.10s/it, KL=0.005, avgR=-28.0, beta=0.0001, it_s=0.96]

Iter 0140 | avgR  -27.99 ¬± 26.01 | KL 0.0045 (Œ≤=0.0001) | Lclip -0.0213 Lkl 0.0045 Lent 1.2040 | steps 638468 eps 4512 | time 0.96s


GRPO-Hybrid (18h29_09112025):  47%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè                | 142/300 [02:36<02:44,  1.04s/it, KL=0.009, avgR=-18.3, beta=0.0001, it_s=0.91]

Iter 0141 | avgR  -18.33 ¬± 33.29 | KL 0.0087 (Œ≤=0.0001) | Lclip -0.0622 Lkl 0.0087 Lent 1.2023 | steps 641974 eps 4544 | time 0.91s


GRPO-Hybrid (18h29_09112025):  48%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                | 143/300 [02:37<02:36,  1.00it/s, KL=0.004, avgR=-37.1, beta=0.0001, it_s=0.88]

Iter 0142 | avgR  -37.09 ¬± 30.73 | KL 0.0041 (Œ≤=0.0001) | Lclip -0.0283 Lkl 0.0041 Lent 1.2291 | steps 645159 eps 4576 | time 0.88s


GRPO-Hybrid (18h29_09112025):  48%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé                | 144/300 [02:38<02:34,  1.01it/s, KL=0.008, avgR=-26.7, beta=0.0001, it_s=0.98]

Iter 0143 | avgR  -26.75 ¬± 24.13 | KL 0.0080 (Œ≤=0.0001) | Lclip -0.0678 Lkl 0.0080 Lent 1.2149 | steps 648638 eps 4608 | time 0.98s


GRPO-Hybrid (18h29_09112025):  48%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç                | 145/300 [02:39<02:33,  1.01it/s, KL=0.008, avgR=-32.9, beta=0.0001, it_s=0.98]

Iter 0144 | avgR  -32.94 ¬± 34.47 | KL 0.0079 (Œ≤=0.0001) | Lclip -0.0335 Lkl 0.0079 Lent 1.2033 | steps 652470 eps 4640 | time 0.98s


GRPO-Hybrid (18h29_09112025):  49%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå                | 146/300 [02:40<02:32,  1.01it/s, KL=0.004, avgR=-29.8, beta=0.0001, it_s=0.99]

Iter 0145 | avgR  -29.76 ¬± 39.60 | KL 0.0042 (Œ≤=0.0001) | Lclip -0.0287 Lkl 0.0042 Lent 1.1983 | steps 656349 eps 4672 | time 0.99s


GRPO-Hybrid (18h29_09112025):  49%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã                | 147/300 [02:41<02:31,  1.01it/s, KL=0.006, avgR=-33.6, beta=0.0001, it_s=0.98]

Iter 0146 | avgR  -33.59 ¬± 36.27 | KL 0.0063 (Œ≤=0.0001) | Lclip -0.0325 Lkl 0.0063 Lent 1.2107 | steps 660415 eps 4704 | time 0.98s


GRPO-Hybrid (18h29_09112025):  49%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä                | 148/300 [02:42<02:24,  1.05it/s, KL=0.008, avgR=-28.1, beta=0.0001, it_s=0.85]

Iter 0147 | avgR  -28.08 ¬± 29.22 | KL 0.0075 (Œ≤=0.0001) | Lclip -0.0518 Lkl 0.0075 Lent 1.1621 | steps 663607 eps 4736 | time 0.85s


GRPO-Hybrid (18h29_09112025):  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                | 149/300 [02:43<02:24,  1.04it/s, KL=0.007, avgR=-16.8, beta=0.0001, it_s=0.97]

Iter 0148 | avgR  -16.81 ¬± 27.67 | KL 0.0070 (Œ≤=0.0001) | Lclip -0.0461 Lkl 0.0070 Lent 1.1390 | steps 667033 eps 4768 | time 0.97s


GRPO-Hybrid (18h29_09112025):  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ                 | 149/300 [02:44<02:24,  1.04it/s, KL=0.008, avgR=4.2, beta=0.0001, it_s=0.89]

Iter 0149 | avgR    4.19 ¬± 27.44 | KL 0.0080 (Œ≤=0.0001) | Lclip -0.0153 Lkl 0.0080 Lent 1.1967 | steps 670642 eps 4800 | time 0.89s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Hybrid (18h29_09112025):  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                 | 150/300 [02:45<03:24,  1.36s/it, KL=0.008, avgR=4.2, beta=0.0001, it_s=0.89]

   ‚úì Reward: -15.99 ¬± 40.38
   ‚úì Success Rate: 20.00%
   ‚úì Legs Touching: 1.68
   ‚úì Mean Velocity: 0.296
   ‚úì Distance from Pad: 0.211


GRPO-Hybrid (18h29_09112025):  50%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà                | 151/300 [02:47<03:33,  1.43s/it, KL=0.004, avgR=-20.7, beta=0.0001, it_s=1.60]

Iter 0150 | avgR  -20.72 ¬± 32.11 | KL 0.0038 (Œ≤=0.0001) | Lclip -0.0618 Lkl 0.0038 Lent 1.2145 | steps 676147 eps 4832 | time 1.60s


GRPO-Hybrid (18h29_09112025):  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè               | 152/300 [02:48<03:09,  1.28s/it, KL=0.012, avgR=-33.8, beta=0.0001, it_s=0.92]

Iter 0151 | avgR  -33.85 ¬± 54.08 | KL 0.0122 (Œ≤=0.0001) | Lclip -0.2207 Lkl 0.0122 Lent 1.1794 | steps 679397 eps 4864 | time 0.92s


GRPO-Hybrid (18h29_09112025):  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé               | 153/300 [02:49<02:53,  1.18s/it, KL=0.005, avgR=-21.2, beta=0.0001, it_s=0.95]

Iter 0152 | avgR  -21.24 ¬± 29.77 | KL 0.0045 (Œ≤=0.0001) | Lclip -0.1093 Lkl 0.0045 Lent 1.1816 | steps 682827 eps 4896 | time 0.95s


GRPO-Hybrid (18h29_09112025):  51%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç               | 154/300 [02:50<03:20,  1.37s/it, KL=0.005, avgR=-44.6, beta=0.0001, it_s=1.80]

Iter 0153 | avgR  -44.62 ¬± 52.65 | KL 0.0052 (Œ≤=0.0001) | Lclip -0.1311 Lkl 0.0052 Lent 1.2391 | steps 690018 eps 4928 | time 1.80s


GRPO-Hybrid (18h29_09112025):  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå               | 155/300 [02:52<03:33,  1.47s/it, KL=0.007, avgR=-32.6, beta=0.0001, it_s=1.71]

Iter 0154 | avgR  -32.64 ¬± 37.77 | KL 0.0069 (Œ≤=0.0001) | Lclip -0.2708 Lkl 0.0069 Lent 1.2474 | steps 697655 eps 4960 | time 1.71s


GRPO-Hybrid (18h29_09112025):  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã               | 156/300 [02:53<03:05,  1.29s/it, KL=0.004, avgR=-15.8, beta=0.0001, it_s=0.86]

Iter 0155 | avgR  -15.75 ¬± 35.36 | KL 0.0045 (Œ≤=0.0001) | Lclip -0.0358 Lkl 0.0045 Lent 1.2136 | steps 701205 eps 4992 | time 0.86s


GRPO-Hybrid (18h29_09112025):  52%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã               | 157/300 [02:54<02:45,  1.16s/it, KL=0.018, avgR=-58.7, beta=0.0001, it_s=0.85]

Iter 0156 | avgR  -58.66 ¬± 56.21 | KL 0.0179 (Œ≤=0.0001) | Lclip -0.0178 Lkl 0.0179 Lent 1.2550 | steps 704777 eps 5024 | time 0.85s


GRPO-Hybrid (18h29_09112025):  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä               | 158/300 [02:55<02:32,  1.07s/it, KL=0.007, avgR=-22.9, beta=0.0001, it_s=0.86]

Iter 0157 | avgR  -22.93 ¬± 46.43 | KL 0.0073 (Œ≤=0.0001) | Lclip -0.1071 Lkl 0.0073 Lent 1.1916 | steps 708383 eps 5056 | time 0.86s


GRPO-Hybrid (18h29_09112025):  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ               | 159/300 [02:56<02:28,  1.05s/it, KL=0.014, avgR=-52.5, beta=0.0001, it_s=1.00]

Iter 0158 | avgR  -52.55 ¬± 79.04 | KL 0.0145 (Œ≤=0.0001) | Lclip -0.2376 Lkl 0.0145 Lent 1.1809 | steps 711717 eps 5088 | time 1.00s


GRPO-Hybrid (18h29_09112025):  53%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà               | 160/300 [02:58<02:57,  1.27s/it, KL=0.002, avgR=-37.2, beta=0.0001, it_s=1.78]

Iter 0159 | avgR  -37.24 ¬± 39.57 | KL 0.0020 (Œ≤=0.0001) | Lclip -0.0306 Lkl 0.0020 Lent 1.2076 | steps 716873 eps 5120 | time 1.78s


GRPO-Hybrid (18h29_09112025):  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè              | 161/300 [02:59<02:44,  1.18s/it, KL=0.008, avgR=-41.5, beta=0.0001, it_s=0.97]

Iter 0160 | avgR  -41.47 ¬± 38.50 | KL 0.0078 (Œ≤=0.0001) | Lclip -0.1526 Lkl 0.0078 Lent 1.1857 | steps 719986 eps 5152 | time 0.97s


GRPO-Hybrid (18h29_09112025):  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé              | 162/300 [02:59<02:31,  1.10s/it, KL=0.004, avgR=-42.7, beta=0.0001, it_s=0.91]

Iter 0161 | avgR  -42.73 ¬± 30.59 | KL 0.0045 (Œ≤=0.0001) | Lclip -0.0198 Lkl 0.0045 Lent 1.1864 | steps 723558 eps 5184 | time 0.91s


GRPO-Hybrid (18h29_09112025):  54%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç              | 163/300 [03:00<02:25,  1.06s/it, KL=0.009, avgR=-26.5, beta=0.0001, it_s=0.96]

Iter 0162 | avgR  -26.52 ¬± 43.36 | KL 0.0094 (Œ≤=0.0001) | Lclip -0.1837 Lkl 0.0094 Lent 1.1850 | steps 726935 eps 5216 | time 0.96s


GRPO-Hybrid (18h29_09112025):  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç              | 164/300 [03:02<02:24,  1.07s/it, KL=0.008, avgR=-39.4, beta=0.0001, it_s=1.07]

Iter 0163 | avgR  -39.41 ¬± 51.70 | KL 0.0080 (Œ≤=0.0001) | Lclip -0.0768 Lkl 0.0080 Lent 1.1730 | steps 730420 eps 5248 | time 1.07s


GRPO-Hybrid (18h29_09112025):  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå              | 165/300 [03:02<02:11,  1.02it/s, KL=0.009, avgR=-47.4, beta=0.0001, it_s=0.77]

Iter 0164 | avgR  -47.44 ¬± 30.14 | KL 0.0095 (Œ≤=0.0001) | Lclip -0.0777 Lkl 0.0095 Lent 1.2179 | steps 733284 eps 5280 | time 0.77s


GRPO-Hybrid (18h29_09112025):  55%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã              | 166/300 [03:03<02:03,  1.08it/s, KL=0.008, avgR=-27.8, beta=0.0001, it_s=0.79]

Iter 0165 | avgR  -27.76 ¬± 35.48 | KL 0.0084 (Œ≤=0.0001) | Lclip -0.0657 Lkl 0.0084 Lent 1.2063 | steps 736848 eps 5312 | time 0.79s


GRPO-Hybrid (18h29_09112025):  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä              | 167/300 [03:04<02:02,  1.09it/s, KL=0.007, avgR=-38.4, beta=0.0001, it_s=0.91]

Iter 0166 | avgR  -38.45 ¬± 48.75 | KL 0.0069 (Œ≤=0.0001) | Lclip -0.1742 Lkl 0.0069 Lent 1.2227 | steps 740134 eps 5344 | time 0.91s


GRPO-Hybrid (18h29_09112025):  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ              | 168/300 [03:05<01:58,  1.12it/s, KL=0.017, avgR=-43.2, beta=0.0001, it_s=0.83]

Iter 0167 | avgR  -43.16 ¬± 32.89 | KL 0.0169 (Œ≤=0.0001) | Lclip -0.0773 Lkl 0.0169 Lent 1.2490 | steps 743301 eps 5376 | time 0.83s


GRPO-Hybrid (18h29_09112025):  56%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà              | 169/300 [03:06<01:56,  1.12it/s, KL=0.014, avgR=-43.0, beta=0.0001, it_s=0.88]

Iter 0168 | avgR  -42.99 ¬± 42.06 | KL 0.0143 (Œ≤=0.0001) | Lclip -0.1096 Lkl 0.0143 Lent 1.2231 | steps 746583 eps 5408 | time 0.88s


GRPO-Hybrid (18h29_09112025):  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè             | 170/300 [03:07<01:57,  1.11it/s, KL=0.012, avgR=-21.3, beta=0.0001, it_s=0.93]

Iter 0169 | avgR  -21.29 ¬± 24.19 | KL 0.0118 (Œ≤=0.0001) | Lclip -0.0753 Lkl 0.0118 Lent 1.1320 | steps 749448 eps 5440 | time 0.93s


GRPO-Hybrid (18h29_09112025):  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè             | 171/300 [03:08<02:23,  1.11s/it, KL=0.011, avgR=-56.0, beta=0.0001, it_s=1.59]

Iter 0170 | avgR  -56.05 ¬±125.25 | KL 0.0106 (Œ≤=0.0001) | Lclip -0.4363 Lkl 0.0106 Lent 1.2252 | steps 761357 eps 5472 | time 1.59s


GRPO-Hybrid (18h29_09112025):  57%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé             | 172/300 [03:09<02:11,  1.03s/it, KL=0.006, avgR=-29.5, beta=0.0001, it_s=0.82]

Iter 0171 | avgR  -29.54 ¬± 22.48 | KL 0.0063 (Œ≤=0.0001) | Lclip -0.0526 Lkl 0.0063 Lent 1.2477 | steps 764709 eps 5504 | time 0.82s


GRPO-Hybrid (18h29_09112025):  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç             | 173/300 [03:10<02:03,  1.03it/s, KL=0.007, avgR=-38.0, beta=0.0001, it_s=0.83]

Iter 0172 | avgR  -37.98 ¬± 24.23 | KL 0.0073 (Œ≤=0.0001) | Lclip 0.0701 Lkl 0.0073 Lent 1.1898 | steps 767426 eps 5536 | time 0.83s


GRPO-Hybrid (18h29_09112025):  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå             | 174/300 [03:11<01:57,  1.08it/s, KL=0.007, avgR=-60.9, beta=0.0001, it_s=0.83]

Iter 0173 | avgR  -60.89 ¬± 38.47 | KL 0.0071 (Œ≤=0.0001) | Lclip -0.0673 Lkl 0.0071 Lent 1.2002 | steps 770456 eps 5568 | time 0.83s


GRPO-Hybrid (18h29_09112025):  58%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã             | 175/300 [03:12<01:53,  1.10it/s, KL=0.006, avgR=-39.7, beta=0.0001, it_s=0.86]

Iter 0174 | avgR  -39.65 ¬± 31.36 | KL 0.0063 (Œ≤=0.0001) | Lclip -0.0108 Lkl 0.0063 Lent 1.1679 | steps 773445 eps 5600 | time 0.86s


GRPO-Hybrid (18h29_09112025):  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä             | 176/300 [03:13<01:53,  1.09it/s, KL=0.007, avgR=-59.5, beta=0.0001, it_s=0.92]

Iter 0175 | avgR  -59.51 ¬± 32.05 | KL 0.0072 (Œ≤=0.0001) | Lclip -0.0960 Lkl 0.0072 Lent 1.1819 | steps 776127 eps 5632 | time 0.92s


GRPO-Hybrid (18h29_09112025):  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ             | 177/300 [03:13<01:51,  1.10it/s, KL=0.005, avgR=-33.1, beta=0.0001, it_s=0.88]

Iter 0176 | avgR  -33.13 ¬± 21.79 | KL 0.0050 (Œ≤=0.0001) | Lclip -0.1047 Lkl 0.0050 Lent 1.1611 | steps 778981 eps 5664 | time 0.88s


GRPO-Hybrid (18h29_09112025):  59%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ             | 178/300 [03:14<01:48,  1.12it/s, KL=0.007, avgR=-31.0, beta=0.0001, it_s=0.85]

Iter 0177 | avgR  -31.01 ¬± 22.37 | KL 0.0075 (Œ≤=0.0001) | Lclip -0.1150 Lkl 0.0075 Lent 1.1619 | steps 781941 eps 5696 | time 0.85s


GRPO-Hybrid (18h29_09112025):  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà             | 179/300 [03:15<01:50,  1.10it/s, KL=0.006, avgR=-34.2, beta=0.0001, it_s=0.96]

Iter 0178 | avgR  -34.18 ¬± 37.70 | KL 0.0059 (Œ≤=0.0001) | Lclip -0.0715 Lkl 0.0059 Lent 1.1485 | steps 784991 eps 5728 | time 0.96s


GRPO-Hybrid (18h29_09112025):  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà             | 179/300 [03:16<01:50,  1.10it/s, KL=0.010, avgR=-31.8, beta=0.0001, it_s=0.96]

Iter 0179 | avgR  -31.83 ¬± 39.05 | KL 0.0104 (Œ≤=0.0001) | Lclip -0.1185 Lkl 0.0104 Lent 1.1595 | steps 788195 eps 5760 | time 0.96s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Hybrid (18h29_09112025):  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè            | 180/300 [03:17<02:18,  1.16s/it, KL=0.010, avgR=-31.8, beta=0.0001, it_s=0.96]

   ‚úì Reward: -30.38 ¬± 35.64
   ‚úì Success Rate: 26.00%
   ‚úì Legs Touching: 1.72
   ‚úì Mean Velocity: 0.343
   ‚úì Distance from Pad: 0.294


GRPO-Hybrid (18h29_09112025):  60%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé            | 181/300 [03:18<02:28,  1.25s/it, KL=0.012, avgR=-36.9, beta=0.0001, it_s=1.47]

Iter 0180 | avgR  -36.92 ¬± 76.57 | KL 0.0117 (Œ≤=0.0001) | Lclip -0.0818 Lkl 0.0117 Lent 1.1100 | steps 793034 eps 5792 | time 1.47s


GRPO-Hybrid (18h29_09112025):  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç            | 182/300 [03:19<02:15,  1.15s/it, KL=0.010, avgR=-12.3, beta=0.0001, it_s=0.92]

Iter 0181 | avgR  -12.31 ¬± 25.72 | KL 0.0097 (Œ≤=0.0001) | Lclip -0.0337 Lkl 0.0097 Lent 1.1327 | steps 796038 eps 5824 | time 0.92s


GRPO-Hybrid (18h29_09112025):  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå            | 183/300 [03:20<02:08,  1.09s/it, KL=0.006, avgR=-27.2, beta=0.0001, it_s=0.96]

Iter 0182 | avgR  -27.25 ¬± 65.76 | KL 0.0061 (Œ≤=0.0001) | Lclip -0.3364 Lkl 0.0061 Lent 1.1414 | steps 800031 eps 5856 | time 0.96s


GRPO-Hybrid (18h29_09112025):  61%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã            | 184/300 [03:21<01:58,  1.02s/it, KL=0.008, avgR=-22.1, beta=0.0001, it_s=0.84]

Iter 0183 | avgR  -22.12 ¬± 25.07 | KL 0.0083 (Œ≤=0.0001) | Lclip -0.0746 Lkl 0.0083 Lent 1.1616 | steps 803041 eps 5888 | time 0.84s


GRPO-Hybrid (18h29_09112025):  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã            | 185/300 [03:22<01:54,  1.01it/s, KL=0.006, avgR=-48.8, beta=0.0001, it_s=0.93]

Iter 0184 | avgR  -48.84 ¬± 41.73 | KL 0.0057 (Œ≤=0.0001) | Lclip -0.0688 Lkl 0.0057 Lent 1.1902 | steps 806742 eps 5920 | time 0.93s


GRPO-Hybrid (18h29_09112025):  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä            | 186/300 [03:23<01:55,  1.01s/it, KL=0.016, avgR=-45.4, beta=0.0001, it_s=1.05]

Iter 0185 | avgR  -45.43 ¬± 90.33 | KL 0.0159 (Œ≤=0.0001) | Lclip -0.3461 Lkl 0.0159 Lent 1.1053 | steps 812115 eps 5952 | time 1.05s


GRPO-Hybrid (18h29_09112025):  62%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ            | 187/300 [03:24<01:57,  1.04s/it, KL=0.011, avgR=-44.8, beta=0.0001, it_s=1.09]

Iter 0186 | avgR  -44.77 ¬± 87.34 | KL 0.0114 (Œ≤=0.0001) | Lclip -0.3317 Lkl 0.0114 Lent 1.1499 | steps 816302 eps 5984 | time 1.09s


GRPO-Hybrid (18h29_09112025):  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà            | 188/300 [03:25<01:52,  1.00s/it, KL=0.010, avgR=-30.9, beta=0.0001, it_s=0.91]

Iter 0187 | avgR  -30.93 ¬± 64.94 | KL 0.0103 (Œ≤=0.0001) | Lclip -0.1772 Lkl 0.0103 Lent 1.1488 | steps 820295 eps 6016 | time 0.91s


GRPO-Hybrid (18h29_09112025):  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè           | 189/300 [03:26<01:45,  1.05it/s, KL=0.012, avgR=-45.5, beta=0.0001, it_s=0.82]

Iter 0188 | avgR  -45.53 ¬± 59.05 | KL 0.0121 (Œ≤=0.0001) | Lclip -0.0384 Lkl 0.0121 Lent 1.1856 | steps 823695 eps 6048 | time 0.82s


GRPO-Hybrid (18h29_09112025):  63%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé           | 190/300 [03:27<01:58,  1.08s/it, KL=0.012, avgR=-80.2, beta=0.0001, it_s=1.38]

Iter 0189 | avgR  -80.17 ¬± 78.95 | KL 0.0119 (Œ≤=0.0001) | Lclip -0.3395 Lkl 0.0119 Lent 1.1510 | steps 831141 eps 6080 | time 1.38s


GRPO-Hybrid (18h29_09112025):  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé           | 191/300 [03:28<01:49,  1.01s/it, KL=0.007, avgR=-13.2, beta=0.0001, it_s=0.83]

Iter 0190 | avgR  -13.24 ¬± 29.33 | KL 0.0069 (Œ≤=0.0001) | Lclip -0.0190 Lkl 0.0069 Lent 1.1196 | steps 834679 eps 6112 | time 0.83s


GRPO-Hybrid (18h29_09112025):  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç           | 192/300 [03:30<02:10,  1.21s/it, KL=0.010, avgR=-79.9, beta=0.0001, it_s=1.68]

Iter 0191 | avgR  -79.85 ¬±127.04 | KL 0.0101 (Œ≤=0.0001) | Lclip -0.5710 Lkl 0.0101 Lent 1.1664 | steps 846641 eps 6144 | time 1.68s


GRPO-Hybrid (18h29_09112025):  64%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå           | 193/300 [03:31<02:03,  1.16s/it, KL=0.009, avgR=-38.6, beta=0.0001, it_s=1.04]

Iter 0192 | avgR  -38.62 ¬± 51.20 | KL 0.0095 (Œ≤=0.0001) | Lclip -0.3537 Lkl 0.0095 Lent 1.1930 | steps 851256 eps 6176 | time 1.04s


GRPO-Hybrid (18h29_09112025):  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã           | 194/300 [03:32<01:51,  1.05s/it, KL=0.007, avgR=-33.5, beta=0.0001, it_s=0.80]

Iter 0193 | avgR  -33.47 ¬± 33.26 | KL 0.0072 (Œ≤=0.0001) | Lclip -0.0552 Lkl 0.0072 Lent 1.1737 | steps 854841 eps 6208 | time 0.80s


GRPO-Hybrid (18h29_09112025):  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä           | 195/300 [03:33<02:01,  1.15s/it, KL=0.007, avgR=-28.9, beta=0.0001, it_s=1.39]

Iter 0194 | avgR  -28.93 ¬± 50.56 | KL 0.0068 (Œ≤=0.0001) | Lclip -0.1235 Lkl 0.0068 Lent 1.1910 | steps 860403 eps 6240 | time 1.39s


GRPO-Hybrid (18h29_09112025):  65%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ           | 196/300 [03:34<01:51,  1.08s/it, KL=0.009, avgR=-33.7, beta=0.0001, it_s=0.89]

Iter 0195 | avgR  -33.68 ¬± 22.23 | KL 0.0089 (Œ≤=0.0001) | Lclip -0.0718 Lkl 0.0089 Lent 1.2189 | steps 864937 eps 6272 | time 0.89s


GRPO-Hybrid (18h29_09112025):  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà           | 197/300 [03:35<01:45,  1.03s/it, KL=0.005, avgR=-22.1, beta=0.0001, it_s=0.91]

Iter 0196 | avgR  -22.13 ¬± 23.67 | KL 0.0047 (Œ≤=0.0001) | Lclip -0.0572 Lkl 0.0047 Lent 1.1962 | steps 868800 eps 6304 | time 0.91s


GRPO-Hybrid (18h29_09112025):  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà           | 198/300 [03:36<01:45,  1.04s/it, KL=0.010, avgR=-28.2, beta=0.0001, it_s=1.06]

Iter 0197 | avgR  -28.18 ¬± 28.88 | KL 0.0103 (Œ≤=0.0001) | Lclip -0.2157 Lkl 0.0103 Lent 1.2050 | steps 874350 eps 6336 | time 1.06s


GRPO-Hybrid (18h29_09112025):  66%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè          | 199/300 [03:37<01:39,  1.02it/s, KL=0.008, avgR=-24.0, beta=0.0001, it_s=0.86]

Iter 0198 | avgR  -24.00 ¬± 34.78 | KL 0.0076 (Œ≤=0.0001) | Lclip -0.0702 Lkl 0.0076 Lent 1.2098 | steps 878036 eps 6368 | time 0.86s


GRPO-Hybrid (18h29_09112025):  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé          | 200/300 [03:38<01:38,  1.01it/s, KL=0.008, avgR=-22.6, beta=0.0001, it_s=0.98]

Iter 0199 | avgR  -22.62 ¬± 24.70 | KL 0.0075 (Œ≤=0.0001) | Lclip -0.0427 Lkl 0.0075 Lent 1.1475 | steps 881573 eps 6400 | time 0.98s


GRPO-Hybrid (18h29_09112025):  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç          | 201/300 [03:39<01:56,  1.18s/it, KL=0.005, avgR=-25.2, beta=0.0001, it_s=1.62]

Iter 0200 | avgR  -25.22 ¬± 23.00 | KL 0.0047 (Œ≤=0.0001) | Lclip -0.0227 Lkl 0.0047 Lent 1.1565 | steps 886978 eps 6432 | time 1.62s


GRPO-Hybrid (18h29_09112025):  67%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå          | 202/300 [03:41<02:03,  1.26s/it, KL=0.009, avgR=-18.8, beta=0.0001, it_s=1.45]

Iter 0201 | avgR  -18.83 ¬± 61.73 | KL 0.0085 (Œ≤=0.0001) | Lclip -0.0645 Lkl 0.0085 Lent 1.1955 | steps 892556 eps 6464 | time 1.45s


GRPO-Hybrid (18h29_09112025):  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã          | 203/300 [03:42<01:51,  1.15s/it, KL=0.011, avgR=-15.0, beta=0.0001, it_s=0.90]

Iter 0202 | avgR  -14.98 ¬± 26.64 | KL 0.0107 (Œ≤=0.0001) | Lclip -0.0432 Lkl 0.0107 Lent 1.0987 | steps 896871 eps 6496 | time 0.90s


GRPO-Hybrid (18h29_09112025):  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà           | 204/300 [03:43<02:05,  1.30s/it, KL=0.010, avgR=1.3, beta=0.0001, it_s=1.65]

Iter 0203 | avgR    1.35 ¬± 23.43 | KL 0.0102 (Œ≤=0.0001) | Lclip -0.0863 Lkl 0.0102 Lent 1.1278 | steps 904525 eps 6528 | time 1.65s


GRPO-Hybrid (18h29_09112025):  68%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå          | 205/300 [03:45<02:17,  1.44s/it, KL=0.004, avgR=-6.3, beta=0.0001, it_s=1.76]

Iter 0204 | avgR   -6.27 ¬± 32.95 | KL 0.0039 (Œ≤=0.0001) | Lclip -0.1623 Lkl 0.0039 Lent 1.0790 | steps 914058 eps 6560 | time 1.76s


GRPO-Hybrid (18h29_09112025):  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ          | 206/300 [03:47<02:28,  1.58s/it, KL=0.009, avgR=-64.2, beta=0.0001, it_s=1.90]

Iter 0205 | avgR  -64.19 ¬± 83.64 | KL 0.0088 (Œ≤=0.0001) | Lclip -0.2601 Lkl 0.0088 Lent 1.1543 | steps 931738 eps 6592 | time 1.90s


GRPO-Hybrid (18h29_09112025):  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä          | 207/300 [03:49<02:28,  1.59s/it, KL=0.011, avgR=-7.5, beta=0.0001, it_s=1.62]

Iter 0206 | avgR   -7.48 ¬± 47.43 | KL 0.0110 (Œ≤=0.0001) | Lclip -0.1059 Lkl 0.0110 Lent 1.1295 | steps 937274 eps 6624 | time 1.62s


GRPO-Hybrid (18h29_09112025):  69%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè         | 208/300 [03:50<02:09,  1.41s/it, KL=0.006, avgR=-24.4, beta=0.0001, it_s=0.97]

Iter 0207 | avgR  -24.40 ¬± 33.82 | KL 0.0063 (Œ≤=0.0001) | Lclip -0.0662 Lkl 0.0063 Lent 1.1432 | steps 941502 eps 6656 | time 0.97s


GRPO-Hybrid (18h29_09112025):  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé         | 209/300 [03:51<02:15,  1.49s/it, KL=0.004, avgR=-19.3, beta=0.0001, it_s=1.68]

Iter 0208 | avgR  -19.28 ¬± 44.74 | KL 0.0044 (Œ≤=0.0001) | Lclip -0.2731 Lkl 0.0044 Lent 1.1916 | steps 951029 eps 6688 | time 1.68s


GRPO-Hybrid (18h29_09112025):  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé         | 209/300 [03:53<02:15,  1.49s/it, KL=0.012, avgR=-34.3, beta=0.0001, it_s=1.81]

Iter 0209 | avgR  -34.30 ¬± 49.93 | KL 0.0118 (Œ≤=0.0001) | Lclip -0.1466 Lkl 0.0118 Lent 1.1907 | steps 957130 eps 6720 | time 1.81s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Hybrid (18h29_09112025):  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç         | 210/300 [03:55<03:01,  2.02s/it, KL=0.012, avgR=-34.3, beta=0.0001, it_s=1.81]

   ‚úì Reward: -9.30 ¬± 34.12
   ‚úì Success Rate: 14.00%
   ‚úì Legs Touching: 1.71
   ‚úì Mean Velocity: 0.271
   ‚úì Distance from Pad: 0.275


GRPO-Hybrid (18h29_09112025):  70%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå         | 211/300 [03:56<02:50,  1.91s/it, KL=0.008, avgR=-23.9, beta=0.0001, it_s=1.66]

Iter 0210 | avgR  -23.86 ¬± 34.93 | KL 0.0076 (Œ≤=0.0001) | Lclip -0.0106 Lkl 0.0076 Lent 1.1719 | steps 962665 eps 6752 | time 1.66s


GRPO-Hybrid (18h29_09112025):  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà          | 212/300 [03:58<02:43,  1.86s/it, KL=0.004, avgR=1.6, beta=0.0001, it_s=1.75]

Iter 0211 | avgR    1.62 ¬± 25.87 | KL 0.0039 (Œ≤=0.0001) | Lclip -0.0336 Lkl 0.0039 Lent 1.2204 | steps 968259 eps 6784 | time 1.75s


GRPO-Hybrid (18h29_09112025):  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã         | 213/300 [03:59<02:15,  1.56s/it, KL=0.007, avgR=-14.3, beta=0.0001, it_s=0.86]

Iter 0212 | avgR  -14.25 ¬± 33.24 | KL 0.0067 (Œ≤=0.0001) | Lclip -0.0906 Lkl 0.0067 Lent 1.1506 | steps 971720 eps 6816 | time 0.86s


GRPO-Hybrid (18h29_09112025):  71%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä         | 214/300 [04:00<01:55,  1.34s/it, KL=0.009, avgR=-16.9, beta=0.0001, it_s=0.83]

Iter 0213 | avgR  -16.95 ¬± 29.58 | KL 0.0087 (Œ≤=0.0001) | Lclip -0.0383 Lkl 0.0087 Lent 1.1395 | steps 975454 eps 6848 | time 0.83s


GRPO-Hybrid (18h29_09112025):  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ         | 215/300 [04:01<01:42,  1.21s/it, KL=0.006, avgR=-17.1, beta=0.0001, it_s=0.89]

Iter 0214 | avgR  -17.10 ¬± 31.72 | KL 0.0065 (Œ≤=0.0001) | Lclip -0.0393 Lkl 0.0065 Lent 1.1419 | steps 978821 eps 6880 | time 0.89s


GRPO-Hybrid (18h29_09112025):  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà         | 216/300 [04:02<01:34,  1.12s/it, KL=0.005, avgR=-26.6, beta=0.0001, it_s=0.92]

Iter 0215 | avgR  -26.63 ¬± 37.42 | KL 0.0047 (Œ≤=0.0001) | Lclip -0.0486 Lkl 0.0047 Lent 1.1958 | steps 982195 eps 6912 | time 0.92s


GRPO-Hybrid (18h29_09112025):  72%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè        | 217/300 [04:02<01:25,  1.03s/it, KL=0.008, avgR=-22.6, beta=0.0001, it_s=0.79]

Iter 0216 | avgR  -22.63 ¬± 26.50 | KL 0.0076 (Œ≤=0.0001) | Lclip -0.0151 Lkl 0.0076 Lent 1.1233 | steps 985393 eps 6944 | time 0.79s


GRPO-Hybrid (18h29_09112025):  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé        | 218/300 [04:04<01:38,  1.20s/it, KL=0.007, avgR=-13.7, beta=0.0001, it_s=1.61]

Iter 0217 | avgR  -13.75 ¬± 27.81 | KL 0.0074 (Œ≤=0.0001) | Lclip -0.0428 Lkl 0.0074 Lent 1.2387 | steps 990868 eps 6976 | time 1.61s


GRPO-Hybrid (18h29_09112025):  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé        | 219/300 [04:05<01:27,  1.08s/it, KL=0.006, avgR=-13.8, beta=0.0001, it_s=0.79]

Iter 0218 | avgR  -13.79 ¬± 24.15 | KL 0.0064 (Œ≤=0.0001) | Lclip -0.0373 Lkl 0.0064 Lent 1.1316 | steps 994387 eps 7008 | time 0.79s


GRPO-Hybrid (18h29_09112025):  73%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç        | 220/300 [04:07<01:50,  1.38s/it, KL=0.006, avgR=-25.6, beta=0.0001, it_s=2.07]

Iter 0219 | avgR  -25.65 ¬± 49.86 | KL 0.0057 (Œ≤=0.0001) | Lclip -0.0562 Lkl 0.0057 Lent 1.3020 | steps 1011956 eps 7040 | time 2.07s


GRPO-Hybrid (18h29_09112025):  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé        | 221/300 [04:09<01:56,  1.47s/it, KL=0.015, avgR=-4.9, beta=0.0001, it_s=1.69]

Iter 0220 | avgR   -4.90 ¬± 44.75 | KL 0.0152 (Œ≤=0.0001) | Lclip -0.3466 Lkl 0.0152 Lent 1.2575 | steps 1019583 eps 7072 | time 1.69s


GRPO-Hybrid (18h29_09112025):  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã        | 222/300 [04:10<01:42,  1.32s/it, KL=0.009, avgR=-57.3, beta=0.0001, it_s=0.95]

Iter 0221 | avgR  -57.29 ¬± 67.34 | KL 0.0092 (Œ≤=0.0001) | Lclip -0.2066 Lkl 0.0092 Lent 1.1771 | steps 1022710 eps 7104 | time 0.95s


GRPO-Hybrid (18h29_09112025):  74%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå        | 223/300 [04:10<01:30,  1.18s/it, KL=0.008, avgR=-9.7, beta=0.0001, it_s=0.85]

Iter 0222 | avgR   -9.72 ¬± 29.85 | KL 0.0077 (Œ≤=0.0001) | Lclip -0.0211 Lkl 0.0077 Lent 1.2134 | steps 1026636 eps 7136 | time 0.85s


GRPO-Hybrid (18h29_09112025):  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ        | 224/300 [04:11<01:22,  1.08s/it, KL=0.006, avgR=-50.3, beta=0.0001, it_s=0.85]

Iter 0223 | avgR  -50.27 ¬± 90.37 | KL 0.0061 (Œ≤=0.0001) | Lclip -0.3950 Lkl 0.0061 Lent 1.2049 | steps 1030319 eps 7168 | time 0.85s


GRPO-Hybrid (18h29_09112025):  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà        | 225/300 [04:12<01:19,  1.06s/it, KL=0.005, avgR=-22.6, beta=0.0001, it_s=1.01]

Iter 0224 | avgR  -22.57 ¬± 32.00 | KL 0.0052 (Œ≤=0.0001) | Lclip -0.0427 Lkl 0.0052 Lent 1.2337 | steps 1034149 eps 7200 | time 1.01s


GRPO-Hybrid (18h29_09112025):  75%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà        | 226/300 [04:13<01:14,  1.00s/it, KL=0.006, avgR=-13.0, beta=0.0001, it_s=0.85]

Iter 0225 | avgR  -12.95 ¬± 35.65 | KL 0.0056 (Œ≤=0.0001) | Lclip -0.0797 Lkl 0.0056 Lent 1.1992 | steps 1037499 eps 7232 | time 0.85s


GRPO-Hybrid (18h29_09112025):  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè       | 227/300 [04:14<01:09,  1.05it/s, KL=0.005, avgR=-23.0, beta=0.0001, it_s=0.84]

Iter 0226 | avgR  -23.01 ¬± 32.41 | KL 0.0054 (Œ≤=0.0001) | Lclip -0.0246 Lkl 0.0054 Lent 1.1941 | steps 1041050 eps 7264 | time 0.84s


GRPO-Hybrid (18h29_09112025):  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé       | 228/300 [04:15<01:10,  1.02it/s, KL=0.008, avgR=-31.1, beta=0.0001, it_s=1.03]

Iter 0227 | avgR  -31.08 ¬± 40.14 | KL 0.0078 (Œ≤=0.0001) | Lclip -0.0970 Lkl 0.0078 Lent 1.1986 | steps 1044854 eps 7296 | time 1.03s


GRPO-Hybrid (18h29_09112025):  76%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè       | 229/300 [04:16<01:10,  1.01it/s, KL=0.007, avgR=-2.2, beta=0.0001, it_s=1.00]

Iter 0228 | avgR   -2.24 ¬± 29.58 | KL 0.0067 (Œ≤=0.0001) | Lclip -0.0209 Lkl 0.0067 Lent 1.1916 | steps 1048574 eps 7328 | time 1.00s


GRPO-Hybrid (18h29_09112025):  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå       | 230/300 [04:17<01:06,  1.05it/s, KL=0.007, avgR=-48.4, beta=0.0001, it_s=0.88]

Iter 0229 | avgR  -48.39 ¬± 49.93 | KL 0.0069 (Œ≤=0.0001) | Lclip -0.0624 Lkl 0.0069 Lent 1.1714 | steps 1051755 eps 7360 | time 0.88s


GRPO-Hybrid (18h29_09112025):  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç       | 231/300 [04:18<01:03,  1.08it/s, KL=0.004, avgR=-4.5, beta=0.0001, it_s=0.85]

Iter 0230 | avgR   -4.49 ¬± 30.62 | KL 0.0038 (Œ≤=0.0001) | Lclip -0.0397 Lkl 0.0038 Lent 1.1624 | steps 1055264 eps 7392 | time 0.85s


GRPO-Hybrid (18h29_09112025):  77%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã       | 232/300 [04:19<01:02,  1.09it/s, KL=0.006, avgR=-36.0, beta=0.0001, it_s=0.89]

Iter 0231 | avgR  -36.01 ¬± 32.33 | KL 0.0062 (Œ≤=0.0001) | Lclip -0.0145 Lkl 0.0062 Lent 1.1559 | steps 1058531 eps 7424 | time 0.89s


GRPO-Hybrid (18h29_09112025):  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã       | 233/300 [04:20<01:12,  1.09s/it, KL=0.003, avgR=-7.9, beta=0.0001, it_s=1.49]

Iter 0232 | avgR   -7.90 ¬± 36.40 | KL 0.0033 (Œ≤=0.0001) | Lclip -0.0219 Lkl 0.0033 Lent 1.1972 | steps 1063936 eps 7456 | time 1.49s


GRPO-Hybrid (18h29_09112025):  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ       | 234/300 [04:21<01:14,  1.12s/it, KL=0.006, avgR=-18.9, beta=0.0001, it_s=1.20]

Iter 0233 | avgR  -18.88 ¬± 40.47 | KL 0.0065 (Œ≤=0.0001) | Lclip -0.1738 Lkl 0.0065 Lent 1.2219 | steps 1069619 eps 7488 | time 1.20s


GRPO-Hybrid (18h29_09112025):  78%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä       | 235/300 [04:23<01:26,  1.32s/it, KL=0.004, avgR=-8.1, beta=0.0001, it_s=1.79]

Iter 0234 | avgR   -8.06 ¬± 46.60 | KL 0.0036 (Œ≤=0.0001) | Lclip -0.0498 Lkl 0.0036 Lent 1.2056 | steps 1075599 eps 7520 | time 1.79s


GRPO-Hybrid (18h29_09112025):  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè      | 236/300 [04:24<01:17,  1.22s/it, KL=0.005, avgR=-35.6, beta=0.0001, it_s=0.96]

Iter 0235 | avgR  -35.60 ¬± 33.56 | KL 0.0048 (Œ≤=0.0001) | Lclip -0.0084 Lkl 0.0048 Lent 1.1408 | steps 1078942 eps 7552 | time 0.96s


GRPO-Hybrid (18h29_09112025):  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé      | 237/300 [04:26<01:21,  1.29s/it, KL=0.009, avgR=-20.0, beta=0.0001, it_s=1.47]

Iter 0236 | avgR  -19.96 ¬± 39.08 | KL 0.0092 (Œ≤=0.0001) | Lclip -0.0398 Lkl 0.0092 Lent 1.1720 | steps 1083602 eps 7584 | time 1.47s


GRPO-Hybrid (18h29_09112025):  79%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç      | 238/300 [04:26<01:13,  1.19s/it, KL=0.008, avgR=-10.6, beta=0.0001, it_s=0.94]

Iter 0237 | avgR  -10.56 ¬± 31.86 | KL 0.0082 (Œ≤=0.0001) | Lclip -0.0786 Lkl 0.0082 Lent 1.1055 | steps 1087392 eps 7616 | time 0.94s


GRPO-Hybrid (18h29_09112025):  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç      | 239/300 [04:28<01:19,  1.30s/it, KL=0.004, avgR=-30.3, beta=0.0001, it_s=1.56]

Iter 0238 | avgR  -30.33 ¬± 22.26 | KL 0.0040 (Œ≤=0.0001) | Lclip -0.0334 Lkl 0.0040 Lent 1.1759 | steps 1092928 eps 7648 | time 1.56s


GRPO-Hybrid (18h29_09112025):  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé      | 239/300 [04:29<01:19,  1.30s/it, KL=0.010, avgR=-0.2, beta=0.0001, it_s=0.92]

Iter 0239 | avgR   -0.22 ¬± 24.34 | KL 0.0100 (Œ≤=0.0001) | Lclip -0.1549 Lkl 0.0100 Lent 1.1529 | steps 1096701 eps 7680 | time 0.92s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Hybrid (18h29_09112025):  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç      | 240/300 [04:30<01:37,  1.63s/it, KL=0.010, avgR=-0.2, beta=0.0001, it_s=0.92]

   ‚úì Reward: 3.85 ¬± 24.96
   ‚úì Success Rate: 25.00%
   ‚úì Legs Touching: 1.81
   ‚úì Mean Velocity: 0.208
   ‚úì Distance from Pad: 0.198


GRPO-Hybrid (18h29_09112025):  80%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå      | 241/300 [04:32<01:35,  1.62s/it, KL=0.006, avgR=-7.2, beta=0.0001, it_s=1.60]

Iter 0240 | avgR   -7.18 ¬± 18.32 | KL 0.0057 (Œ≤=0.0001) | Lclip -0.1549 Lkl 0.0057 Lent 1.2404 | steps 1104143 eps 7712 | time 1.60s


GRPO-Hybrid (18h29_09112025):  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä      | 242/300 [04:33<01:21,  1.41s/it, KL=0.004, avgR=-12.0, beta=0.0001, it_s=0.92]

Iter 0241 | avgR  -12.01 ¬± 26.93 | KL 0.0044 (Œ≤=0.0001) | Lclip -0.0385 Lkl 0.0044 Lent 1.2099 | steps 1107876 eps 7744 | time 0.92s


GRPO-Hybrid (18h29_09112025):  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã      | 243/300 [04:34<01:11,  1.26s/it, KL=0.004, avgR=-6.4, beta=0.0001, it_s=0.91]

Iter 0242 | avgR   -6.43 ¬± 27.46 | KL 0.0044 (Œ≤=0.0001) | Lclip -0.0299 Lkl 0.0044 Lent 1.2023 | steps 1111841 eps 7776 | time 0.91s


GRPO-Hybrid (18h29_09112025):  81%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà      | 244/300 [04:35<01:03,  1.13s/it, KL=0.009, avgR=-30.8, beta=0.0001, it_s=0.81]

Iter 0243 | avgR  -30.76 ¬± 53.63 | KL 0.0086 (Œ≤=0.0001) | Lclip -0.1647 Lkl 0.0086 Lent 1.2008 | steps 1115890 eps 7808 | time 0.81s


GRPO-Hybrid (18h29_09112025):  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè     | 245/300 [04:36<00:58,  1.06s/it, KL=0.006, avgR=-21.0, beta=0.0001, it_s=0.88]

Iter 0244 | avgR  -20.97 ¬± 36.21 | KL 0.0056 (Œ≤=0.0001) | Lclip -0.1064 Lkl 0.0056 Lent 1.2265 | steps 1120098 eps 7840 | time 0.88s


GRPO-Hybrid (18h29_09112025):  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè     | 246/300 [04:36<00:52,  1.03it/s, KL=0.010, avgR=-33.8, beta=0.0001, it_s=0.78]

Iter 0245 | avgR  -33.79 ¬± 22.01 | KL 0.0099 (Œ≤=0.0001) | Lclip -0.0058 Lkl 0.0099 Lent 1.1678 | steps 1123318 eps 7872 | time 0.78s


GRPO-Hybrid (18h29_09112025):  82%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé     | 247/300 [04:37<00:49,  1.06it/s, KL=0.008, avgR=-27.5, beta=0.0001, it_s=0.86]

Iter 0246 | avgR  -27.53 ¬± 29.26 | KL 0.0075 (Œ≤=0.0001) | Lclip -0.0886 Lkl 0.0075 Lent 1.1483 | steps 1126950 eps 7904 | time 0.86s


GRPO-Hybrid (18h29_09112025):  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé     | 248/300 [04:38<00:47,  1.09it/s, KL=0.005, avgR=10.5, beta=0.0001, it_s=0.85]

Iter 0247 | avgR   10.45 ¬± 21.32 | KL 0.0049 (Œ≤=0.0001) | Lclip -0.0773 Lkl 0.0049 Lent 1.2083 | steps 1131253 eps 7936 | time 0.85s


GRPO-Hybrid (18h29_09112025):  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå     | 249/300 [04:39<00:45,  1.12it/s, KL=0.013, avgR=-40.2, beta=0.0001, it_s=0.83]

Iter 0248 | avgR  -40.21 ¬± 38.69 | KL 0.0131 (Œ≤=0.0001) | Lclip -0.0357 Lkl 0.0131 Lent 1.1860 | steps 1135112 eps 7968 | time 0.83s


GRPO-Hybrid (18h29_09112025):  83%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå     | 250/300 [04:40<00:44,  1.12it/s, KL=0.007, avgR=13.1, beta=0.0001, it_s=0.89]

Iter 0249 | avgR   13.08 ¬± 20.92 | KL 0.0074 (Œ≤=0.0001) | Lclip -0.1004 Lkl 0.0074 Lent 1.1891 | steps 1138922 eps 8000 | time 0.89s


GRPO-Hybrid (18h29_09112025):  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä     | 251/300 [04:41<00:43,  1.12it/s, KL=0.006, avgR=-22.4, beta=0.0001, it_s=0.89]

Iter 0250 | avgR  -22.43 ¬± 40.32 | KL 0.0059 (Œ≤=0.0001) | Lclip -0.0118 Lkl 0.0059 Lent 1.1451 | steps 1142646 eps 8032 | time 0.89s


GRPO-Hybrid (18h29_09112025):  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå     | 252/300 [04:42<00:42,  1.14it/s, KL=0.006, avgR=7.7, beta=0.0001, it_s=0.85]

Iter 0251 | avgR    7.71 ¬± 21.74 | KL 0.0062 (Œ≤=0.0001) | Lclip -0.0542 Lkl 0.0062 Lent 1.1343 | steps 1146304 eps 8064 | time 0.85s


GRPO-Hybrid (18h29_09112025):  84%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ     | 253/300 [04:43<00:43,  1.09it/s, KL=0.015, avgR=-40.2, beta=0.0001, it_s=0.99]

Iter 0252 | avgR  -40.20 ¬± 41.09 | KL 0.0151 (Œ≤=0.0001) | Lclip -0.0825 Lkl 0.0151 Lent 1.1458 | steps 1149828 eps 8096 | time 0.99s


GRPO-Hybrid (18h29_09112025):  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà     | 254/300 [04:43<00:41,  1.10it/s, KL=0.005, avgR=-21.2, beta=0.0001, it_s=0.89]

Iter 0253 | avgR  -21.23 ¬± 31.81 | KL 0.0052 (Œ≤=0.0001) | Lclip -0.0657 Lkl 0.0052 Lent 1.1401 | steps 1153237 eps 8128 | time 0.89s


GRPO-Hybrid (18h29_09112025):  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè    | 255/300 [04:44<00:40,  1.10it/s, KL=0.005, avgR=-28.9, beta=0.0001, it_s=0.91]

Iter 0254 | avgR  -28.91 ¬± 26.63 | KL 0.0046 (Œ≤=0.0001) | Lclip -0.0166 Lkl 0.0046 Lent 1.1036 | steps 1156624 eps 8160 | time 0.91s


GRPO-Hybrid (18h29_09112025):  85%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà     | 256/300 [04:45<00:38,  1.13it/s, KL=0.003, avgR=3.2, beta=0.0001, it_s=0.82]

Iter 0255 | avgR    3.15 ¬± 21.31 | KL 0.0034 (Œ≤=0.0001) | Lclip -0.0167 Lkl 0.0034 Lent 1.1180 | steps 1160203 eps 8192 | time 0.82s


GRPO-Hybrid (18h29_09112025):  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 257/300 [04:47<00:50,  1.17s/it, KL=0.006, avgR=12.9, beta=0.0001, it_s=1.82]

Iter 0256 | avgR   12.93 ¬± 21.13 | KL 0.0065 (Œ≤=0.0001) | Lclip 0.0077 Lkl 0.0065 Lent 1.2033 | steps 1168091 eps 8224 | time 1.82s


GRPO-Hybrid (18h29_09112025):  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå    | 258/300 [04:48<00:45,  1.07s/it, KL=0.010, avgR=-15.8, beta=0.0001, it_s=0.85]

Iter 0257 | avgR  -15.84 ¬± 34.76 | KL 0.0097 (Œ≤=0.0001) | Lclip -0.1084 Lkl 0.0097 Lent 1.1085 | steps 1171662 eps 8256 | time 0.85s


GRPO-Hybrid (18h29_09112025):  86%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé    | 259/300 [04:49<00:41,  1.01s/it, KL=0.013, avgR=3.1, beta=0.0001, it_s=0.85]

Iter 0258 | avgR    3.11 ¬± 17.07 | KL 0.0126 (Œ≤=0.0001) | Lclip -0.1158 Lkl 0.0126 Lent 1.1763 | steps 1175509 eps 8288 | time 0.85s


GRPO-Hybrid (18h29_09112025):  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã    | 260/300 [04:50<00:38,  1.05it/s, KL=0.004, avgR=-18.3, beta=0.0001, it_s=0.82]

Iter 0259 | avgR  -18.26 ¬± 20.10 | KL 0.0037 (Œ≤=0.0001) | Lclip -0.0118 Lkl 0.0037 Lent 1.1344 | steps 1178632 eps 8320 | time 0.82s


GRPO-Hybrid (18h29_09112025):  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä    | 261/300 [04:50<00:36,  1.06it/s, KL=0.008, avgR=-15.6, beta=0.0001, it_s=0.92]

Iter 0260 | avgR  -15.60 ¬± 23.29 | KL 0.0079 (Œ≤=0.0001) | Lclip -0.1142 Lkl 0.0079 Lent 1.1326 | steps 1181838 eps 8352 | time 0.92s


GRPO-Hybrid (18h29_09112025):  87%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ    | 262/300 [04:51<00:34,  1.11it/s, KL=0.006, avgR=-41.9, beta=0.0001, it_s=0.81]

Iter 0261 | avgR  -41.94 ¬± 31.99 | KL 0.0057 (Œ≤=0.0001) | Lclip -0.1663 Lkl 0.0057 Lent 1.1273 | steps 1185092 eps 8384 | time 0.81s


GRPO-Hybrid (18h29_09112025):  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà    | 263/300 [04:52<00:33,  1.12it/s, KL=0.010, avgR=-13.5, beta=0.0001, it_s=0.88]

Iter 0262 | avgR  -13.48 ¬± 21.73 | KL 0.0096 (Œ≤=0.0001) | Lclip -0.0418 Lkl 0.0096 Lent 1.1813 | steps 1188443 eps 8416 | time 0.88s


GRPO-Hybrid (18h29_09112025):  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè   | 264/300 [04:53<00:33,  1.09it/s, KL=0.005, avgR=-15.3, beta=0.0001, it_s=0.97]

Iter 0263 | avgR  -15.31 ¬± 20.99 | KL 0.0049 (Œ≤=0.0001) | Lclip -0.0952 Lkl 0.0049 Lent 1.1495 | steps 1191387 eps 8448 | time 0.97s


GRPO-Hybrid (18h29_09112025):  88%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 265/300 [04:54<00:31,  1.09it/s, KL=0.006, avgR=-26.0, beta=0.0001, it_s=0.90]

Iter 0264 | avgR  -25.97 ¬± 26.30 | KL 0.0057 (Œ≤=0.0001) | Lclip -0.0618 Lkl 0.0057 Lent 1.1288 | steps 1194562 eps 8480 | time 0.90s


GRPO-Hybrid (18h29_09112025):  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé   | 266/300 [04:55<00:30,  1.10it/s, KL=0.010, avgR=-25.1, beta=0.0001, it_s=0.88]

Iter 0265 | avgR  -25.12 ¬± 26.27 | KL 0.0096 (Œ≤=0.0001) | Lclip -0.0750 Lkl 0.0096 Lent 1.1512 | steps 1197857 eps 8512 | time 0.88s


GRPO-Hybrid (18h29_09112025):  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç   | 267/300 [04:56<00:29,  1.12it/s, KL=0.008, avgR=-23.0, beta=0.0001, it_s=0.86]

Iter 0266 | avgR  -23.05 ¬± 20.20 | KL 0.0080 (Œ≤=0.0001) | Lclip 0.0025 Lkl 0.0080 Lent 1.1010 | steps 1201233 eps 8544 | time 0.86s


GRPO-Hybrid (18h29_09112025):  89%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå   | 268/300 [04:57<00:36,  1.13s/it, KL=0.009, avgR=-19.0, beta=0.0001, it_s=1.68]

Iter 0267 | avgR  -19.02 ¬± 39.77 | KL 0.0090 (Œ≤=0.0001) | Lclip -0.0809 Lkl 0.0090 Lent 1.2088 | steps 1206776 eps 8576 | time 1.68s


GRPO-Hybrid (18h29_09112025):  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 269/300 [04:58<00:32,  1.04s/it, KL=0.008, avgR=-18.9, beta=0.0001, it_s=0.82]

Iter 0268 | avgR  -18.93 ¬± 16.83 | KL 0.0080 (Œ≤=0.0001) | Lclip -0.1016 Lkl 0.0080 Lent 1.1404 | steps 1210085 eps 8608 | time 0.82s


GRPO-Hybrid (18h29_09112025):  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã   | 269/300 [04:59<00:32,  1.04s/it, KL=0.003, avgR=-11.5, beta=0.0001, it_s=0.82]

Iter 0269 | avgR  -11.46 ¬± 17.88 | KL 0.0034 (Œ≤=0.0001) | Lclip 0.0016 Lkl 0.0034 Lent 1.1886 | steps 1213472 eps 8640 | time 0.82s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Hybrid (18h29_09112025):  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä   | 270/300 [05:00<00:36,  1.20s/it, KL=0.003, avgR=-11.5, beta=0.0001, it_s=0.82]

   ‚úì Reward: -15.84 ¬± 20.50
   ‚úì Success Rate: 24.00%
   ‚úì Legs Touching: 1.72
   ‚úì Mean Velocity: 0.293
   ‚úì Distance from Pad: 0.276


GRPO-Hybrid (18h29_09112025):  90%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ   | 271/300 [05:01<00:31,  1.10s/it, KL=0.009, avgR=-22.0, beta=0.0001, it_s=0.84]

Iter 0270 | avgR  -21.97 ¬± 17.21 | KL 0.0085 (Œ≤=0.0001) | Lclip -0.1100 Lkl 0.0085 Lent 1.1114 | steps 1216684 eps 8672 | time 0.84s


GRPO-Hybrid (18h29_09112025):  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 272/300 [05:02<00:28,  1.03s/it, KL=0.013, avgR=-12.0, beta=0.0001, it_s=0.89]

Iter 0271 | avgR  -12.02 ¬± 23.47 | KL 0.0129 (Œ≤=0.0001) | Lclip -0.0758 Lkl 0.0129 Lent 1.2132 | steps 1220246 eps 8704 | time 0.89s


GRPO-Hybrid (18h29_09112025):  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà   | 273/300 [05:03<00:27,  1.00s/it, KL=0.008, avgR=-16.8, beta=0.0001, it_s=0.93]

Iter 0272 | avgR  -16.77 ¬± 23.02 | KL 0.0076 (Œ≤=0.0001) | Lclip -0.0206 Lkl 0.0076 Lent 1.1021 | steps 1223536 eps 8736 | time 0.93s


GRPO-Hybrid (18h29_09112025):  91%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè  | 274/300 [05:03<00:24,  1.04it/s, KL=0.012, avgR=-17.7, beta=0.0001, it_s=0.85]

Iter 0273 | avgR  -17.70 ¬± 20.68 | KL 0.0116 (Œ≤=0.0001) | Lclip -0.0825 Lkl 0.0116 Lent 1.1675 | steps 1226744 eps 8768 | time 0.85s


GRPO-Hybrid (18h29_09112025):  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé  | 275/300 [05:04<00:23,  1.08it/s, KL=0.005, avgR=-18.3, beta=0.0001, it_s=0.85]

Iter 0274 | avgR  -18.27 ¬± 21.69 | KL 0.0047 (Œ≤=0.0001) | Lclip 0.0213 Lkl 0.0047 Lent 1.1576 | steps 1229987 eps 8800 | time 0.85s


GRPO-Hybrid (18h29_09112025):  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç  | 276/300 [05:05<00:21,  1.11it/s, KL=0.008, avgR=-25.2, beta=0.0001, it_s=0.84]

Iter 0275 | avgR  -25.20 ¬± 24.28 | KL 0.0084 (Œ≤=0.0001) | Lclip -0.0122 Lkl 0.0084 Lent 1.1180 | steps 1233060 eps 8832 | time 0.84s


GRPO-Hybrid (18h29_09112025):  92%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå  | 277/300 [05:06<00:20,  1.11it/s, KL=0.011, avgR=-15.4, beta=0.0001, it_s=0.90]

Iter 0276 | avgR  -15.43 ¬± 39.39 | KL 0.0110 (Œ≤=0.0001) | Lclip -0.0659 Lkl 0.0110 Lent 1.1325 | steps 1236067 eps 8864 | time 0.90s


GRPO-Hybrid (18h29_09112025):  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 278/300 [05:07<00:19,  1.11it/s, KL=0.008, avgR=-25.2, beta=0.0001, it_s=0.90]

Iter 0277 | avgR  -25.18 ¬± 25.75 | KL 0.0077 (Œ≤=0.0001) | Lclip -0.0546 Lkl 0.0077 Lent 1.0648 | steps 1239048 eps 8896 | time 0.90s


GRPO-Hybrid (18h29_09112025):  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã  | 279/300 [05:08<00:18,  1.12it/s, KL=0.004, avgR=-8.6, beta=0.0001, it_s=0.87]

Iter 0278 | avgR   -8.62 ¬± 20.65 | KL 0.0042 (Œ≤=0.0001) | Lclip -0.0819 Lkl 0.0042 Lent 1.1121 | steps 1242519 eps 8928 | time 0.87s


GRPO-Hybrid (18h29_09112025):  93%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä  | 280/300 [05:09<00:17,  1.15it/s, KL=0.006, avgR=-2.8, beta=0.0001, it_s=0.81]

Iter 0279 | avgR   -2.79 ¬± 20.95 | KL 0.0063 (Œ≤=0.0001) | Lclip -0.0560 Lkl 0.0063 Lent 1.1668 | steps 1246102 eps 8960 | time 0.81s


GRPO-Hybrid (18h29_09112025):  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ  | 281/300 [05:10<00:21,  1.12s/it, KL=0.002, avgR=-15.2, beta=0.0001, it_s=1.69]

Iter 0280 | avgR  -15.21 ¬± 30.89 | KL 0.0022 (Œ≤=0.0001) | Lclip -0.0298 Lkl 0.0022 Lent 1.2296 | steps 1251693 eps 8992 | time 1.69s


GRPO-Hybrid (18h29_09112025):  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà  | 282/300 [05:12<00:23,  1.29s/it, KL=0.010, avgR=-11.5, beta=0.0001, it_s=1.69]

Iter 0281 | avgR  -11.45 ¬± 25.59 | KL 0.0099 (Œ≤=0.0001) | Lclip -0.0565 Lkl 0.0099 Lent 1.1827 | steps 1257001 eps 9024 | time 1.69s


GRPO-Hybrid (18h29_09112025):  94%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè | 283/300 [05:13<00:20,  1.22s/it, KL=0.005, avgR=-16.9, beta=0.0001, it_s=1.05]

Iter 0282 | avgR  -16.87 ¬± 22.11 | KL 0.0048 (Œ≤=0.0001) | Lclip -0.0742 Lkl 0.0048 Lent 1.1073 | steps 1260125 eps 9056 | time 1.05s


GRPO-Hybrid (18h29_09112025):  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé | 284/300 [05:14<00:19,  1.21s/it, KL=0.007, avgR=-20.5, beta=0.0001, it_s=1.17]

Iter 0283 | avgR  -20.47 ¬± 44.25 | KL 0.0074 (Œ≤=0.0001) | Lclip -0.0186 Lkl 0.0074 Lent 1.1850 | steps 1263867 eps 9088 | time 1.17s


GRPO-Hybrid (18h29_09112025):  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç | 285/300 [05:15<00:16,  1.09s/it, KL=0.008, avgR=-13.0, beta=0.0001, it_s=0.82]

Iter 0284 | avgR  -13.05 ¬± 22.82 | KL 0.0084 (Œ≤=0.0001) | Lclip -0.0331 Lkl 0.0084 Lent 1.1316 | steps 1266995 eps 9120 | time 0.82s


GRPO-Hybrid (18h29_09112025):  95%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 286/300 [05:16<00:14,  1.02s/it, KL=0.012, avgR=-29.7, beta=0.0001, it_s=0.85]

Iter 0285 | avgR  -29.73 ¬± 21.81 | KL 0.0119 (Œ≤=0.0001) | Lclip 0.0299 Lkl 0.0119 Lent 1.0906 | steps 1270118 eps 9152 | time 0.85s


GRPO-Hybrid (18h29_09112025):  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå | 287/300 [05:17<00:12,  1.01it/s, KL=0.006, avgR=-2.9, beta=0.0001, it_s=0.90]

Iter 0286 | avgR   -2.94 ¬± 18.97 | KL 0.0056 (Œ≤=0.0001) | Lclip -0.0357 Lkl 0.0056 Lent 1.0905 | steps 1273417 eps 9184 | time 0.90s


GRPO-Hybrid (18h29_09112025):  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã | 288/300 [05:18<00:11,  1.06it/s, KL=0.007, avgR=-12.0, beta=0.0001, it_s=0.83]

Iter 0287 | avgR  -12.02 ¬± 22.00 | KL 0.0067 (Œ≤=0.0001) | Lclip -0.0050 Lkl 0.0067 Lent 1.1480 | steps 1276791 eps 9216 | time 0.83s


GRPO-Hybrid (18h29_09112025):  96%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä | 289/300 [05:19<00:10,  1.08it/s, KL=0.004, avgR=-18.0, beta=0.0001, it_s=0.88]

Iter 0288 | avgR  -17.98 ¬± 17.90 | KL 0.0036 (Œ≤=0.0001) | Lclip -0.0617 Lkl 0.0036 Lent 1.1457 | steps 1279985 eps 9248 | time 0.88s


GRPO-Hybrid (18h29_09112025):  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ | 290/300 [05:19<00:09,  1.07it/s, KL=0.007, avgR=-25.4, beta=0.0001, it_s=0.96]

Iter 0289 | avgR  -25.41 ¬± 20.54 | KL 0.0074 (Œ≤=0.0001) | Lclip -0.0321 Lkl 0.0074 Lent 1.1498 | steps 1283160 eps 9280 | time 0.96s


GRPO-Hybrid (18h29_09112025):  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà | 291/300 [05:20<00:07,  1.13it/s, KL=0.010, avgR=-26.1, beta=0.0001, it_s=0.76]

Iter 0290 | avgR  -26.10 ¬± 27.09 | KL 0.0097 (Œ≤=0.0001) | Lclip -0.0011 Lkl 0.0097 Lent 1.1065 | steps 1286432 eps 9312 | time 0.76s


GRPO-Hybrid (18h29_09112025):  97%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñè| 292/300 [05:21<00:06,  1.16it/s, KL=0.006, avgR=-17.4, beta=0.0001, it_s=0.80]

Iter 0291 | avgR  -17.36 ¬± 25.41 | KL 0.0063 (Œ≤=0.0001) | Lclip -0.0632 Lkl 0.0063 Lent 1.1363 | steps 1289887 eps 9344 | time 0.80s


GRPO-Hybrid (18h29_09112025):  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 293/300 [05:22<00:05,  1.20it/s, KL=0.009, avgR=-14.8, beta=0.0001, it_s=0.76]

Iter 0292 | avgR  -14.79 ¬± 24.40 | KL 0.0093 (Œ≤=0.0001) | Lclip -0.0487 Lkl 0.0093 Lent 1.1228 | steps 1292804 eps 9376 | time 0.76s


GRPO-Hybrid (18h29_09112025):  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñé| 294/300 [05:23<00:05,  1.17it/s, KL=0.019, avgR=-30.3, beta=0.0001, it_s=0.91]

Iter 0293 | avgR  -30.31 ¬± 54.56 | KL 0.0187 (Œ≤=0.0001) | Lclip -0.2462 Lkl 0.0187 Lent 1.1870 | steps 1296088 eps 9408 | time 0.91s


GRPO-Hybrid (18h29_09112025):  98%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñç| 295/300 [05:24<00:04,  1.20it/s, KL=0.004, avgR=-37.2, beta=0.0001, it_s=0.79]

Iter 0294 | avgR  -37.24 ¬± 28.46 | KL 0.0041 (Œ≤=0.0001) | Lclip -0.0917 Lkl 0.0041 Lent 1.1370 | steps 1299108 eps 9440 | time 0.79s


GRPO-Hybrid (18h29_09112025):  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñå| 296/300 [05:24<00:03,  1.21it/s, KL=0.006, avgR=-22.9, beta=0.0001, it_s=0.79]

Iter 0295 | avgR  -22.90 ¬± 28.78 | KL 0.0062 (Œ≤=0.0001) | Lclip -0.0483 Lkl 0.0062 Lent 1.1969 | steps 1302271 eps 9472 | time 0.79s


GRPO-Hybrid (18h29_09112025):  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñã| 297/300 [05:25<00:02,  1.20it/s, KL=0.012, avgR=-36.8, beta=0.0001, it_s=0.86]

Iter 0296 | avgR  -36.76 ¬± 35.00 | KL 0.0119 (Œ≤=0.0001) | Lclip -0.1097 Lkl 0.0119 Lent 1.1608 | steps 1305356 eps 9504 | time 0.86s


GRPO-Hybrid (18h29_09112025):  99%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñä| 298/300 [05:26<00:01,  1.21it/s, KL=0.005, avgR=-34.8, beta=0.0001, it_s=0.82]

Iter 0297 | avgR  -34.79 ¬± 40.42 | KL 0.0045 (Œ≤=0.0001) | Lclip -0.1055 Lkl 0.0045 Lent 1.2131 | steps 1308762 eps 9536 | time 0.82s


GRPO-Hybrid (18h29_09112025): 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 299/300 [05:27<00:00,  1.16it/s, KL=0.007, avgR=-21.3, beta=0.0001, it_s=0.94]

Iter 0298 | avgR  -21.34 ¬± 29.88 | KL 0.0074 (Œ≤=0.0001) | Lclip -0.0434 Lkl 0.0074 Lent 1.1865 | steps 1311902 eps 9568 | time 0.94s


GRPO-Hybrid (18h29_09112025): 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñâ| 299/300 [05:28<00:00,  1.16it/s, KL=0.012, avgR=-116.8, beta=0.0001, it_s=0.88]

Iter 0299 | avgR -116.83 ¬±134.58 | KL 0.0116 (Œ≤=0.0001) | Lclip -0.2295 Lkl 0.0116 Lent 1.1410 | steps 1315211 eps 9600 | time 0.88s

üéØ Evaluating SimpleGRPOPolicy for 100 episodes using 24 processes...


GRPO-Hybrid (18h29_09112025): 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 300/300 [05:29<00:00,  1.10s/it, KL=0.012, avgR=-116.8, beta=0.0001, it_s=0.88]

   ‚úì Reward: -36.90 ¬± 57.15
   ‚úì Success Rate: 11.00%
   ‚úì Legs Touching: 1.60
   ‚úì Mean Velocity: 0.372
   ‚úì Distance from Pad: 0.300
‚úÖ Training finished. Logs saved to runs/GRPO_Hybrid/grpo_hybrid_18h29_09112025
üé• Saving videos to videos/GRPO_Hybrid/hybrid_G32_18h29_09112025
üé• Recording 10 episodes from DenseLunarLander...





‚úÖ Saved MP4 video: videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/DenseLunarLander_ep01_R-334.6.mp4 | Reward: -334.6




‚úÖ Saved MP4 video: videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/DenseLunarLander_ep02_R-2.0.mp4 | Reward: -2.0




‚úÖ Saved MP4 video: videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/DenseLunarLander_ep03_R-9.0.mp4 | Reward: -9.0




‚úÖ Saved MP4 video: videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/DenseLunarLander_ep04_R283.8.mp4 | Reward: 283.8




‚úÖ Saved MP4 video: videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/DenseLunarLander_ep05_R-279.4.mp4 | Reward: -279.4




‚úÖ Saved MP4 video: videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/DenseLunarLander_ep06_R-314.7.mp4 | Reward: -314.7




‚úÖ Saved MP4 video: videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/DenseLunarLander_ep07_R-408.4.mp4 | Reward: -408.4




‚úÖ Saved MP4 video: videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/DenseLunarLander_ep08_R-165.4.mp4 | Reward: -165.4




‚úÖ Saved MP4 video: videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/DenseLunarLander_ep09_R-236.8.mp4 | Reward: -236.8




‚úÖ Saved MP4 video: videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/DenseLunarLander_ep10_R-272.0.mp4 | Reward: -272.0
üìù Saved video run params to videos/GRPO_Hybrid/hybrid_G32_18h29_09112025/grpo_config_18h29_09112025.txt


SimpleGRPOPolicy(
  (net): Sequential(
    (0): Linear(in_features=8, out_features=128, bias=True)
    (1): Tanh()
    (2): Linear(in_features=128, out_features=128, bias=True)
    (3): Tanh()
    (4): Linear(in_features=128, out_features=4, bias=True)
  )
)

In [2]:
from dense_scripts.utils.policies import SimpleGRPOPolicy
from dense_scripts.utils import StatefulLunarLander

# 3. Import the NEW MCTS Trainer and its Config
from dense_scripts.GRPO import TreeSearchGRPOConfig, TreeSearchGRPOTrainer

# 4. Initialize the Stateful Environment
#    This environment is REQUIRED because the trainer must call .get_state() and .set_state()
#    We can use randomization; the master_seed will ensure all workers
#    have the same (randomized) terrain.
env_train = StatefulLunarLander(randomize_angle=True, randomize_pos=True)

# 5. Initialize the Policy
policy = SimpleGRPOPolicy(env_train.observation_space.shape[0], env_train.action_space.n)

# 6. Configure the Trainer
cfg = TreeSearchGRPOConfig(
    env_spec=env_train,          # Pass the stateful env object
    G=32,                        # Sample 32 actions at EACH timestep
    n_rollout_steps=100,         # Rollout 100 steps into the future to estimate Q(s,a)
    gamma=0.99,
    lr=3e-4,
    epochs=4,                    # 4 update epochs per *timestep*
    n_workers=16,                # Use 16 persistent workers (must be <= G)
    log_dir="./runs/MCTS_GRPO_Lander",
    seed=42
)

# 7. Initialize the Trainer
trainer = TreeSearchGRPOTrainer(policy, cfg, device="cpu")

# 8. Run Training
#    Note: This algorithm is MUCH slower than batch-based GRPO.
#    It runs G*n_rollout_steps simulations *per single step* of the main episode.
#    So, we train for a small number of episodes.
trainer.train(
    num_episodes=50,
    video_dir="videos/MCTS_GRPO",
    video_episodes=10,
    video_fps=30
)

TypeError: TreeSearchGRPOConfig.__init__() got an unexpected keyword argument 'env_spec'