Added new samples

sharif1093 · Mar 20, 2020 · 3c4693c · 3c4693c
1 parent 7842700
commit 3c4693c
Show file tree

Hide file tree

Showing 7 changed files with 20 additions and 14 deletions.
diff --git a/README.md b/README.md
@@ -68,21 +68,25 @@ See [usage notes](https://digideep.readthedocs.io/en/latest/notes/02%20Usage.htm
 
 ### Sample Results
 
-Sample results of running `SAC` on the toy environment `Pendulum-v0`:
-
 ```bash
+# Running "SAC" on the default "Pendulum" environment:
 python -m digideep.main --params digideep.params.sac_params --tensorboard
+
+# Running "PPO" on "PongNoFrameskip-v4" environment:
+python3 -m digideep.main --params digideep.params.atari_ppo --tensorboard
+
+# Running `PPO` on dm_control's `DMBenchCheetahRun-v0` environment:
+python3 -m digideep.main --params digideep.params.mujoco_ppo --cpanel '{"model_name":"DMBenchCheetahRun-v0", "from_module":"digideep.environment.dmc2gym"}' --tensorboard
+
 ```
 
-<p align="center">
-  <img src="./doc/media/sac_pendulum_v0.gif" width="70%">
-</p>
 
-Also, the average return vs. episode graph (saved from TensorBoard):
 
-<p align="center">
-  <img src="./doc/media/sac_pendulum_v0.svg" width="70%">
-</p>
+| Learning Graph           |  Trained Policy |
+:-------------------------:|:-------------------------:
+<img src="./doc/media/sac_pendulum_v0.svg" width="40%" /> | <img src="./doc/media/sac_pendulum_v0.gif" width="40%" />
+<img src="./doc/media/ppo_atari_pong.svg" width="40%" />  | <img src="./doc/media/ppo_atari_pong.gif" width="40%" />
+<img src="./doc/media/ppo_dm_cheetah.svg" width="40%" />  | <img src="./doc/media/ppo_dm_cheetah.gif" width="40%" />
 
 
 ## Changelog

diff --git a/digideep/agent/ppo/agent.py b/digideep/agent/ppo/agent.py
@@ -195,10 +195,10 @@ def step(self):
                 monitor("/update/action_loss", action_loss.item())
                 monitor("/update/dist_entropy", dist_entropy.item())
 
-                self.session.writer.add_scalar('loss/overall', Loss.item())
-                self.session.writer.add_scalar('loss/value', value_loss.item())
-                self.session.writer.add_scalar('loss/action', action_loss.item())
-                self.session.writer.add_scalar('loss/dist_entropy', dist_entropy.item())
+                self.session.writer.add_scalar('loss/overall', Loss.item(), self.state["i_step"])
+                self.session.writer.add_scalar('loss/value', value_loss.item(), self.state["i_step"])
+                self.session.writer.add_scalar('loss/action', action_loss.item(), self.state["i_step"])
+                self.session.writer.add_scalar('loss/dist_entropy', dist_entropy.item(), self.state["i_step"])
 
                 ## Candidates for monitoring
                 # ratio.item()

diff --git a/digideep/params/mujoco_ppo.py b/digideep/params/mujoco_ppo.py
@@ -48,7 +48,7 @@
 # 'HalfCheetah-v2'
 # 'DMBenchHumanoidStand-v0' | 'DMBenchCheetahRun-v0' | 'Ant-v2'
 cpanel["model_name"] = 'Ant-v2'  # MuJoCo Env
-# cpanel["from_module"] = 'digideep.environment.dmc2gym'
+# cpanel["from_module"] = "digideep.environment.dmc2gym"
 cpanel["observation_key"] = "/agent"
 
 # cpanel["model_name"] = 'Pendulum-v0'        # Classic Control Env

diff --git a/doc/media/ppo_atari_pong.gif b/doc/media/ppo_atari_pong.gif
diff --git a/doc/media/ppo_atari_pong.svg b/doc/media/ppo_atari_pong.svg
diff --git a/doc/media/ppo_dm_cheetah.gif b/doc/media/ppo_dm_cheetah.gif
diff --git a/doc/media/ppo_dm_cheetah.svg b/doc/media/ppo_dm_cheetah.svg