Example DDPG implementation with ReLAx

This repository contains an implementation of deep deterministic policy gradient (DDPG) with ReLAx.

DDPG actor was trained on InvertedPendulum-v2 Mujoco Gym environment for 100k env-steps.

The graph of average return vs environment step is shown below (logs done every 10k steps):

The distribution of estimated Q-values vs data Q-values is shown below:

Resulting Policy:

ddpg_run.mp4

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.ipynb_checkpoints		.ipynb_checkpoints
content/video		content/video
tensorboard_logs/ddpg_inv_pendulum		tensorboard_logs/ddpg_inv_pendulum
trained_models		trained_models
README.md		README.md
ddpg_q_func.png		ddpg_q_func.png
ddpg_training.png		ddpg_training.png
ddpg_tutorial.ipynb		ddpg_tutorial.ipynb

Provide feedback