Soving Continuous Control with Episodic Memory

PyTorch implementation of Episodic Memory Actor-Critic (EMAC).

TD3 and DDPG architecture parameters were based on official TD3 implementation: link

Usage

For training run:

python train.py --policy EMAC --env Walker2d-v3 --k 2 --alpha 0.1 --beta 0.1 --max_timesteps 200000 --device cuda:0

Paper training curves can be found in curves directory as saved TensorBoard logs in json format. For producing results below run

bash scripts/Walker2d-v3/train_EMAC.sh

Name		Name	Last commit message	Last commit date
Latest commit History 61 Commits
curves		curves
models		models
scripts		scripts
README.md		README.md
requirements.txt		requirements.txt
train.py		train.py