M2TD3 and SoftM2TD3

Official implementation of Max-Min Off-Policy Actor-Critic Method Focusing on Worst-Case Robustness to Model Misspecification.

Requirement

pip install -r requirements.txt

You will also need to install mujoco, if necessary. We used mjpro150. These can be installed for free.

python main.py algorithm=m2td3

The algorithm can be selected from m2td3, soft_m2td3.

With the environment option, you can train in various scenarios of mujoco tasks. Check configs/environment to see what scenarios are available.

This repository contains the modified version of Gym.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
M2TD3		M2TD3
SOFT_M2TD3		SOFT_M2TD3
configs		configs
gym		gym
utils		utils
.gitignore		.gitignore
README.md		README.md
evaluate.py		evaluate.py
evaluate_last.py		evaluate_last.py
main.py		main.py
requirements.txt		requirements.txt
run.py		run.py
run.sh		run.sh
trainer.py		trainer.py