pytorch-trpo

PyTorch implementation of Vanilla Policy Gradient, Truncated Natural Policy Gradient, Trust Region Policy Optimization, Proximal Policy Optimization

Train

algorithm: PG, NPG, TRPO, PPO
env: Ant-v2, HalfCheetah-v2, Hopper-v2, Humanoid-v2, HumanoidStandup-v2, InvertedPendulum-v2, Reacher-v2, Swimmer-v2, Walker2d-v2

python train.py --algorithm "algorithm name" --env "environment name"

This code is modified version of codes

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Env		Env
communicator_objects		communicator_objects
curricula		curricula
save_model		save_model
unityagents		unityagents
unitytrainers		unitytrainers
LICENSE		LICENSE
README.md		README.md
hparams.py		hparams.py
main.py		main.py
model.py		model.py
npg.py		npg.py
ppo.py		ppo.py
running_state.py		running_state.py
test_agent.py		test_agent.py
test_env.py		test_env.py
trpo.py		trpo.py
utils.py		utils.py
vanila_pg.py		vanila_pg.py