GitHub - wangbx66/Action-Subspace-Dependent: Rao-Blackwellization Variance Reduction for Policy gradient

Usage

python interactive_ppo_gym.py --env-name Quadraticm6k2 --seed 1 --learning-rate 3e-3 --max-iter-num 10000 --logger-name log --number-subspace 1 --noise-mult 3

Acknowledgement

The Actor part of the code is forked from https://github.com/Khrylx/PyTorch-RL
The Critic part of the code is forked from https://github.com/ghliu/pytorch-ddpg

Name		Name	Last commit message	Last commit date
Latest commit History 54 Commits
core		core
examples		examples
gail		gail
models		models
utils		utils
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

core

core

examples

examples

gail

gail

models

models

utils

utils

.gitignore

.gitignore

README.md

README.md

Repository files navigation

Usage

Acknowledgement

About

Releases

Packages

Contributors 2

Languages

wangbx66/Action-Subspace-Dependent

Folders and files

Latest commit

History

Repository files navigation

Usage

Acknowledgement

About

Resources

Stars

Watchers

Forks

Languages