PyTorch implementation of the Filtered Policy Gradient (FPG) algorithm

This is a PyTorch implementation of "Filtered Policy Gradient (FPG)". Please make sure to install the necessary dependencies, particularly Pytorch and MuJoCo.

The current version of FPG is using Gaussian policies suited for continuous control problems. Minimum changes are required to work with discrete action space (log probability functions, etc).

Usage

python main.py --env-name "Swimmer-v3" --sever 0 --attack_norm 10 --max_iter_num 200 --eps 0.01 # Vanilla TRPO
python main.py --env-name "Swimmer-v3" --sever 1 --attack_norm 10 --max_iter_num 200 --eps 0.01 # FPG

Fun Results

TRPO is fooled to learn the backward running policy on HalfCheetah with epsilon=0.01 and delta large enough.

FPG remains unaffected.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
LICENSE.md		LICENSE.md
README.md		README.md
autograd_hacks.py		autograd_hacks.py
main.py		main.py
models.py		models.py
replay_memory.py		replay_memory.py
running_state.py		running_state.py
sever.py		sever.py
trpo.py		trpo.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

LICENSE.md

LICENSE.md

README.md

README.md

autograd_hacks.py

autograd_hacks.py

main.py

main.py

models.py

models.py

replay_memory.py

replay_memory.py

running_state.py

running_state.py

sever.py

sever.py

trpo.py

trpo.py

utils.py

utils.py

Repository files navigation

PyTorch implementation of the Filtered Policy Gradient (FPG) algorithm

Usage

Fun Results

About

Releases

Packages

Languages

License

zhangxz1123/FilteredPolicyGradient

Folders and files

Latest commit

History

Repository files navigation

PyTorch implementation of the Filtered Policy Gradient (FPG) algorithm

Usage

Fun Results

About

Resources

License

Stars

Watchers

Forks

Languages