Belief-Enriched Pessimistic Q-Learning against Adversarial State Perturbations

This is the official code for our paper Belief-Enriched Pessimistic Q-Learning against Adversarial State Perturbations published at ICLR 2024. The default environment for Atari is Pong, you need to change the environment by changing the configs and use coresponding diffusion model.

This repo contains PF-RNN code from Particle Filter Recurrent Neural Networks(Ma et.al., 2019) and code from Progressive Distillation for Fast Sampling of Diffusion Models(Salimans and HO, 2022). This code is based on SA-DQN

We include pretrained PF-RNN, diffusion models and our models in pretrained folders

Train PF-RNN Model

python3 pfrnns/main.py

Train Diffusion Model

First Generate Trajectory

python3 gen_atari_pic.py --config config/Pong_ours.json
python3 diffuion.py

Train Diffusion Distiller Model

Copy generated atari pics into diffusion_distiller folder

bash diffusion_distiller/atari_u_script.sh

Train our model

BP-DQN

python3 train.py --config config/Grid_continous_ours.json

DP-DQN-O

python3 train_atari.py --config config/Pong_ours.json

DP-DQN-F

python3 train_atari.py --config config/Pong_ours.json

Test our model

BP-DQN

python3 test_gridmaze.py --config config/Grid_continous_ours.json

DP-DQN

python3 test_atari.py --config config/Pong_ours.json

To cite our work

@inproceedings{
sun2024beliefenriched,
title={Belief-Enriched Pessimistic Q-Learning against Adversarial State Perturbations},
author={Xiaolin Sun and Zizhan Zheng},
booktitle={The Twelfth International Conference on Learning Representations},
year={2024},
url={https://openreview.net/forum?id=7gDENzTzw1}
}

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
PongNoFrameskip-v4		PongNoFrameskip-v4
common		common
config		config
diffusion_distiller		diffusion_distiller
pfrnns		pfrnns
pretrained		pretrained
README.md		README.md
argparser.py		argparser.py
async_env.py		async_env.py
async_rb.py		async_rb.py
atari_utils.py		atari_utils.py
attacks.py		attacks.py
data_utils.py		data_utils.py
defaults.json		defaults.json
difusion.py		difusion.py
eps_scheduler.py		eps_scheduler.py
gen_atari_pic.py		gen_atari_pic.py
gen_config.py		gen_config.py
gridworld.py		gridworld.py
ibp.py		ibp.py
maze.csv		maze.csv
models.py		models.py
models_ra.py		models_ra.py
models_wocar.py		models_wocar.py
my_replay_buffer.py		my_replay_buffer.py
read_config.py		read_config.py
requirements.txt		requirements.txt
shmemarray.py		shmemarray.py
test.py		test.py
test_atari.py		test_atari.py
test_atari_diff.py		test_atari_diff.py
test_atari_dis.py		test_atari_dis.py
test_atari_radial.py		test_atari_radial.py
test_atari_step_aba.py		test_atari_step_aba.py
test_atari_wocar.py		test_atari_wocar.py
test_gridmaze.py		test_gridmaze.py
test_gridmaze_radial.py		test_gridmaze_radial.py
test_gridmaze_wocar.py		test_gridmaze_wocar.py
test_gridworld_sadqn.py		test_gridworld_sadqn.py
train.py		train.py
train_atari.py		train_atari.py
train_atari_dis.py		train_atari_dis.py
train_atari_sadqn.py		train_atari_sadqn.py
utils.py		utils.py

SliencerX/Belief-enriched-robust-Q-learning

Folders and files

Latest commit

History

Repository files navigation

Belief-Enriched Pessimistic Q-Learning against Adversarial State Perturbations

Train PF-RNN Model

Train Diffusion Model

First Generate Trajectory

Train Diffusion Distiller Model

Train our model

BP-DQN

DP-DQN-O

DP-DQN-F

Test our model

BP-DQN

DP-DQN

To cite our work

About

Resources

Stars

Watchers

Forks

Languages