pytorch-ppo-sac-HalfCheetah-v2

Description

Reimplementation of Soft Actor-Critic Algorithms and Applications and a deterministic variant of SAC from Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor.

Added another branch for Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor -> SAC_V

Requirements

Run

(Note: There is no need for setting Temperature(--alpha) if --automatic_entropy_tuning is True.)

For SAC :

python main.py --env-name Humanoid-v2 --aplha 0.05

For SAC (Hard Update):

python main.py --env-name Humanoid-v2 --alpha 0.05 --tau 1 --target_update_interval 1000

For SAC (Deterministic, Hard Update):

python main.py --env-name Humanoid-v2 --policy Deterministic --tau 1 --target_update_interval 1000

Default Parameters

Parameters	Value
Shared	-
optimizer	Adam
learning rate(`--lr`)	3x10⁻⁴
discount(`--gamma`) (γ)	0.99
replay buffer size(`--replay_size`)	1x10⁶
automatic_entropy_tuning(`--automatic_entropy_tuning`)	False
number of hidden layers (all networks)	2
number of hidden units per layer(`--hidden_size`)	256
number of samples per minibatch(`--batch_size`)	256
nonlinearity	ReLU
SAC	-
target smoothing coefficient(`--tau`) (τ)	0.005
target update interval(`--target_update_interval`)	1
gradient steps(`--updates_per_step`)	1
SAC (Hard Update)	-
target smoothing coefficient(`--tau`) (τ)	1
target update interval(`--target_update_interval`)	1000
gradient steps (except humanoids)(`--updates_per_step`)	4
gradient steps (humanoids)(`--updates_per_step`)	1

Environment (`--env-name`)	Temperature (`--alpha`)
HalfCheetah-v2	0.2
Hopper-v2	0.2
Walker2d-v2	0.2
Ant-v2	0.2
Humanoid-v2	0.05

pytorch-ppo-sac-HalfCheetah-v2

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
PPO-PyTorch-master		PPO-PyTorch-master
__pycache__		__pycache__
log/deepglint		log/deepglint
models		models
ppo_log/deepglint		ppo_log/deepglint
ppo_model		ppo_model
HalfCheetah-v2_paper.png		HalfCheetah-v2_paper.png
HalfCheetah-v2_ppo.png		HalfCheetah-v2_ppo.png
HalfCheetah-v2_sac.png		HalfCheetah-v2_sac.png
LICENSE		LICENSE
MUJOCO_LOG.TXT		MUJOCO_LOG.TXT
README.md		README.md
main.py		main.py
model.py		model.py
ppo_model.py		ppo_model.py
ppo_test.py		ppo_test.py
ppo_train.py		ppo_train.py
replay_memory.py		replay_memory.py
sac.py		sac.py
test.py		test.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Description

Requirements

Run

For SAC :

For SAC (Hard Update):

For SAC (Deterministic, Hard Update):

Default Parameters

pytorch-ppo-sac-HalfCheetah-v2

About

Releases

Packages

Languages

License

Tzenthin/pytorch-ppo-sac-HalfCheetah-v2

Folders and files

Latest commit

History

Repository files navigation

Description

Requirements

Run

For SAC :

For SAC (Hard Update):

For SAC (Deterministic, Hard Update):

Default Parameters

pytorch-ppo-sac-HalfCheetah-v2

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages