Deep Deterministic Policy Gradient

Deep Deterministic Policy Gradient (DDPG) algorithm is a widely used algorithm in reinforcement learning. It is a member of Actor Critic learning. It delivers a more stable training for temporal difference estimation approach in non-episodic setting. In this repository, it is implemented for a continuous control problem, in the OpenAI-gym LunarLanderContinuous-v2 environment.

Results

An optimal policy is found after playing few hundreds of episodes. See the rewards, critic loss and actor loss obtained below:

Visualization

To be added

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
agent.py		agent.py
model.py		model.py
replay_buffer.py		replay_buffer.py
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Deep Deterministic Policy Gradient

Results

Visualization

About

Releases

Packages

Languages

License

jaysonph/Pytorch-DDPG

Folders and files

Latest commit

History

Repository files navigation

Deep Deterministic Policy Gradient

Results

Visualization

About

Topics

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages