Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

학습 속도와 성능 개선을 위해 A2C 스타일의 PPO 에이전트 만들기 #1

Open
dnddnjs opened this issue Jul 21, 2018 · 1 comment
Assignees
Labels
enhancement New feature or request

Comments

@dnddnjs
Copy link
Contributor

dnddnjs commented Jul 21, 2018

1 개의 액터러너를 가지고 샘플을 모아서 학습시키는 것은 학습 속도가 느린 것 같습니다. 또한 여러개의 액터러너로 학습시킨 에이전트보다 policy의 quality가 상당히 낮기 때문에 여러 개의 액터러너를 가지고 학습해야할 것 같습니다. 다음과 같은 순서로 진행하면 될 것 같습니다.

  1. 여러개의 액터러너가 있는 환경 만들기
  2. 각 액터러너로 각각의 메모리에 샘플 저장하기
  3. 각 메모리를 통해 GAE를 따로 따로 구하기
  4. 각 메모리를 통해 gradient를 구한 다음에 평균을 취해서 actor와 critic을 업데이트

일단 이게 되어야 뒤의 다른 작업들을 진행할 수 있기 때문에 가능한 한 빠르게 구성해주시면 좋을 것 같습니다.

@dnddnjs dnddnjs added the enhancement New feature or request label Jul 21, 2018
@dnddnjs dnddnjs mentioned this issue Jul 23, 2018
@dnddnjs
Copy link
Contributor Author

dnddnjs commented Jul 24, 2018

to do list

  • 멀티에이전트 코드 리뷰 : @pz1004
  • 서버에서 돌리기 : @Hyeokreal
  • 멀티에이전트 폴더와 그냥 폴더를 잘 합쳐보기

완료 후 여기에 댓글 달아주시면 될 것 같아요-!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
enhancement New feature or request
Projects
None yet
Development

No branches or pull requests

4 participants