학습 속도와 성능 개선을 위해 A2C 스타일의 PPO 에이전트 만들기 #1

dnddnjs · 2018-07-21T04:28:26Z

1 개의 액터러너를 가지고 샘플을 모아서 학습시키는 것은 학습 속도가 느린 것 같습니다. 또한 여러개의 액터러너로 학습시킨 에이전트보다 policy의 quality가 상당히 낮기 때문에 여러 개의 액터러너를 가지고 학습해야할 것 같습니다. 다음과 같은 순서로 진행하면 될 것 같습니다.

여러개의 액터러너가 있는 환경 만들기
각 액터러너로 각각의 메모리에 샘플 저장하기
각 메모리를 통해 GAE를 따로 따로 구하기
각 메모리를 통해 gradient를 구한 다음에 평균을 취해서 actor와 critic을 업데이트

일단 이게 되어야 뒤의 다른 작업들을 진행할 수 있기 때문에 가능한 한 빠르게 구성해주시면 좋을 것 같습니다.

dnddnjs · 2018-07-24T23:40:39Z

to do list

멀티에이전트 코드 리뷰 : @pz1004
서버에서 돌리기 : @Hyeokreal
멀티에이전트 폴더와 그냥 폴더를 잘 합쳐보기

완료 후 여기에 댓글 달아주시면 될 것 같아요-!

dnddnjs added the enhancement New feature or request label Jul 21, 2018

dnddnjs assigned pz1004, rrbb014 and Hyeokreal Jul 21, 2018

dnddnjs mentioned this issue Jul 23, 2018

multi_agent #6

Merged

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

학습 속도와 성능 개선을 위해 A2C 스타일의 PPO 에이전트 만들기 #1

학습 속도와 성능 개선을 위해 A2C 스타일의 PPO 에이전트 만들기 #1

dnddnjs commented Jul 21, 2018

dnddnjs commented Jul 24, 2018 •

edited

Loading

학습 속도와 성능 개선을 위해 A2C 스타일의 PPO 에이전트 만들기 #1

학습 속도와 성능 개선을 위해 A2C 스타일의 PPO 에이전트 만들기 #1

Comments

dnddnjs commented Jul 21, 2018

dnddnjs commented Jul 24, 2018 • edited Loading

to do list

dnddnjs commented Jul 24, 2018 •

edited

Loading