We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
迷路や鍵の差し込みのようなゴールまで到達しないと報酬を得られないようなタスクにおいて、スタート地点を学習の進みに応じて変化させることで効率的に強化学習を行う方法を提案。最初はゴール付近から開始し、付近の状態を探索しながら、学習時にとある範囲の報酬の総和が得られた状態のみを残していくことで、調度良い難しさのスタート地点から学習できるようにしている。
https://arxiv.org/abs/1707.05300
Carlos Florensa, David Held, Markus Wulfmeier, Michael Zhang, Pieter Abbeel
2017/11/26
The text was updated successfully, but these errors were encountered:
2018年に発表されたOpenAIの手法に近い。
https://blog.openai.com/learning-montezumas-revenge-from-a-single-demonstration/
Sorry, something went wrong.
No branches or pull requests
一言でいうと
迷路や鍵の差し込みのようなゴールまで到達しないと報酬を得られないようなタスクにおいて、スタート地点を学習の進みに応じて変化させることで効率的に強化学習を行う方法を提案。最初はゴール付近から開始し、付近の状態を探索しながら、学習時にとある範囲の報酬の総和が得られた状態のみを残していくことで、調度良い難しさのスタート地点から学習できるようにしている。
論文リンク
https://arxiv.org/abs/1707.05300
著者/所属機関
Carlos Florensa, David Held, Markus Wulfmeier, Michael Zhang, Pieter Abbeel
投稿日付(yyyy/MM/dd)
2017/11/26
概要
新規性・差分
手法
結果
コメント
The text was updated successfully, but these errors were encountered: