- valueの教師は、セルフプレイの最終的なスコア。policyの教師はセルフプレイに使用したモンテカルロ木探索の訪問回数
- policyの教師になるモンテカルロ木探索の訪問回数に、温度パラメータと呼ばれる N()^1/γ/ΣN()^1/γ で1/γ乗したものをかけてあげる。そのことにより、policyの選択に変化をつけることができる。なお、γ=1のときは、訪問回数に比例して、policyの教師になる。γ=0.1の時は、10乗されるので、より訪問回数の多い手が強調され、大きな値になる。
- 試合の時に、木探索をする時はルートノードにおいて、探索の訪問回数が多い手をベストな手として選択することになる。
-
Notifications
You must be signed in to change notification settings - Fork 0
License
hamuchu/GAZ
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
License
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published