Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

AobaZeroの追試(AlphaZeroの追試)を終了しました。 #54

Open
yssaya opened this issue Apr 26, 2021 · 0 comments
Open

AobaZeroの追試(AlphaZeroの追試)を終了しました。 #54

yssaya opened this issue Apr 26, 2021 · 0 comments

Comments

@yssaya
Copy link
Collaborator

yssaya commented Apr 26, 2021

2019年3月に開始して2年2か月で3980万棋譜を作成しました(AlphaZeroは2400万棋譜)。
これまで棋譜作成に協力していただいた皆様、バグを報告したり遊んで下さった方々に感謝いたします。

AlphaZeroには推定で154 Elo(後手番では86 Elo、先手番で377 Elo)負けています(後述)。

将棋のルールだけを教えて「勝ちやすい」という条件だけで一般的に指されてる囲い、戦型の大部分を再発見することができました。

確認された囲い:雁木、矢倉、美濃囲い、高美濃、銀冠、左美濃、中住まい、右玉、矢倉穴熊
確認された戦型:相掛かり、横歩取り、横歩取り青野流、角換わり棒銀、角換わり早繰り銀、角換わり腰掛け銀、
            後手四間飛車、矢倉脇システム、ひねり飛車

先手番では振飛車は指しませんが、後手番では四間飛車を好んで指していました。
穴熊も矢倉から穴熊に組み替える矢倉穴熊は指します(▲78金▲67金型)。
▲78金▲79金の正統な?穴熊は見つけていません。

半面、一目散に穴熊を目指す指し方や、多彩な振飛車(中飛車、三間飛車)などは見つけていません。
人間によって長く指されている指し方を一部発見できていないのはこの手法が万能ではないことも示していると思います。

最終的な棋風は相掛かりや角換わりを好むすぐ殴り掛かる居飛車党でこれはAlphaZeroの公開されている棋譜と似ています。
序盤の微妙な駒組の評価や、王が三段目以上に上がったときの形勢判断、入玉できるか、の見切りの力などが優れていると思います。
半面、終盤での読み抜け、飛角の長い利きをうっかり、などが弱点です。

この後は40blockに移行します。
w3459.txt が最後の20blockで
w3460.txt からが 40blockとなります。

39825686棋譜以降は40blockと20blockが混在します。
40blockは1974万棋譜までは20blockと同様に、そこから3970万棋譜までは1局面平均1回、でなく(1/8)回学習するように8倍速で学習したものをベースにしています。強化学習前で +70 Eloほど 20 blockより強いです。有効数字を6桁から3桁に変更することでweightの*.xzのサイズは76MBから80MB、と少し増えただけになっています。有効数字は2桁でも最新のw3435でも棋力に変化はありませんでした。

ネットワークの有効数字は2桁でも十分?
http://www.yss-aya.com/bbs_log/bbs2020.html#bbs43

以下は棋力の推定です。
AlphaZeroの1手10秒換算でのAobaZeroの対elmo(WCSC27)との330局だと

勝率     0.688 (219勝16分95敗)                差137
先手勝率 0.748 (120勝 7分38敗) 宣言116勝(97%)  差189
後手勝率 0.627 ( 99勝 9分57敗) 宣言 56勝(57%)  差 90

*AobaZeroは 1手580k playout/手、elmoは 1手251000k/手 (6スレッド)

AlphaZeroは持ち時間3時間で対elmo(WCSC27)に1000局で

勝率     0.918                                差420
先手勝率 0.982                                 差695
後手勝率 0.853                                 差305

*AlphaZeroは第1世代TPUを4つ(探索速度 58k/秒)。elmoはXeon 2.2GHz 44CPU、44スレッド(25100k/秒)

AobaZeroの重みがw1650と現在より40ほど弱い、
elmoを1手25100k固定とした場合、44スレッドは6スレッドより89弱い、を考慮して
(対Kristallweizenの16スレッド、1手5500kノードとの比較で)

(平均) 154 (420 - 137 - 89 - 40 より)
(先手) 377 (695 - 189 - 89 - 40 より)
(後手)  86 (305 -  90 - 89 - 40 より)
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant