(sec:exercise-othello)=
# 演習3 - オセロエージェントを作る

今回の演習では、前節、[基本のオセロAI](sec:othello-agent)の延長として、より強いオセロのAIを作成してみよう。

前節では、オセロAIの基本であるゲーム木の探索方法について、マス評価値に基づいた[ミニマックス探索](ssec:minimax)と、マス評価値に依らない[原始モンテカルロ探索](ssec:monte-carlo)について解説した。

本演習では、これらの延長として、Q関数の**関数近似**に基づいたAIの強化に取り組んでみよう。

## Q学習における関数近似

**関数近似**とは、Q関数$Q(s, a)$を何らかの機械学習モデルによって近似する手法を指す。[Q学習の基本](sec:q-learning)で紹介した手法ではQテーブルを離散化していたが、このような手法は、状態数の多いゲームでは適用が難しい。

今回、演習で扱うオセロも取り得る盤の状態は、64個のマスについて、黒、白、空の3通りが考えられるから、その状態数は$3^{64} \approx 3 \times 10^{30}$にもなる。従って、このような大量の状態数に対して、そのまま離散的なQテーブルを定義することは現実的ではない。

そこで、状態$s$を入力とし、取り得る行動$a \in \mathcal{A}$について、行動価値を与えるような関数$Q(s, a)$を機械学習モデルによって表現することを考える。

最も単純な例として、状態を表わすパラメータをベクトル$\mathbf{s}$として表わし、この線形変換により、各行動の価値を要素に持つベクトル$\mathbf{a}$を求めるようなモデルを考えることができる。

$$
\mathbf{a} = \text{softmax}(\mathbf{W} \mathbf{s} + \mathbf{b})
$$

このような線形モデルであれば、Q学習の更新式:

$$
Q_{\rm new}(s, a) = Q(s,a ) + \alpha \left[ R(s, a) + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]
$$

の第2項に現れるTD誤差を最小化するようにモデルのパラメータ$\mathbf{W}$, $\mathbf{b}$を最適化すれば良い。

## 演習内容

今回の演習では**オセロの盤面を表す二次元配列**が与えられた時に、次の手を返すようなAIを作成する。

In [2]:
from typing import Tuple

import numpy as np
import numpy.typing as npt


def play(board: npt.NDArray[np.int32]) -> Tuple[int, int]:
    pass

**入力の例**

```python
board = [
    [0, 0, 0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 0, 0, 0],
    [0, 0, 0, 1, 0, 0, 0, 0],
    [0, 0, 0, 0, 1, 0, 0, 0],
    [0, 0, 0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 0, 0, 0],
]
```