In [1]:
import math
import random
from game import State

In [2]:
# プレイアウト 今の局面からゲーム終了まで戦うシミュレーションするやつ
def playout(state):
    # 負けは状態価値 -1
    if state.is_lose():
        return -1
  
  # 引き分けは状態価値 0
    if state.is_draw():
        return 0

  # 次の状態の状態価値
    return -playout(state.next(random_action(state)))

In [3]:
# モンテカルロ木探索で手を選ぶ
def mcts2000_action(state):
    
  # モンテカルロ木探索
    class Node:
        
        # 初期化
        def __init__(self,state):
            self.state = state # 状態
            self.w = 0 # 累計価値
            self.n = 0 # 試行回数
            self.child_nodes = None # 子ノード群

        def evaluate(self):
            # ゲーム終了
            if self.state.is_done():
                # 勝敗結果で価値を取得
                value = -1 if self.state.is_lose() else 0 # 負けは -1、引き分けは 0

            # 累計価値を試行回数の更新
                self.w += value
                self.n += 1
                return value
          #子ノードが存在しないとき
            if not self.child_nodes:
                value = playout(self.state)

            # 累計価値と試行回数の更新
                self.w += value
                self.n += 1

            # 子ノードの展開
                if self.n == 10:
                    
                    self.expand()
                return value

          # 子ノードが存在するとき
            else:
                # UCB1が最大の子ノードの評価で価値を取得
                value = -self.next_child_node().evaluate()
                self.w += value
                self.n += 1
                return value

        # 子ノードの展開
        def expand(self):
            legal_actions = self.state.legal_actions()
            self.child_nodes = []
            for action in legal_actions:
                self.child_nodes.append(Node(self.state.next(action)))

        # UCB1が最大の子ノードの取得
        def next_child_node(self):
            for child_node in self.child_nodes:
                if child_node.n == 0:
                    return child_node

          # UCB1の計算
            t = 0
            for c in self.child_nodes:
                t += c.n
            ucb1_values = []
            for child_node in self.child_nodes:
                ucb1_values.append(-child_node.w/child_node.n+(2*math.log(t)/child_node.n)**0.5)

          # UCB1が最大の子ノードを返す
            return self.child_nodes[argmax(ucb1_values)]


        # 現在の局面のノードの作成
    root_node = Node(state)
    root_node.expand()

      # 100回のシミュレーションを実行　この数によって強さが変動する
    for _ in range(2000):
        root_node.evaluate()

      # 試行回数の最大値を持つ行動を返す
    legal_actions = state.legal_actions()
    n_list = []
    for c in root_node.child_nodes:
        n_list.append(c.n)
    return legal_actions[argmax(n_list)]

In [4]:
#ランダムに手を打つやつ
def random_action(state):
    legal_actions = state.legal_actions()
    return legal_actions[random.randint(0,len(legal_actions)-1)]

In [5]:
# 最大値のインデックスを返す
def argmax(collection,key=None):
    return collection.index(max(collection))

In [13]:
# 動作確認
#mcts VS ランダム
EP_GAME_COUNT = 10

   # 1評価当たりのゲーム数

# 先手プレイヤーのポイント
def first_player_point(ended_state):
  # 1:先手勝利、0:先手敗北、0.5:引き分け
    if ended_state.is_lose():
        return 0 if ended_state.is_first_player() else 1
    return 0.5

# 1ゲームの実行
def play(next_actions):
  # 状態の生成
    state = State()

  # ゲーム終了までループ
    while True:
    # ゲーム終了時
        if state.is_done():
            break

    # 行動の取得
        next_action = next_actions[0] if state.is_first_player() else next_actions[1]
        action = next_action(state)

    # 次の状態の取得
        state = state.next(action)

  # 先手プレイヤーのポイントを返す
    return 

# 任意のアルゴリズムの評価
def evaluate_algorithm_of(label,next_actions):
    
  # 複数回の対戦を繰り返す
    total_point = 0
    for i in range(EP_GAME_COUNT):
        
    # 1ゲームの実行
        if i%2 == 0:
            
            total_point += play(next_actions)
        else:
            total_point += 1 - play(list(reversed(next_actions)))
    
    # 出力
        print('\nEvaluate {}/{}'.format(i+1,EP_GAME_COUNT),end='')
    print()

  # 平均ポイントの計算
    average_point = total_point/EP_GAME_COUNT
    print(label.format(average_point))


In [15]:
#VSランダム
next_actions = (random_action,random_action)
evaluate_algorithm_of('VS_Random {:.3f}',next_actions)
# print(state)
# print()

TypeError: unsupported operand type(s) for +=: 'int' and 'NoneType'

In [6]:
# program VS program
#動作確認
if __name__ == '__main__':
    #状態の生成
    state = State()
    
    #ゲーム終了までのループ
    while True:
        #ゲーム終了時
        if state.is_done():
            break 
        
        #先行後攻で交互に使うプログラムを入れ替える
        next_actions = (mcts1000_action,random_action)
        next_action = next_actions[0] if state.is_first_player() else next_actions[1]
        
        action = next_action(state)
        
        #次の状態の取得
        state = state.next(action)
        
        #文字列表示
        #print(str("座標(")+x,y+str(") に石を置いたよ"))
        print(state)
        print()  


________
________
________
___ooo__
___xo___
________
________
________



________
________
___x____
___xoo__
___xo___
________
________
________



________
________
___x____
___xoo__
__ooo___
________
________
________



________
________
___x____
___xoo__
__oox___
_____x__
________
________



________
________
___x____
__oooo__
__oox___
_____x__
________
________



________
________
___x__x_
__ooox__
__oox___
_____x__
________
________



________
________
___x__x_
__ooox__
__oooo__
_____x__
________
________



________
________
___x__x_
__ooxx__
__ooox__
_____xx_
________
________



________
________
___x__x_
__ooxx__
__ooox__
_____ox_
______o_
________



________
________
___x__x_
__ooxx__
__ooxx__
____xxx_
______o_
________



________
____o___
___o__x_
__ooxx__
__ooxx__
____xxx_
______o_
________



________
____o___
_x_o__x_
__xoxx__
__oxxx__
____xxx_
______o_
________



________
____o___
_x_o__x_
_oooxx__
__oxxx__
____xxx_
______o_
________



________
____o___
_x_o__