적대적 탐색 알고리즘의 동작 방식을 이해하고 이를 이용하여 게임 프로그램을 만드는 예를 살펴 봅시다. 여기 제공하는 코드는 GitHub aima-python의 코드를 기반으로 일부 수정한 것임.

In [1]:
from collections import defaultdict
import random
import math
import numpy as np
infinity = math.inf

## 게임 문제 정의
자신만의 게임 문제를 정의하려면 Game 클래스의 서브 클래스를 정의하면 됨.

In [2]:
class Game:
    """문제를 정의하기 위한 Problem 클래스에 대응되는 게임 정의를 위한 클래스.
    경로 비용과 목표 검사 대신 각 상태에 대한 효용 함수와 종료 검사로 구성됨.
    게임을 정의하려면 이 클래스의 서브 클래스를 만들어서
    actions, result, is_terminal, utility를 구현하면 됨.
    필요에 따라 게임의 초기 상태를 지정하려면,
    클래스 생성자에서 초기 상태를 .initial 에 세팅하면 됨."""

    def actions(self, state):
        """주어진 상태에서 허용 가능한 수(move) 리스트"""
        raise NotImplementedError

    def result(self, state, move):
        """주어진 상태(state)에서 수(move)를 두었을 때의 결과 상태 리턴"""
        raise NotImplementedError

    def is_terminal(self, state):
        """state가 종료 상태이면 True 리턴"""
        return not self.actions(state)
    
    def utility(self, state, player):
        """종료 상태 state에서 게임이 종료됐을 때 player의 효용 함수 값"""
        raise NotImplementedError

In [3]:
def play_game(game, strategies: dict, verbose=False):
    """번갈아 가면서 두는 게임 진행 함수.
    strategies: {참가자 이름: 함수} 형태의 딕셔너리. 
    여기서 함수(game, state)는 상태 state에서 참가자의 수(move)를 찾는 함수"""
    state = game.initial
    while not game.is_terminal(state):
        player = state.to_move
        move = strategies[player](game, state)
        state = game.result(state, move)
        if verbose: 
            print('Player', player, 'move:', move)
            print(state)
    return state

## 적대적 탐색 알고리즘 구현

### 미니맥스 탐색

In [4]:
def minimax_search(game, state):
    """미니맥스 탐색: 최고의 수를 결정하기 위한 게임 트리 탐색.
    (미니맥스 값, 수) 쌍을 리턴함."""

    player = state.to_move

    def max_value(state):
        if game.is_terminal(state):
            return game.utility(state, player), None
        v, move = -infinity, None
        for a in game.actions(state):
            v2, _ = min_value(game.result(state, a))
            if v2 > v:
                v, move = v2, a
        return v, move

    def min_value(state):
        if game.is_terminal(state):
            return game.utility(state, player), None
        v, move = +infinity, None
        for a in game.actions(state):
            v2, _ = max_value(game.result(state, a))
            if v2 < v:
                v, move = v2, a
        return v, move

    return max_value(state)

### 알파-베타 탐색

In [5]:
def alphabeta_search(game, state):
    """알파-베타 탐색: 알파-베타 가지치기를 사용하여 최고의 수를 결정하기 위한 게임 트리 탐색."""

    player = state.to_move

    def max_value(state, alpha, beta):
        if game.is_terminal(state):
            return game.utility(state, player), None
        v, move = -infinity, None
        for a in game.actions(state):
            v2, _ = min_value(game.result(state, a), alpha, beta)
            if v2 > v:
                v, move = v2, a
                alpha = max(alpha, v)
            if v >= beta:
                return v, move
        return v, move

    def min_value(state, alpha, beta):
        if game.is_terminal(state):
            return game.utility(state, player), None
        v, move = +infinity, None
        for a in game.actions(state):
            v2, _ = max_value(game.result(state, a), alpha, beta)
            if v2 < v:
                v, move = v2, a
                beta = min(beta, v)
            if v <= alpha:
                return v, move
        return v, move

    return max_value(state, -infinity, +infinity)

### 휴리스틱 알파-베타 탐색

In [6]:
def cutoff_depth(d):
    """깊이 d까지만 탐색하도록 하는 중단 함수: depth > d이면 True 리턴."""
    return lambda game, state, depth: depth > d

def h_alphabeta_search(game, state, cutoff=cutoff_depth(6), h=lambda s, p: 0):
    """휴리스틱 알파-베타 탐색"""

    player = state.to_move

    def max_value(state, alpha, beta, depth):
        if game.is_terminal(state):
            return game.utility(state, player), None
        if cutoff(game, state, depth):
            return h(state, player), None
        v, move = -infinity, None
        for a in game.actions(state):
            v2, _ = min_value(game.result(state, a), alpha, beta, depth+1)
            if v2 > v:
                v, move = v2, a
                alpha = max(alpha, v)
            if v >= beta:
                return v, move
        return v, move

    def min_value(state, alpha, beta, depth):
        if game.is_terminal(state):
            return game.utility(state, player), None
        if cutoff(game, state, depth):
            return h(state, player), None
        v, move = +infinity, None
        for a in game.actions(state):
            v2, _ = max_value(game.result(state, a), alpha, beta, depth + 1)
            if v2 < v:
                v, move = v2, a
                beta = min(beta, v)
            if v <= alpha:
                return v, move
        return v, move

    return max_value(state, -infinity, +infinity, 0)

### 몬테가를로 트리 탐색
몬테카를로 탐색 트리에서 사용하는 노드에는 자식 상태들을 저장함. 자식 상태들은 딕셔너리 구조로 저장됨. 키는 자식 노드 값은 그 자식 노드를 생성시킨 행동.
`{자식노드1: 행동1, 자식노드2: 행동2, ...}`

In [7]:
def monte_carlo_tree_search(game, state, N=1000):
    """몬테카를로 트리 탐색.
    N: 반복 횟수"""
    
    def select(n):
        """트리에서 단말 노드 하나를 선택함.
        UCB 선택 정책에 따라 자식 노드를 순차적으로 선택해 단말 노드까지 내려 감."""
        if n.children:
            return select(max(n.children.keys(), key=ucb))
        else:
            return n

    def expand(n):
        """선택된 단말 노드의 모든 자식 노드들을 생성하여 확장함."""
        if not n.children and not game.is_terminal(n.state):
            n.children = {MCT_Node(state=game.result(n.state, action), parent=n): action
                          for action in game.actions(n.state)}
        return select(n)

    def simulate(game, state):
        """생성된 자식 노드에서 playout 정책에 따라 playout 수행.
        가능한 수 중 하나를 랜덤하게 선택하여 상태 state의 효용을 시뮬레이션함."""
        player = state.to_move
        while not game.is_terminal(state):
            action = random.choice(list(game.actions(state)))
            state = game.result(state, action)
        v = game.utility(state, player)
        return -v

    def backprop(n, utility):
        """시뮬레이션된 효용을 모든 부모 노드들에게 전달함.
        노드 n에서 루트까지 올라가면서 시뮬레이션 결과 utility에 따라 playout 횟수(N)와 해당 플레이어의 효용(U) 업데이트"""
        if utility > 0:  # 승리한 플레이어의 노드에만 효용(숭리 횟수) 업데이트
            n.U += utility
        n.N += 1
        if n.parent:
            backprop(n.parent, -utility)

    root = MCT_Node(state=state)

    for _ in range(N):
        leaf = select(root)
        child = expand(leaf)
        result = simulate(game, child.state)
        backprop(child, result)

    # playout 횟수가 가장 큰 수 리턴
    max_state = max(root.children, key=lambda p: p.N)  # N이 가장 큰 자식 노드

    return max_state.U, root.children.get(max_state)  # 다른 탐색 알고리즘과 일관성 유지를 위해 효용값과 수를 같이 리턴함.


class MCT_Node:
    """몬테카를로 탐색 트리에서 사용하는 노드.
    자식 상태들을 기록함.
    U: 이 노드를 경유하는 모든 playout의 총 효용.
    N: 이 노드를 경유하는 playout 횟수."""
    def __init__(self, parent=None, state=None, U=0, N=0):
        self.__dict__.update(parent=parent, state=state, U=U, N=N)
        self.children = {}  # 자식 노드들이 저장될 딕셔너리. {자식 노드: 해당 자식 노드를 생성시킨 행동}
        self.actions = None


def ucb(n, C=1.4):
    """UCB 선택 정책"""
    return np.inf if n.N == 0 else n.U / n.N + C * np.sqrt(np.log(n.parent.N) / n.N)

## Tic-Tac-Toe(삼목) 게임

### 게임 정의

In [8]:
class TicTacToe(Game):
    """Tic-Tac-Toe 게임. 보드 크기: width * height. k개의 돌을 연이어 놓으면 승리.
    'X'와 'O'가 게임 플레이. 'X'가 먼저 플레이.
    (0, 0) 위치는 보드의 좌상단 끝 위치.
    (x, y)에서 x, y는 각각 x축과 y축 좌표. x축은 오른쪽으로, y축은 아래쪽으로 증가함.
    상태: 현재 보드 판 상태(놓여 있는 돌의 위치와 종류).
    행동(수): 돌을 놓을 위치."""

    def __init__(self, height=3, width=3, k=3):
        self.k = k
        self.squares = {(x, y) for x in range(width) for y in range(height)}  # 보드에서 모든 가능한 위치 집합
        self.initial = Board(height=height, width=width, to_move='X', utility=0)

    def actions(self, board):
        """board 상태에서 가능한 수: 아직 돌이 놓이지 않은 위치들."""
        return self.squares - set(board)

    def result(self, board, square):
        """board 상태에서 square 위치에 수를 뒀을 때의 결과 상태.
        board의 square 위치에 현재 플레이어의 표시를 위치시킴."""
        player = board.to_move
        board = board.new({square: player}, to_move=('O' if player == 'X' else 'X'))
        win = k_in_row(board, player, square, self.k)
        board.utility = (0 if not win else +1 if player == 'X' else -1)
        return board

    def utility(self, board, player):
        """승리: 1, 패배: -1, 그외: 0"""
        return board.utility if player == 'X' else -board.utility

    def is_terminal(self, board):
        """승/패가 결정되었거나 빈 위치가 존재하지 않으면 종료 상태임."""
        return board.utility != 0 or len(self.squares) == len(board)

    def display(self, board): print(board)     


def k_in_row(board, player, square, k):
    """일직선으로 k개의 player 돌이 놓여 있으면 True 리턴."""
    def in_row(x, y, dx, dy): return 0 if board[x, y] != player else 1 + in_row(x + dx, y + dy, dx, dy)
    return any(in_row(*square, dx, dy) + in_row(*square, -dx, -dy) - 1 >= k
               for (dx, dy) in ((0, 1), (1, 0), (1, 1), (1, -1)))

In [9]:
class Board(defaultdict):
    """{(x, y): player} 형식의 딕셔너리.
    각 위치에 누구의 돌이 놓여 있는지를 표현함. player: 'X' 또는 'O'
    .to_move: 누가 둘 차례인가?
    .width, .height: 보드 크기"""
    
    empty = '.'
    off = '#'
    
    def __init__(self, width=8, height=8, to_move=None, **kwds):
        self.__dict__.update(width=width, height=height, to_move=to_move, **kwds)
        
    def new(self, changes: dict, **kwds) -> 'Board':
        """{(x, y): contents} 형식의 딕셔너리 changes가 주어지면, 변경 사항이 적용된 새로운 보드 리턴."""
        board = Board(width=self.width, height=self.height, **kwds)
        board.update(self)
        board.update(changes)
        return board

    def __missing__(self, loc):  # loc가 보드 딕셔너리에 존재하지 않은 경우 실행됨.
        x, y = loc
        if 0 <= x < self.width and 0 <= y < self.height:
            return self.empty
        else:
            return self.off
            
    def __hash__(self): 
        return hash(tuple(sorted(self.items()))) + hash(self.to_move)
    
    def __repr__(self):
        def row(y): return ' '.join(self[x, y] for x in range(self.width))
        return '\n'.join(map(row, range(self.height))) +  '\n'

### 게임 참가자(player) 정의

In [10]:
def random_player(game, state):
    """허용되는 수(move) 중에서 무작위로 하나를 선택하는 플레이어"""
    return random.choice(list(game.actions(state)))

def player(search_algorithm):
    """지정된 탐색 알고리즘을 사용하는 플레이어: (game, state)를 입력 받아 move를 리턴하는 함수."""
    return lambda game, state: search_algorithm(game, state)[1]  # search_algorithm의 리턴값은 (value, move) 튜플

In [11]:
def query_player(game, state):
    """다음 수(move)를 직접 입력하는 형태의 플레이어"""
    print("현재 상태:")
    game.display(state)
    print(f"가능한 수: {game.actions(state)}")
    print("")
    move = None
    if game.actions(state):
        move_string = input('당신의 수는? (돌을 둘 위치 입력; 예: (1,1)): ')
        try:
            move = eval(move_string)
        except NameError:
            move = move_string
    else:
        print('가능한 수가 없음: 상대방에게 순서가 넘어감.')
    return move

## 게임하기

In [12]:
play_game(TicTacToe(), {'X':random_player, 'O':player(alphabeta_search)}, verbose=True).utility

Player X move: (2, 0)
. . X
. . .
. . .

Player O move: (1, 1)
. . X
. O .
. . .

Player X move: (0, 0)
X . X
. O .
. . .

Player O move: (1, 0)
X O X
. O .
. . .

Player X move: (0, 1)
X O X
X O .
. . .

Player O move: (1, 2)
X O X
X O .
. O .



-1

In [13]:
play_game(TicTacToe(), {'X':player(alphabeta_search), 'O':player(minimax_search)}, verbose=True).utility

Player X move: (0, 1)
. . .
X . .
. . .

Player O move: (2, 1)
. . .
X . O
. . .

Player X move: (1, 2)
. . .
X . O
. X .

Player O move: (0, 0)
O . .
X . O
. X .

Player X move: (1, 1)
O . .
X X O
. X .

Player O move: (1, 0)
O O .
X X O
. X .

Player X move: (2, 0)
O O X
X X O
. X .

Player O move: (0, 2)
O O X
X X O
O X .

Player X move: (2, 2)
O O X
X X O
O X X



0

In [14]:
play_game(TicTacToe(), {'X':player(h_alphabeta_search), 'O':player(h_alphabeta_search)}, verbose=True).utility

Player X move: (0, 1)
. . .
X . .
. . .

Player O move: (2, 1)
. . .
X . O
. . .

Player X move: (1, 2)
. . .
X . O
. X .

Player O move: (0, 0)
O . .
X . O
. X .

Player X move: (1, 1)
O . .
X X O
. X .

Player O move: (1, 0)
O O .
X X O
. X .

Player X move: (2, 0)
O O X
X X O
. X .

Player O move: (0, 2)
O O X
X X O
O X .

Player X move: (2, 2)
O O X
X X O
O X X



0

In [15]:
play_game(TicTacToe(), {'X':player(monte_carlo_tree_search), 'O':random_player}, verbose=True).utility

Player X move: (1, 1)
. . .
. X .
. . .

Player O move: (0, 1)
. . .
O X .
. . .

Player X move: (1, 2)
. . .
O X .
. X .

Player O move: (2, 1)
. . .
O X O
. X .

Player X move: (1, 0)
. X .
O X O
. X .



1

In [16]:
play_game(TicTacToe(), {'X':player(monte_carlo_tree_search), 'O':player(h_alphabeta_search)}, verbose=True).utility

Player X move: (1, 1)
. . .
. X .
. . .

Player O move: (0, 0)
O . .
. X .
. . .

Player X move: (0, 1)
O . .
X X .
. . .

Player O move: (2, 1)
O . .
X X O
. . .

Player X move: (1, 0)
O X .
X X O
. . .

Player O move: (1, 2)
O X .
X X O
. O .

Player X move: (2, 0)
O X X
X X O
. O .

Player O move: (0, 2)
O X X
X X O
O O .

Player X move: (2, 2)
O X X
X X O
O O X



0

In [17]:
%%time
play_game(TicTacToe(), {'X':player(minimax_search), 'O':player(h_alphabeta_search)})

CPU times: total: 2.7 s
Wall time: 7.85 s


O O X
X X O
O X X

In [18]:
%%time
play_game(TicTacToe(), {'X':player(alphabeta_search), 'O':player(h_alphabeta_search)})

CPU times: total: 203 ms
Wall time: 418 ms


O O X
X X O
O X X

In [19]:
%%time
play_game(TicTacToe(), {'X':player(h_alphabeta_search), 'O':player(h_alphabeta_search)})

CPU times: total: 62.5 ms
Wall time: 244 ms


O O X
X X O
O X X

In [20]:
%%time
play_game(TicTacToe(), {'X':player(monte_carlo_tree_search), 'O':player(h_alphabeta_search)})

CPU times: total: 219 ms
Wall time: 573 ms


O X O
X X O
X O X

In [21]:
play_game(TicTacToe(), {'X':query_player, 'O':random_player})

현재 상태:
. . .
. . .
. . .

가능한 수: {(0, 1), (1, 2), (2, 1), (0, 0), (1, 1), (2, 0), (0, 2), (2, 2), (1, 0)}

현재 상태:
. . .
. X O
. . .

가능한 수: {(0, 1), (1, 2), (0, 0), (2, 0), (0, 2), (2, 2), (1, 0)}

현재 상태:
. . .
. X O
X O .

가능한 수: {(0, 1), (0, 0), (2, 0), (2, 2), (1, 0)}



. . X
. X O
X O .