In [1]:
#몬테 카를로 트리 탐색 실습 

In [11]:
from abc import ABC, abstractmethod
from collections import defaultdict
import math

class MCTS:
    
    def __init__(self, c=1):
        self.WC = defaultdict(int) # 노드별 이긴 횟수
        self.VC = defaultdict(int) # 노드별 방문 횟수
        self.children = dict() # 노드 자식노드들
        self.c = c #UCB 계산시 사용되는 계수

    def choose(self, node):
        #최선의 자식노드를 선택하는 메소드

        if node.is_terminal(): #해당 노드가 단말 노드일 경우
            raise RuntimeError(f"choose called on ternimal node {node}")
        
        if node not in self.children:  # 해당 노드가 자식 노드들에 포함되지 않을시 
            return node.find_random_chlld()  #무작위로 자식노드를 리턴
        
        def score(n):
            if self.VC[n] == 0:
                return float("-inf")
            return self.WC[n] / self.VC[n]
        
        return max(self.children[node], key = score) 
        #score 함수 사용시 해당 노드의 자식들 중 최대값을 리턴

    def do_rollout(self, node):
        #선택 -> 확장 -> 시뮬레이션 -> 역전파
        path = self._select(node)
        leaf = path[-1]
        self._expand(leaf)
        reward = self._simulate(leaf)
        self._backpropagate(path, reward)
        
    def _select(self, node): # 선택단계   
        path = []
        while True:
            path.append(node)
            if node not in self.children or not self.children[node]:
                return path #단말 노드 or 탐색 x --> path return  
            
            unexplored = self.children[node] - self.children.keys() #탐색 안한 노드 들 중 하나 선택
            if unexplored :
                n = unexplored.pop()
                path.append(n)
                return path         
            node = self._uct_select(node) #depth 증가
            
    def _expand(self, node): #확장 단계
        if node in self.children:
            return         
        self.children[node] = node.find_children() #선택 가능한 수들을 자식 노드에 추가
        
    def _simulate(self, node):
        
        invert_reward = True
        while True:
            if node.is_terminal(): #단말에 도달시 승패 결정
                reward = node.reward()
                return 1 - reward if invert_reward else reward       
            node = node.find_random_child()
            invert_reward = not invert_reward
            
    def _backpropagate(self, path, reward): #역전파

        for node in reversed(path):
            self.WC[node] += reward # 이기면 + 1
            self.VC[node] += 1 #방문 + 1
            reward = 1 - reward 
    
    def _uct_select(self, node) : 
        #확장 대상 노드 선택
        
        assert all(n in self.children for n in self.children[node])
        #assert -> 예외 처리문
        #all -> 모든 원소가 참인지 확인
        # 모든 자식 노드가 확장 되었는지 확인
        log_N_vertex = math.log(self.VC[node])
        
        def uct(n):
            #UCB 계산    
            return self.WC[n] / self.VC[n] + self.c * math.sqrt(2 * log_N_vertex / self.VC[n])
            
        return max(self.children[node], key = uct)

In [12]:
class Node(ABC):#추상 클래스
    
    #게임 트리의 노드 -> 보드판의 상태를 표현
    
    @abstractmethod
    def find_children(self): #해당 보드판 상태에서 가능한 모든 후속 상태 리턴
        return set()
    
    @abstractmethod
    def find_random_child(self):
        return None
    
    @abstractmethod
    def is_terminal(self):
        return True
    
    @abstractmethod
    def reward(self):
        return 0
    
    @abstractmethod
    def __hash__(self): #노드에 해쉬 적용
        return 123456789
    
    @abstractmethod
    def __eq__(node1, node2): #노드간 비교
        return True

In [13]:
from collections import namedtuple
from random import choice

TTTB = namedtuple('TictactoeBoard', 'tup turn winner terminal')

class TictactoeBoard(TTTB, Node):
    
    def find_children(board):
        #가능한 수들 집합으로 반환
        if board.terminal:
            return set()
        
        return { #비어있는 곳 시도
            board.make_move(i) for i, val in enumerate(board.tup) if val is None 
        }
    
    def find_random_child(board): #무작위 수 선택
        if board.terminal:
            return None      
        empty_spots = [i for i, val in enumerate(board.tup) if val is None]
        return board.make_move(choice(empty_spots))
    
    def reward(board):
        
        if not board.terminal:
            raise RuntimeError(f"reward called on nonterminal board{board}")
        
        if board.winner is board.turn:
            raise RuntimeError(f"reward called on unreachable board{board}")
        
        if board.turn is (not board.winner): #lose
            return 0
        
        if board.winner is None: #draw
            return 0.5
            
        raise RuntimeError(f"reward has unknown winner type{board.winner}")
    
    def is_terminal(board):
        return board.terminal
    
    def make_move(board, index):
        tup = board.tup[:index] + (board.turn,) + board.tup[index + 1 :] # board에 표시
        turn = not board.turn
        winner = find_winner(tup) #승자 있는지 판단
        is_terminal = (winner is not None) or not any(v is None for v in tup) #승자 있거나 모두 꽉차면 종료
        return TictactoeBoard(tup, turn, winner, is_terminal) #보드 상태 반환
    
    def display_board(board): #보드상태 출력
        
        to_char = lambda v : ("X" if v is True else ("0" if v is False else " "))
        rows = [  
            [to_char(board.tup[3 * row + col]) for col in range(3)] for row in range(3)
        ]
        return ('\n  1 2 3\n' + '\n'.join(str(i + 1) + " " + " ".join(row) for i, row in enumerate(rows)) + '\n')

In [14]:
def play_game():
    tree = MCTS()
    board = new_Board()
    print(board.display_board())
    
    while True:
        row_col = input('위치 row, col : ')
        row, col = map(int, row_col.split(","))
        index = 3 * (row - 1) + (col - 1)
        if board.tup[index] is not None: #해당 위치가 empty가 아닌경우
            raise RuntimeError('invalid Move')
            
        board = board.make_move(index) # board update
        print(board.display_board())
        
        if board.terminal:
            break
            
        for _ in range(50):
            tree.do_rollout(board)
        board = tree.choose(board)

        print(board.display_board())   
        if board.terminal:
            print('게임 종료')
            break
            
            
def winning_combos(): #이기는 조합으로 배치
    for start in range(0, 9, 3): #행 3개 배치
        yield(start, start + 1 , start + 2) #yield -> generator class
    
    for start in range(3) : #열 3 개 배치
        yield(start, start + 3, start + 6)
    
    yield(0, 4, 8)
    yield(2, 4, 6)
    
def find_winner(tup) :
    for i1, i2, i3 in winning_combos():
        v1, v2, v3 = tup[i1], tup[i2], tup[i3]
        if False is v1 is v2 is v3:
            return False
        if True is v1 is v2 is v3:
            return True
    return None

def new_Board():
    return TictactoeBoard(tup = (None,) * 9, turn = True, winner = None, terminal = False)

In [17]:
if __name__ == '__main__' :
    play_game()


  1 2 3
1      
2      
3      

위치 row, col : 1,1

  1 2 3
1 X    
2      
3      


  1 2 3
1 X    
2      
3   0  

위치 row, col : 2,1

  1 2 3
1 X    
2 X    
3   0  


  1 2 3
1 X    
2 X    
3 0 0  

위치 row, col : 1,2

  1 2 3
1 X X  
2 X    
3 0 0  


  1 2 3
1 X X  
2 X    
3 0 0 0

게임 종료
