## search_algorithm (Minimax with Alpha-Beta Pruning)
- 미니맥스 알고리즘 이해
- 알파-베타 가지치기 알고리즘 이해

---
- Goal : Find the optimal move to win in the game of Tic-Tac-Toe(or chess) 

### Minimax Algorithm
- A game of tic-tac-toe between two players, "MAX" and "MIN"
    - Max(X)플레이어가 이기면 +1 점을 주고, X플레이어에 대해서는 최대값으로 가게끔 학습한다.
    - MIN(O)플레이어가 이기면 -1 점을 주고, O플레이어에 대해서는 최소값으로 가게끔 학습한다.

### python (minimax : tic-tac-toe)


In [29]:
# initialize game board
# 보드는 1차원 리스트로 구현
# game_board = [' ' for _ in range(9)]
game_board = [' ', ' ', ' ',
              ' ', ' ', ' ',
              ' ', ' ', ' ']
game_board

[' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']

In [30]:
# Draw game board
# 현재 게임 보드를 그린다.
def draw(board):
    for i, cell in enumerate(board):
        if i % 3 == 0:
            print('\n----------------')
        print('|', cell , '|', end='')
    print('\n----------------')
    

In [31]:
# Define game over condition (the goal of the game)
# 1차원 리스트에서 동일한 문자가 수직선이나 수평선, 대각선으로 나타나면
# 승리한 것으로 한다.

def check_win(board, player):
    win_conf = [
        [board[0], board[1], board[2]],
        [board[3], board[4], board[5]],
        [board[6], board[7], board[8]],
        [board[0], board[3], board[6]],
        [board[1], board[4], board[7]],
        [board[2], board[5], board[8]],
        [board[0], board[4], board[8]],
        [board[2], board[4], board[6]],
    ]
    return [player, player, player] in win_conf

def game_over(board):
    return check_win(board, 'X') or check_win(board, 'O')

In [32]:
def empty_cells(board):
    cells = []
    for x, cell in enumerate(board):
        if cell == ' ':
            cells.append(x)
    return cells

In [33]:
# Move
# 비어 있는 칸에 놓을 수 있다.
def valid_move(x):
    return x in empty_cells(game_board)

# 위치 x에 놓는다.
def move(x, player):
    if valid_move(x):
        game_board[x] = player
        return True
    return False

In [34]:
# Minimax algorithm - 미니맥스 알고리즘 구현
# 이 함수는 순환적으로 호출된다.
def minimax(board, depth, maxPlayer):
    pos = -1
    # 단말 노드의 판단 평가값을 반환한다.
    if depth == 0 or len(empty_cells(board)) == 0 or game_over(board):
        return -1, evaluate(board)

    if maxPlayer:
        value = -10000  # 큰 음의 값 (음의 무한대)
        # 자식 노드를 하나씩 평가해서 최선의 선택을 찾는다.
        for p in empty_cells(board):
            board[p] = 'X'  # 보드의 p 위치에 'X'를 놓는다.
            
            # 평가값을 비교하여 minimax()를 실행한다.
            x, score = minimax(board, depth - 1, False)
            board[p] = ' '  # 다시 빈 상태로 돌린다.
            
            if score > value:
                value = score  # 최대값을 찾는다.
                pos = p  # 최대값의 위치를 기억한다.
    else:
        value = +10000  # 양의 무한대
        # 자식 노드를 하나씩 평가해서 최선의 선택을 한다.
        for p in empty_cells(board):
            board[p] = 'O'  # 보드의 p 위치에 'O'를 놓는다.

            # 평가값을 구해서 minimax()를 실행한다.
            x, score = minimax(board, depth - 1, True)
            board[p] = ' '  # 다시 빈 상태로 돌린다.
            if score < value:
                value = score  # 최소값을 찾는다.
                pos = p  # 최소값의 위치를 기억한다.

    return pos, value  # 위치와 값을 반환한다.

In [35]:
def evaluate(board):
    if check_win(board, 'X'):
        return 1
    elif check_win(board, 'O'):
        return -1
    else:
        return 0

In [36]:
# Main program
player = 'X'

while True:
    draw(game_board)
    if len(empty_cells(game_board)) == 0 or game_over(game_board):
        break
    i, v = minimax(game_board, 9, player == 'X')
    move(i, player)
    if player == 'X':
        player = 'O'
    else:
        player = 'X'

if check_win(game_board, 'X'):
    print('X 승리!')
elif check_win(game_board, 'O'):
    print('O 승리!')
else:
    print('비겼습니다!')


----------------
|   ||   ||   |
----------------
|   ||   ||   |
----------------
|   ||   ||   |
----------------

----------------
| X ||   ||   |
----------------
|   ||   ||   |
----------------
|   ||   ||   |
----------------

----------------
| X ||   ||   |
----------------
|   || O ||   |
----------------
|   ||   ||   |
----------------

----------------
| X || X ||   |
----------------
|   || O ||   |
----------------
|   ||   ||   |
----------------

----------------
| X || X || O |
----------------
|   || O ||   |
----------------
|   ||   ||   |
----------------

----------------
| X || X || O |
----------------
|   || O ||   |
----------------
| X ||   ||   |
----------------

----------------
| X || X || O |
----------------
| O || O ||   |
----------------
| X ||   ||   |
----------------

----------------
| X || X || O |
----------------
| O || O || X |
----------------
| X ||   ||   |
----------------

----------------
| X || X || O |
----------------
| O || O || X

#### Time Complexity of Minimax Algorithm
- minimax 알고리즘은 DFS search를 보여준다.
- max_depth는 m이고 각 상태에서 가능한 행동의 수가 b일 때, 시간 복잡도는 $O(b^m)$이다.

### Heuristic Evaluation Function
- 미니맥스 알고리즘 : 탐색 공간 전체를 탐색하는 것을 가정
    - 하지만 실제로는 탐색 공간의 크기가 매우 커서 그렇게 할 수 없다.
    - 이때 탐색을 끝내야하는 시간에 도달하면 탐색을 중단하고 탐색 중인 상태에 대하여 휴리스틱 평가 함수(evaluation function)를 적용
    - 즉, 비단말 노드이지만 단말 노드에 도달한 것처럼 생각하는 것

## Alpha-Beta Pruning
- MiniMax 알고리즘에서 형성되는 탐색 트리 중에서 상당 부분은 결과에 영향을 주지 않으면서 가지들을 쳐낼 수 있다.
- 탐색을 할 때 알파값과 베타값이 자식 노드로 전달된다. 자식 노드에서는 알파값과 베타값을 비교하여 쓸떼없는 탐색을 중지한다.
    - `Max는 알파값만 업데이트, Min은 베타값만 업데이트`

- 알파 : MAX 플레이어의 가장 높은 값
    - 경로를 따라 찾은 최고의 선택이나 가장 높은 값
    - 초기값 : $-\infty$
- 베타 : MIN 플레이어의 가장 낮은 값
    - 경로를 따라 찾은 최고의 선택이나 가장 낮은 값
    - 초기값 : $+\infty$
- 알파-베타 가지치기 condition : $\alpha \geq \beta$ 이면 탐색 중지
- 규칙 : `알파와 베타값은 자식 노드에만 전달`, `노드 값은 알파와 베타의 값이 아닌 상위 노드로 전달`

### Summary
- 게임에서는 상대방이 탐색에 영향을 끼침 -> 이 경우 미니맥스 알고리즘을 사용하여 탐색 진행 -> 미니맥스 알고리즘은 상대방이 최선의 수를 둔다고 가정하는 알고리즘
- 두 명의 경기자 MAX와 MIN이 있으며, MAX는 평가 함수값이 최대인 자식 노드를 선택하고 MIN은 평가 함수값이 최소인 자식노드를 선택
- 탐색 트리의 어떤 부분은 제외하여도 결과에 영향을 주지 않는다. 이것을 알파베타 가지치기라고 한다.