# Phân Tích Heuristic cho AI Minimax trong Othello

Mục tiêu: khám phá các **heuristic** hiệu quả nhất để dẫn dắt thuật toán Minimax.

Nhiều AI agent, mỗi tác tử sử dụng các tổ hợp heuristic khác nhau, sẽ thi đấu đối đầu trực tiếp với nhau. Thông qua các trận đấu này, chúng tôi xác định được các heuristic mạnh nhất dẫn đến hiệu suất AI vượt trội và chiến lược chơi tối ưu.

---

## Phân Tích Lý Thuyết

Phân tích lý thuyết trong notebook này tập trung vào việc đánh giá các trận đấu. Cụ thể, chúng tôi tìm hiểu xem các AI agent (xét về heuristic, trọng số heuristic và độ sâu tìm kiếm) nào đạt được nhiều chiến thắng nhất. Dựa trên kết quả này, chúng tôi suy luận ra các chiến lược tạo nên các tác tử Othello AI vượt trội.

Giả thuyết:

- Kiểm soát góc là heuristic quan trọng nhất [1], vì giành được các ô góc là nền tảng trong chiến lược Othello [2].
- Kết hợp cả ba heuristic (sự chênh lệch quân, khả năng di chuyển, và kiểm soát góc) sẽ tạo nên AI mạnh nhất [3].

Phương pháp:

- Nhiều AI agent được đánh giá, mỗi tác tử sử dụng các tổ hợp heuristic khác nhau, thông qua các **trận đấu đối đầu trực tiếp**.
- Để đảm bảo công bằng, mỗi tác tử thi đấu với tất cả các tác tử khác *hai lần*, một lần với quân Đen và một lần với quân Trắng.
- Để đảm bảo công bằng, mọi tác tử Minimax đều có độ sâu được đặt là ba, tức là $d=3$. Ngoài ra, điều này còn phục vụ cho mục đích hiệu quả tính toán.
- Kết quả sẽ tạo thành một **cấu trúc giải đấu**, tương tự như định dạng phổ biến trong các giải bóng đá toàn cầu, theo kiểu "vòng tròn hai lượt".
- Để giữ mọi thứ đơn giản, phần lớn các tác tử sử dụng trọng số đồng đều và việc tối ưu trọng số sẽ được thực hiện trong các phân tích sau, tức là để tinh chỉnh hiệu suất AI.

### Tài liệu tham khảo

[1] Sannidhanam, A., & Muthukaruppan, A. (2004). '[An Analysis of Heuristics in Othello](https://courses.cs.washington.edu/courses/cse573/04au/Project/mini1/RUSSIA/Final_Paper.pdf)'.

[2] Rose, B. (2004). '[Othello: A Minute to Learn... A Lifetime to Master.](https://www.ffothello.org/livres/othello-book-Brian-Rose.pdf)' Anjar Co.

---


## Load Source Code

In [48]:
import os
import sys

project_root = os.path.abspath(os.path.join(os.getcwd(), '../..'))
os.chdir(project_root)

from src.gameLogic.game import Game
from src.gameLogic.board import SquareType
from src.gameLogic.player import Player, PlayerType
from src.ai.minimax.evaluator import StateEvaluator, HeuristicType
from tqdm import tqdm

## Initialise Players

In [49]:
agents = {}
depth = 3

agents['agent_0'] = {
    'black': Player(PlayerType.RANDOM, SquareType.BLACK),
    'white': Player(PlayerType.RANDOM, SquareType.WHITE)
}

custom_weights = {HeuristicType.DISC_DIFF: 1.0}
state_eval = StateEvaluator(weights=custom_weights)
agents['agent_1'] = {
    'black': Player(PlayerType.MINIMAX, SquareType.BLACK, state_eval, depth),
    'white': Player(PlayerType.MINIMAX, SquareType.WHITE, state_eval, depth)
}

custom_weights = {HeuristicType.DISC_DIFF: 0.1, HeuristicType.MOBILITY: 0.9, HeuristicType.CORNERS: 0.0}
state_eval = StateEvaluator(weights=custom_weights)
agents['agent_2'] = {
    'black': Player(PlayerType.MINIMAX, SquareType.BLACK, state_eval, depth),
    'white': Player(PlayerType.MINIMAX, SquareType.WHITE, state_eval, depth)
}

custom_weights = {HeuristicType.DISC_DIFF: 0.0, HeuristicType.MOBILITY: 0.1, HeuristicType.CORNERS: 0.9}
state_eval = StateEvaluator(weights=custom_weights)
agents['agent_3'] = {
    'black': Player(PlayerType.MINIMAX, SquareType.BLACK, state_eval, depth),
    'white': Player(PlayerType.MINIMAX, SquareType.WHITE, state_eval, depth)
}

custom_weights = {HeuristicType.DISC_DIFF: 0.5, HeuristicType.MOBILITY: 0.0, HeuristicType.CORNERS: 0.5}
state_eval = StateEvaluator(weights=custom_weights)
agents['agent_4'] = {
    'black': Player(PlayerType.MINIMAX, SquareType.BLACK, state_eval, depth),
    'white': Player(PlayerType.MINIMAX, SquareType.WHITE, state_eval, depth)
}

custom_weights = {HeuristicType.DISC_DIFF: 0.5, HeuristicType.MOBILITY: 0.5, HeuristicType.CORNERS: 0.0}
state_eval = StateEvaluator(weights=custom_weights)
agents['agent_5'] = {
    'black': Player(PlayerType.MINIMAX, SquareType.BLACK, state_eval, depth),
    'white': Player(PlayerType.MINIMAX, SquareType.WHITE, state_eval, depth)
}

custom_weights = {HeuristicType.DISC_DIFF: 0.15, HeuristicType.MOBILITY: 0.45, HeuristicType.CORNERS: 0.4}
state_eval = StateEvaluator(weights=custom_weights)
agents['agent_6'] = {
    'black': Player(PlayerType.MINIMAX, SquareType.BLACK, state_eval, depth),
    'white': Player(PlayerType.MINIMAX, SquareType.WHITE, state_eval, depth)
}

custom_weights = {
    HeuristicType.DISC_DIFF: 0.4,
    HeuristicType.MOBILITY: 0.3,
    HeuristicType.CORNERS: 0.3
}
state_eval = StateEvaluator(weights=custom_weights)
agents['agent_7'] = {
    'black': Player(PlayerType.MINIMAX, SquareType.BLACK, state_eval, depth),
    'white': Player(PlayerType.MINIMAX, SquareType.WHITE, state_eval, depth)
}

custom_weights = {
    HeuristicType.DISC_DIFF: 25/60,
    HeuristicType.MOBILITY: 5/60,
    HeuristicType.CORNERS: 30/60
}
state_eval = StateEvaluator(weights=custom_weights)
agents['agent_8'] = {
    'black': Player(PlayerType.MINIMAX, SquareType.BLACK, state_eval, depth),
    'white': Player(PlayerType.MINIMAX, SquareType.WHITE, state_eval, depth)
}

custom_weights = {
    HeuristicType.DISC_DIFF: 5/60,
    HeuristicType.MOBILITY: 15/60,
    HeuristicType.CORNERS: 40/60
}
state_eval = StateEvaluator(weights=custom_weights)
agents['agent_9'] = {
    'black': Player(PlayerType.MINIMAX, SquareType.BLACK, state_eval, depth),
    'white': Player(PlayerType.MINIMAX, SquareType.WHITE, state_eval, depth)
}

## Simulate Match Function

- Một hàm dùng để mô phỏng một trận đấu Othello giữa hai agent.
- Trả về tất cả thông tin liên quan, ví dụ như người thắng cuộc, điểm số, v.v.


In [50]:
def simulate_match(agent_black_name, agent_white_name):
    agent_black = agents.get(agent_black_name)
    agent_white = agents.get(agent_white_name)
    
    player_black = agent_black["black"]
    player_white = agent_white["white"]
    game = Game(player_black, player_white)
    
    while not game.is_finished:
        game.get_player_move() 
        game.make_move()
        game.change_turn()
        game.update_valid_moves()
        game.update_scores()
        game.check_finished()
    
    game.determine_winner()

    return {
        'game_result': game.game_result,
        'black_score': game.black_score,
        'white_score': game.white_score,
        'agent_black': agent_black_name,
        'agent_white': agent_white_name
    }

## Generate (All) Match Results Function

- Một hàm dùng để tạo kết quả trận đấu cho từng cặp đối đầu giữa các tác tử.  
- Trả về tất cả thông tin liên quan, ví dụ như người thắng cuộc, điểm số, v.v.

In [51]:
def generate_match_results():
    match_results = []
    agent_names = list(agents.keys())

    for i in tqdm(range(len(agent_names))):
        for j in tqdm(range(i + 1, len(agent_names))):
            print(f"Playing: {agent_names[i]} vs. {agent_names[j]}")
            
            result_1 = simulate_match(agent_names[i], agent_names[j])
            result_2 = simulate_match(agent_names[j], agent_names[i])
            
            match_results.append(result_1)
            match_results.append(result_2)

    return match_results

In [52]:
match_results = generate_match_results()

  0%|          | 0/10 [00:00<?, ?it/s]

Playing: agent_0 vs. agent_1




Playing: agent_0 vs. agent_2




Playing: agent_0 vs. agent_3




Playing: agent_0 vs. agent_4




Playing: agent_0 vs. agent_5




Playing: agent_0 vs. agent_6




Playing: agent_0 vs. agent_7




Playing: agent_0 vs. agent_8




Playing: agent_0 vs. agent_9


100%|██████████| 9/9 [07:43<00:00, 51.53s/it]
 10%|█         | 1/10 [07:43<1:09:33, 463.75s/it]

Playing: agent_1 vs. agent_2




Playing: agent_1 vs. agent_3




Playing: agent_1 vs. agent_4




Playing: agent_1 vs. agent_5




Playing: agent_1 vs. agent_6




Playing: agent_1 vs. agent_7




Playing: agent_1 vs. agent_8




Playing: agent_1 vs. agent_9


100%|██████████| 8/8 [07:12<00:00, 54.03s/it]
 20%|██        | 2/10 [14:56<59:21, 445.25s/it]  

Playing: agent_2 vs. agent_3




Playing: agent_2 vs. agent_4




Playing: agent_2 vs. agent_5




Playing: agent_2 vs. agent_6




Playing: agent_2 vs. agent_7




Playing: agent_2 vs. agent_8




Playing: agent_2 vs. agent_9


100%|██████████| 7/7 [10:05<00:00, 86.51s/it]
 30%|███       | 3/10 [25:01<1:00:29, 518.44s/it]

Playing: agent_3 vs. agent_4




Playing: agent_3 vs. agent_5




Playing: agent_3 vs. agent_6




Playing: agent_3 vs. agent_7




Playing: agent_3 vs. agent_8




Playing: agent_3 vs. agent_9


100%|██████████| 6/6 [05:24<00:00, 54.13s/it]
 40%|████      | 4/10 [30:26<44:11, 441.99s/it]  

Playing: agent_4 vs. agent_5




Playing: agent_4 vs. agent_6




Playing: agent_4 vs. agent_7




Playing: agent_4 vs. agent_8




Playing: agent_4 vs. agent_9


100%|██████████| 5/5 [04:37<00:00, 55.49s/it]
 50%|█████     | 5/10 [35:03<31:53, 382.66s/it]

Playing: agent_5 vs. agent_6




Playing: agent_5 vs. agent_7




Playing: agent_5 vs. agent_8




Playing: agent_5 vs. agent_9


100%|██████████| 4/4 [07:32<00:00, 113.15s/it]
 60%|██████    | 6/10 [42:36<27:05, 406.44s/it]

Playing: agent_6 vs. agent_7




Playing: agent_6 vs. agent_8




Playing: agent_6 vs. agent_9


100%|██████████| 3/3 [04:22<00:00, 87.40s/it]
 70%|███████   | 7/10 [46:58<17:57, 359.29s/it]

Playing: agent_7 vs. agent_8




Playing: agent_7 vs. agent_9


100%|██████████| 2/2 [02:56<00:00, 88.35s/it]
 80%|████████  | 8/10 [49:55<10:02, 301.16s/it]

Playing: agent_8 vs. agent_9


100%|██████████| 1/1 [00:45<00:00, 45.93s/it]
0it [00:00, ?it/s]/10 [50:41<03:41, 221.38s/it]
100%|██████████| 10/10 [50:41<00:00, 304.13s/it]


In [None]:
import pandas as pd

df_results = pd.DataFrame(match_results)
df_results.to_csv("src/experiments/match_results.csv")
df_results.head()

Unnamed: 0,game_result,black_score,white_score,agent_black,agent_white
0,Black Wins,37,27,agent_0,agent_1
1,Black Wins,54,1,agent_1,agent_0
2,White Wins,18,46,agent_0,agent_2
3,Black Wins,50,14,agent_2,agent_0
4,White Wins,0,53,agent_0,agent_3


- Chuyển đổi DataFrame kết quả trận đấu thành bảng xếp hạng giải đấu.

In [55]:

all_agents = pd.concat([df_results['agent_black'], df_results['agent_white']]).unique()

df_league = pd.DataFrame(index=all_agents)

df_league['Wins'] = (
    (df_results['game_result'] == 'Black Wins').groupby(df_results['agent_black']).sum() +
    (df_results['game_result'] == 'White Wins').groupby(df_results['agent_white']).sum()
)

df_league['Draws'] = (
    (df_results['game_result'] == 'Draw').groupby(df_results['agent_black']).sum() +
    (df_results['game_result'] == 'Draw').groupby(df_results['agent_white']).sum()
)

df_league['Losses'] = (
    (df_results['game_result'] == 'White Wins').groupby(df_results['agent_black']).sum() +
    (df_results['game_result'] == 'Black Wins').groupby(df_results['agent_white']).sum()
)

df_league['Points'] = df_league['Wins'] * 3 + df_league['Draws']

df_league.fillna(0, inplace=True)

df_league.sort_values(by='Points', ascending=False, inplace=True)

In [None]:
df_league.to_csv("src/experiments/league_table.csv")
df_league

Unnamed: 0,Wins,Draws,Losses,Points
agent_6,14,0,4,42
agent_3,14,0,4,42
agent_9,14,0,4,42
agent_2,11,0,7,33
agent_7,11,0,7,33
agent_5,9,0,9,27
agent_4,6,0,12,18
agent_1,4,0,14,12
agent_8,4,0,14,12
agent_0,3,0,15,9


**Main Finding:**

- `agent_9/agent_6/agent_3` là AI có hiệu suất mạnh nhất.

