# Connected Four - Projeto de Intelig√™ncia Artificial

Realizado pelos alunos:
- Rita Moreira (202303885);
- Pedro Gilvaia (202306975);
- Gon√ßalo Correia (202208527).

## 1. Introdu√ß√£o

O objetivo deste projeto √© implementar o algoritmo Monte Carlo Tree Search (MCTS) e uma √°rvore de decis√£o para cada dataset dado (iris.csv e o dataset gerado usando o MCTS), usando o algoritmo ID3. Usando esses procedimentos, ser√° ent√£o criado um programa capaz de jogar o Quatro em Linha (Connected Four) contra um humano.
Este notebook documenta todo o processo de implementa√ß√£o do jogo, incluindo: 
- explica√ß√µes das decis√µes tomadas em cada etapa;
- detalhes da gera√ß√£o de dados com MCTS;
- Treino da √°rvore de decis√£o com ID3;
- Integra√ß√£o dos algoritmos no jogo;
- Discuss√£o de resultados.

## 2. Descri√ß√£o do Problema

O Quatro em Linha √© um jogo de estrat√©gia de dois jogadores. S√£o usadas 42 pe√ßas, 21 para cada jogador, e um tabuleiro vertical com 7 colunas e 6 filas. A cada jogada, o jogador atual "deixa cair" a sua pe√ßa numa coluna √† sua escolha, desde que n√£o esteja cheia. Esta cai na linha dispon√≠vel. Um jogador ganha quando 4 das suas pe√ßas formarem uma linha horizontal, vertical ou diagonal consecutiva.

### 2.1. Implementa√ß√£o do Jogo

Abaixo segue-se a implementa√ß√£o das funcionalidades do jogo (connected_four.py). Mais tarde, ser√° apresentada a implementa√ß√£o do jogo em si (game.py), que utiliza todos os c√≥digos trabalhados no projeto (connected_four.py, mcts.py e decision_tree_builder.py).

#### __connected_four.py__

Importa√ß√µes necess√°rias:

In [None]:
from copy import deepcopy
import math

A classe `GameMeta` funciona como um container de constantes e par√¢metros globais que descrevem as regras b√°sicas e conven√ß√µes do jogo Connect Four na sua implementa√ß√£o. 

In [None]:
class GameMeta:
    # dicion√°rio que mapeia nomes de jogador para valores usados no jogo
    PLAYERS = {'none': 0, 'one': 1, 'two': 2} 
    # dicion√°rio que mapeia resultados poss√≠veis de uma partida
    OUTCOMES = {'none': 0, 'one': 1, 'two': 2, 'draw': 3}
    # constante que representa "infinito" em pontua√ß√µes ou limites
    INF = float('inf')
    # defini√ß√£o do tamanho do tabuleiro (ROWS x COLS)
    ROWS = 6
    COLS = 7

A classe `MCTSMeta` define o coeficiente de explora√ß√£o (c). Tem como papel balancear o teste de ramos menos visitados para descobrir se possuem bons resultados (exploit) e a escolha do ramo com maior valor m√©dio $\frac{Q}{N}$. Um c grande amplia a explora√ß√£o de n√≥s (explore) e um c pequeno prioriza o valor $\frac{Q}{N}$ (exploit).

In [None]:
class MCTSMeta:
    EXPLORATION = 1.4

A classe `ConnectState` representa o estado de um jogo. A fun√ß√£o `__init__` √© um construtor da classe, e inicializa o tabuleiro, o jogador atual, a altura de cada coluna e a √∫ltima jogada feita.

Possui atributos como:
- `board`: matriz 6x7 com valores 0 (vazio), 1(jogador 1) e 2 (jogador 2);
- `to_play`: identificador do jogador que jogar√° a seguir;
- `height`: lista de √≠ndices da pr√≥xima linha livre em cada coluna
- `last_played`: par [linha, coluna] da √∫ltima jogada.

In [None]:
class ConnectState:
    def __init__(self):
        # Inicializa o tabuleiro com zeros (vazio)
        self.board = [[0] * GameMeta.COLS for _ in range(GameMeta.ROWS)]
        # Inicializa o jogador atual como 'one' (1)
        self.to_play = GameMeta.PLAYERS['one']
        # Inicializa a altura de cada coluna como o n√∫mero de linhas menos 1 (posi√ß√£o inicial)
        self.height = [GameMeta.ROWS - 1] * GameMeta.COLS
        # Inicializa a lista de a√ß√µes jogadas como nula
        self.last_played = []


A fun√ß√£o `get_board` retorna uma c√≥pia do tabuleiro atual.

In [None]:
def get_board(self):
        return deepcopy(self.board)

A fun√ß√£o `move` executa um movimento numa coluna espec√≠fica e atualiza o estado de jogo. Se a coluna estiver cheia, surge um `ValueError`. Possui como par√¢metro a coluna onde o jogador quer jogar.

In [None]:
def move(self, col):
        # Verifica se a coluna est√° cheia
        if self.height[col] < 0:
            raise ValueError(f"Coluna {col} j√° est√° cheia!")  # Ou apenas retorna False ou trata o erro de forma apropriada
        self.board[self.height[col]][col] = self.to_play
        self.last_played = [self.height[col], col]
        self.height[col] -= 1
        self.to_play = GameMeta.PLAYERS['two'] if self.to_play == GameMeta.PLAYERS['one'] else GameMeta.PLAYERS['one']

A fun√ß√£o `get_legal_moves` retorna uma lista dos √≠ndices das colunas onde ainda √© poss√≠vel jogar, isto √©, que n√£o estejam cheias. 

In [None]:
def get_legal_moves(self):
        return [col for col in range(GameMeta.COLS) if self.board[0][col] == 0]

A fun√ß√£o `check_win` verifica se o jogador atual venceu. Se sim, retorna o c√≥digo do mesmo (1 ou 2, dependendo do jogador). Se n√£o houver vit√≥ria, retorna 0.

In [None]:
def check_win(self):
        if len(self.last_played) > 0 and self.check_win_from(self.last_played[0], self.last_played[1]):
            return self.board[self.last_played[0]][self.last_played[1]]
        return 0

A fun√ß√£o `check_win_from` verifica se h√° "quatro em linha" a partir da posi√ß√£o (row, col) em todas as dire√ß√µes: horizontal, vertical, diagonal principal e diagonal secund√°ria. Se sim, retorna True. Caso contr√°rio, retorna False. Tem como par√¢metros a linha (`row`) e a coluna (`col`) da √∫ltima jogada.

In [None]:
def check_win_from(self, row, col):
        player = self.board[row][col]
        consecutive = 1
        # Check horizontal
        tmprow = row
        while tmprow + 1 < GameMeta.ROWS and self.board[tmprow + 1][col] == player:
            consecutive += 1
            tmprow += 1
        tmprow = row
        while tmprow - 1 >= 0 and self.board[tmprow - 1][col] == player:
            consecutive += 1
            tmprow -= 1

        if consecutive >= 4:
            return True

        # Check vertical
        consecutive = 1
        tmpcol = col
        while tmpcol + 1 < GameMeta.COLS and self.board[row][tmpcol + 1] == player:
            consecutive += 1
            tmpcol += 1
        tmpcol = col
        while tmpcol - 1 >= 0 and self.board[row][tmpcol - 1] == player:
            consecutive += 1
            tmpcol -= 1

        if consecutive >= 4:
            return True

        # Check diagonal
        consecutive = 1
        tmprow = row
        tmpcol = col
        while tmprow + 1 < GameMeta.ROWS and tmpcol + 1 < GameMeta.COLS and self.board[tmprow + 1][tmpcol + 1] == player:
            consecutive += 1
            tmprow += 1
            tmpcol += 1
        tmprow = row
        tmpcol = col
        while tmprow - 1 >= 0 and tmpcol - 1 >= 0 and self.board[tmprow - 1][tmpcol - 1] == player:
            consecutive += 1
            tmprow -= 1
            tmpcol -= 1

        if consecutive >= 4:
            return True

        # Check anti-diagonal
        consecutive = 1
        tmprow = row
        tmpcol = col
        while tmprow + 1 < GameMeta.ROWS and tmpcol - 1 >= 0 and self.board[tmprow + 1][tmpcol - 1] == player:
            consecutive += 1
            tmprow += 1
            tmpcol -= 1
        tmprow = row
        tmpcol = col
        while tmprow - 1 >= 0 and tmpcol + 1 < GameMeta.COLS and self.board[tmprow - 1][tmpcol + 1] == player:
            consecutive += 1
            tmprow -= 1
            tmpcol += 1

        if consecutive >= 4:
            return True

        return False


A fun√ß√£o `game_over` verifica se o jogo acabou, retornando um valor booleano consoante o resultado.

In [None]:
def game_over(self):
        return self.check_win() or len(self.get_legal_moves()) == 0

A fun√ß√£o `get_outcome` retorna o c√≥digo de resultado (outcome) da partida. Se for vit√≥ria retorna 1 ou 2, dependendo do jogador vencedor. Se for empate retorna 3. 

In [None]:
def get_outcome(self):
        if len(self.get_legal_moves()) == 0 and self.check_win() == 0:
            return GameMeta.OUTCOMES['draw']

        return GameMeta.OUTCOMES['one'] if self.check_win() == GameMeta.PLAYERS['one'] else GameMeta.OUTCOMES['two']


Por √∫ltimo, a fun√ß√£o `print` exibe o tabuleiro no terminal e substitui o n√∫mero que est√° na matriz (tabuleiro) pela pe√ßa de jogo ou espa√ßo vazio:
- ' ' (espa√ßo) substitui o 0;
- X substitui o 1;
- O substitui o 2.

In [None]:

def print(self):
    print('=============================')

    for row in range(GameMeta.ROWS):
        for col in range(GameMeta.COLS):
            print('| {} '.format('X' if self.board[row][col] == 1 else 'O' if self.board[row][col] == 2 else ' '), end='')
        print('|')

    print('=============================')

## 3. Metodologia e sua implementa√ß√£o

### 3.1. Monte Carlo Tree Search (MCTS)

O MCTS √© um algoritmo de busca adversarial que leva em considera√ß√£o as altera√ß√µes de estado causadas por um advers√°rio nas etapas subsequentes. A sua implementa√ß√£o utiliza o crit√©rio Upper Confidence Bound (UCT) para avaliar cada ramo de uma √°rvore, de f√≥rmula:
$$
UCT = \frac{Q}{N} + c\sqrt{\frac{In{N_{parent}}}{N}}
$$
O MCTS tem quatro fases:
- Sele√ß√£o: Come√ßa na raiz e, em cada n√≥, escolhe o filho que maximiza o UCT at√© atingir um n√≥ ainda n√£o totalmente expandido;
- Expans√£o:  A partir do n√≥ selecionado, gera um dos estados-filho ainda n√£o representados na √°rvore, adicionando-o como novo n√≥;
- Simula√ß√£o: A partir desse n√≥ rec√©m-criado, executa um jogo at√© ao fim (playout), usando uma pol√≠tica aleat√≥ria ou heur√≠stica, obtendo um resultado (vit√≥ria/derrota);
- Retropropaga√ß√£o (Backpropagation): Propaga o resultado da simula√ß√£o de volta √† raiz, atualizando em cada n√≥ visitado. Nesses n√≥s, a contagem de visitas aumenta 1 valor e contagem de vit√≥rias aumenta o valor do resultado (0 se perdeu, 1 se ganhou).


#### __mcts.py__

Importa√ß√µes necess√°rias:

In [None]:
import random
import time
import math
from copy import deepcopy

from connected_four import ConnectState, GameMeta, MCTSMeta

A classe Node representa um n√≥ de uma √°rvore de pesquisa Monte Carlo. A fun√ß√£o `__init__` inicializa um n√≥ e seus atributos:
- `move`: jogada que levou ao n√≥ atual;
- `parent`: n√≥ pai da √°rvore (a razi tem parent=None);
- `N`: n√∫mero de visitas;
- `Q`: Soma das recompensas (vit√≥rias) obtidas deste n√≥;
- `children`: mapeia jogadas para n√≥s-filho;
- `outcome`: estado de resultado no n√≥ (0=nenhum, 1=jogador1, 2=jogador2).

In [None]:
class Node:
    def __init__(self, move, parent):
        self.move = move
        self.parent = parent
        self.N = 0
        self.Q = 0
        self.children = {}
        self.outcome = GameMeta.PLAYERS['none']


A fun√ß√£o `add_children` adiciona n√≥s-filho a partir de um dicion√°rio (par√¢metro).

In [None]:
def add_children(self, children: dict) -> None:
        for child in children:
            self.children[child.move] = child

A fun√ß√£o `get_exploration` calcula dinamicamente e retorna o coeficiente da explora√ß√£o `c` para UCT. Baseia-se no n√∫mero de visitas do n√≥ pai e o valor diminui consoante a raiz quadrada desse n√∫mero, levando a uma explora√ß√£o maior no in√≠cio e mais leve no final.

In [None]:
def get_exploration(self) -> float:
        c0 = MCTSMeta.EXPLORATION #1.4
        if self.parent is not None:
            root_visits = self.parent.N 
            alpha = 0.2
            return c0 / (1 +  alpha * math.log(1 + root_visits))
        

A fun√ß√£o `value` calcula e retorna o valor UCT do n√≥ para a sele√ß√£o. Utiliza como par√¢metro o coeficiente inicial de explora√ß√£o: 1.4.

In [None]:

def value(self, explore: float = MCTSMeta.EXPLORATION):
    if self.N == 0:
        return GameMeta.INF # for√ßar explora√ß√£o de n√≥s n√£o visitados
    else: #dynamic c
        c_now = self.get_exploration()
        return self.Q / self.N + c_now * math.sqrt(math.log(self.parent.N) / self.N)

A classe MCTS implementa o algoritmo para o Connected Four. A fun√ß√£o `__init__` inicializa o MCTS com um estado inicial, que provem da classe ConnectedState.  Tem como atributos:
- `root_state`: estado de jogo na raiz;
- `root`: n√≥ raiz da √°rvore de busca;
- `run_time`: tempo gasto na √∫ltima pesquisa (segundos de CPU);
- `num_rollouts`: n√∫mero de simula√ß√µes executadas na √∫ltima pesquisa.

In [None]:
class MCTS:
    def __init__(self, state=ConnectState()):
        self.root_state = deepcopy(state)
        self.root = Node(None, None)
        self.run_time = 0
        self.node_count = 0
        self.num_rollouts = 0

A primeira fase do MCTS √© a sele√ß√£o, representada pela fun√ß√£o `select_node`. Esta seleciona um n√≥ a ser expandido com base no UCT, at√© que um n√≥ n√£o visitado seja encontrado ou o jogo acabe. Retorna um tuplo, com o n√≥ selecionado e o estado de jogo.

In [None]:
def select_node(self) -> tuple:
        node = self.root
        state = deepcopy(self.root_state)

        # Se o n√≥ n√£o tiver filhos, expande-o
        while len(node.children) != 0:
            # escolher o filho com maior valor UCT
            children = node.children.values()
            max_value = max(children, key=lambda n: n.value()).value()
            max_nodes = [n for n in children if n.value() == max_value]

            node = random.choice(max_nodes)
            state.move(node.move)

            if node.N == 0:
                return node, state
        # se o n√≥ n√£o for terminal, expande-o
        if self.expand(node, state):
            node = random.choice(list(node.children.values()))
            state.move(node.move)

        return node, state

A segunda fase √© a expans√£o. A fun√ß√£o `expand` cria filhos para o n√≥ pai com base nas jogadas dispon√≠veis. Se o estado for terminal, i.e., n√£o houver expans√£o poss√≠vel, retorna False. Tem como par√¢metros:
- `parent` (N√≥): n√≥ pai a ser expandido;
- `state` (ConnectState): estado atual do jogo.

In [None]:
def expand(self, parent: Node, state: ConnectState) -> bool:
        if state.game_over():
            return False

        children = [Node(move, parent) for move in state.get_legal_moves()]
        parent.add_children(children)

        return True

A terceira fase √© a de simula√ß√£o. A fun√ß√£o correspondente, `roll_out`, joga aleatoriamente at√© ao fim do jogo e retorna o resultado do mesmo. Utiliza como argumento o estado do jogo.

In [None]:
def roll_out(self, state: ConnectState) -> int:
        while not state.game_over():
            moves = state.get_legal_moves()
            player = state.to_play
            opp = 3 - player
            # Vit√≥ria imediata
            for m in moves:
                s2 = deepcopy(state)
                s2.move(m)
                if s2.game_over() and s2.get_outcome() == player:
                    state.move(m)
                    break
            else:
                # Bloqueio de amea√ßas advers√°rias
                blocked = False
                for m in moves:
                    s2 = deepcopy(state)
                    s2.move(m)
                    for m2 in s2.get_legal_moves():
                        s3 = deepcopy(s2)
                        s3.move(m2)
                        if s3.game_over() and s3.get_outcome() == opp:
                            state.move(m)
                            blocked = True
                            break
                    if blocked:
                        break
                if not blocked:
                    state.move(random.choice(moves))

        return state.get_outcome()

A √∫ltima fase √© a de Backpropagation (retropropaga√ß√£o). Tem como fun√ß√£o `back_propagate`, que atualiza os valores de `N` e `Q` dos n√≥s visitados. Tem como par√¢metros:
- `node` (N√≥): n√≥ onde terminou a simula√ß√£o;
- `turn` (int): jogador que fez a √∫ltima jogada;
- `outcome` (int): resultado do jogo (1,2 ou 3).

In [None]:
def back_propagate(self, node: Node, turn: int, outcome: int) -> None:
        #recompensa relativa ao jogador 'turn'
        reward = 0 if outcome == turn else 1

        while node is not None:
            node.N += 1
            node.Q += reward
            node = node.parent
            if outcome == GameMeta.OUTCOMES['draw']:
                reward = 0
            else:
                reward = 1 - reward

Para executar simula√ß√µes do MCTS por um tempo limitado √© usada a fun√ß√£o `search`. Tem como par√¢metro o `time_limit`, que guarda o temlo m√°ximo de CPU escolhido para as simula√ß√µes.

In [None]:
def search(self, time_limit: int):
        start_time = time.process_time()

        num_rollouts = 0
        while time.process_time() - start_time < time_limit:
            node, state = self.select_node()
            outcome = self.roll_out(state)
            self.back_propagate(node, state.to_play, outcome)
            num_rollouts += 1

        run_time = time.process_time() - start_time
        self.run_time = run_time
        self.num_rollouts = num_rollouts

√â utilizada a fun√ß√£o `best_move` para determinar qual √© a melhor jogada de momento, com base em `N`, a partir da raiz. Se o jogo j√° n√£o tiver acabado, retorna a coluna escolhida. Se sim, retorna -1.

In [None]:
def best_move(self):
        if self.root_state.game_over():
            return -1

        max_value = max(self.root.children.values(), key=lambda n: n.N).N
        max_nodes = [n for n in self.root.children.values() if n.N == max_value]
        best_child = random.choice(max_nodes)

        return best_child.move

Para a raiz ser atualizada, √© usada a fun√ß√£o `move`, de par√¢metro a coluna onde o jogador jogou (`move`).

In [None]:
def move(self, move):
        if move in self.root.children:
            self.root_state.move(move)
            self.root = self.root.children[move]
            return

        self.root_state.move(move)
        self.root = Node(None, None)

Por √∫ltimo, a fun√ß√£o `statistics` retorna as estat√≠sticas da √∫ltima pesquisa:
- o n√∫mero de simula√ß√µes feitas;
- o tempo de CPU gasto nas mesmas.

In [None]:
def statistics(self) -> tuple:
    return self.num_rollouts, self.run_time

### 3.2. Gera√ß√£o do dataset

Usando o algoritmo MCTS, foi gerado um dataset para treinar uma √°rvore de decis√£o, abordada de seguida. Este c√≥digo simula m√∫ltiplas partidas de Connect Four usando o MCTS para gerar um conjunto de exemplos (estado, movimento) que servir√£o de treino para a √°rvore de decis√£o ID3. Cada linha do dataset cont√©m 42 atributos (o tabuleiro achatado) seguidos da coluna escolhida pelo MCTS como 'move'.

Importa√ß√µes necess√°rias:

In [None]:
import random
import numpy as np
from mcts import MCTS
from connected_four import ConnectState, GameMeta, MCTSMeta

A fun√ß√£o `save_dataset` recebe a lista de tuplos `dataset` e o nome do ficheiro de sa√≠da, e salva-a como um ficheiro CSV com cabe√ßalho. O CSV gerado ter√° colunas 's0',...,'s41' e 'move'. O CSV gerado ter√° colunas 's0'...'s41' e 'move'.

In [None]:
def save_dataset(dataset, filename='mcts_dataset.csv'):
    with open(filename, 'w') as f:
        # Cabe√ßalho com 42 features e o r√≥tulo move
        f.write(','.join([f's{i}' for i in range(42)]) + ',move\n')
        for state, move in dataset:
            f.write(','.join(map(str, state)) + f',{move}\n')

A fun√ß√£o `generate_mcts_dataset` gera um dataset de pares (estados, movimento) usando o MCTS. Tem como par√¢metro o n√∫mero de partidas a simular (`num_games`) e retorna uma lista de tuplos (`board_flat`, `move`). Cada estado `board_flat` √© uma lista de 42 inteiros representando o tabuleiro, seguido de `move` (coluna escolhida pelo MCTS). O MCTS recebe um tempo de busca vari√°vel: 3 segundos por jogada inicial e, ap√≥s 10 jogadas, passa a 1.5 segundos. A fun√ß√£o salva o dataset parcialmente a cada 10 jogos.

In [None]:
def generate_mcts_dataset(num_games=1000):
    dataset = []

    for game_idx in range(num_games):
        print(f"\nüéÆ Jogo {game_idx + 1} de {num_games}")
        state = ConnectState()
        mcts = MCTS(state)
        total_moves = 0  # contador de jogadas
        mcts.search(time_limit=3)  # Tempo inicial para explora√ß√£o mais profunda

        while not state.game_over():
            legal_moves = state.get_legal_moves()
            move = mcts.best_move()
            # Verifica e corrige movimento ilegal, se houver
            if move not in legal_moves:
                print(f"[!] Movimento ilegal sugerido: {move}")
                move = random.choice(legal_moves)

            try:
                 # Flatten do tabuleiro antes de aplicar a jogada
                board_flat = [cell for row in state.get_board() for cell in row]
                dataset.append((board_flat, move))
                # Aplica jogada no estado e no MCTS
                state.move(move)
                mcts.move(move)
                total_moves += 1
                # Ajuste de tempo por jogada ap√≥s 10 movimentos
                if not state.game_over():
                    time_limit = 3 if total_moves < 10 else 1.5
                    mcts.search(time_limit=time_limit)

            except ValueError as e:
                print(f"[Erro] Movimento inv√°lido: {e}")
                break

        print(f"‚úîÔ∏è Jogo {game_idx + 1} conclu√≠do ‚Äî total de jogadas salvas: {len(dataset)}")

        # Salvamento parcial a cada 10 jogos
        if (game_idx + 1) % 10 == 0:
            save_dataset(dataset, filename='mcts_dataset_parcial.csv')
            print(f"üíæ Dataset parcial salvo com {len(dataset)} jogadas.")

    return dataset

Ap√≥s isso, √© poss√≠vel fazer execu√ß√£o direta do gerador e salvar o dataset final. Neste caso foram escolhidos 1000 jogos, para ter boas informa√ß√µes e a √°rvore de decis√£o ser robusta.

In [None]:
# Gera√ß√£o e salvamento
if __name__ == "__main__":
    dataset = generate_mcts_dataset(num_games=1000)
    save_dataset(dataset)
    print(f"\n‚úÖ Dataset final salvo com {len(dataset)} exemplos!")


### 3.3. √Årvores de Decis√£o

Para o segundo m√©todo, foi utilizado um dataset (`iris.csv`) para testar ("warm-up") o algoritmo ID3. √â um dataset mais pequeno, de contexto diferente, que tem como tarefa gerar/treinar uma √°rvore de decis√£o que, dadas quatro caracter√≠sticas (comprimento e largura da p√©tala, comprimento e largura da s√©pala), determine a que classe cada planta pertence (Iris setosa, Iris virginica ou Iris versicolor).
Ap√≥s esse teste, o objetivo √© gerar uma √°rvore de decis√£o associada √† implementa√ß√£o do algoritmo MCTS. √â gerado um conjunto de pares ($state_{i}, move_{i}$), em que $state_{i}$ √© o estado corrente do jogo e $move_{i}$ √© o pr√≥ximo movimento sugerido pelo algoritmo. Com esse dataset (`mcts_dataset.csv`), √© treinada uma √°rvore de decis√£o usando o algoritmo ID3 (Iterative Dichotomiser 3), de forma a que, dado um estado de jogo, a √°rvore escolha o pr√≥ximo movimento.
Abaixo ser√£o apresentadas os ficheiros decision_tree_builder.py, que implementa o algoritmo ID3, e `iris_test.py`, que aplica esse algoritmo no seu dataset.


#### __decision_tree_builder.py__

Importa√ß√µes necess√°rias:

In [None]:
import pandas as pd
import numpy as np
import pickle
from collections import Counter

A classe Node representa um n√≥ numa √°rvore de decis√£o ID3. A fun√ß√£o `__init__` inicializa o n√≥ da √°rvore e tem como atributos:
- `feature`: nome ou √≠ndice da feature usada para dividir neste n√≥ (None se folha);
- `children`: mapeamento do valor de feature para n√≥s-filho;
- `label`: R√≥tulo da classe se este n√≥ for folha (None caso contr√°rio).

In [None]:
class Node:
    def __init__(self, feature=None, children=None, label=None):
        self.feature = feature
        self.children = children if children is not None else {}
        self.label = label

A fun√ß√£o `entropy` calcula e retorna a entropia de Shannon de um vetor/s√©rie de r√≥tulos `y` (par√¢metro). A entropia pode ser calculada usando a f√≥rmula:
$$ H(y) = -\sum_{i} p_i \cdot \log_2(p_i) $$

In [None]:
def entropy(y):
    counts = Counter(y)
    probabilities = [count / len(y) for count in counts.values()]
    return -sum(p * np.log2(p) for p in probabilities if p > 0)

A fun√ß√£o `information_gain` calcula e retorna o ganho de informa√ß√£o ao dividir X e y pela feature especificada. Tem como par√¢metros:
- `X`: DataFrame de atributos;
- `y`: S√©rie de r√≥tulos/classes;
- `feature`: nome da coluna de X a avaliar.
Este valor pode ser, ent√£o, calculado pela f√≥rmula:
$$ IG = H(y) - \sum_{j} \frac{|S_j|}{|S|} \cdot H(S_j) $$

In [None]:
def information_gain(X, y, feature):
    values = X[feature].unique()
    weighted_entropy = 0

    for v in values:
        subset_y = y[X[feature] == v]
        weighted_entropy += (len(subset_y) / len(y)) * entropy(subset_y)

    return entropy(y) - weighted_entropy

A principal fun√ß√£o para a cria√ß√£o de uma √°rvore de decis√£o √© o algoritmo `id3` (Iterative Dichotomiser 3), que retorna o n√≥ raiz da √°rvore de decis√£o. Tem como par√¢metros:
- `X`: Dataframe de atributos;
- `y`: S√©rie de r√≥tulos/classes correspondente;
- `features`: Lista de colunas ainda dispon√≠veis para divis√£o;
- `depth`: Profundidade atual da √°rvore;
- `max_depth`: Profundidade m√°xima permitida.

In [None]:
def id3(X, y, features, depth=0, max_depth=15):
    # crit√©rios de paragem: pureza, sem features ou profundidade m√°xima
    if len(set(y)) == 1 or len(features) == 0 or depth == max_depth:
        return Node(label=y.iloc[0])
    
    if len(features) == 0:
        most_common_label = y.mode()[0]
        return Node(label=most_common_label)
    #escolha de melhor feature
    gains = [information_gain(X, y, f) for f in features]
    best_feature = features[np.argmax(gains)]

    node = Node(feature=best_feature)
    feature_values = X[best_feature].unique()
    #recurs√£o para cada valor da feature escolhida
    for value in feature_values:
        subset_X = X[X[best_feature] == value]
        subset_y = y[X[best_feature] == value]

        if len(subset_y) == 0:
            # nenhum exemplo com esse valor
            most_common_label = y.mode()[0]
            child = Node(label=most_common_label)
        else:
            #continua a recurs√£o sem a feature escolhida
            remaining_features = [f for f in features if f != best_feature]
            child = id3(subset_X, subset_y, remaining_features, depth+1, max_depth)

        node.children[value] = child

    return node

A fun√ß√£o `majority_vote` ocorre quando existem ramos nunca vistos durante a previs√£o (`predict`), fazendo assim uma vota√ß√£o majorit√°ria nos descendentes. Tem como par√¢metro o n√≥ atual da √°rvore de decis√£o e retorna a classe mais comum entre os filhos, ou `None` se n√£o houver filhos.

In [None]:
def majority_vote(node):
    labels = []
    def collect_labels(subnode):
        if subnode.label is not None:
            labels.append(subnode.label)
        else:
            for child in subnode.children.values():
                collect_labels(child)
    collect_labels(node)
    if labels:
        return Counter(labels).most_common(1)[0][0]
    else:
        return None

Por fim, a fun√ß√£o `predict` prediz a classe de um exemplo usando a √°rvore de decis√£o. Tem como par√¢metros:
- `tree`: o n√≥ raiz da √°rvore;
- `sample`: a classe prevista, ou `None` se n√£o houver previs√£o.

Retorna a `sample`.

In [None]:
def predict(tree, sample):
    while tree.label is None:
        value = sample.get(tree.feature)
        if value in tree.children:
            tree = tree.children[value]
        else:
            # Valor nunca visto ‚Äî retorna o valor de maior ocorr√™ncia entre os filhos
            # ou uma jogada aleat√≥ria segura
            if tree.children:
                return majority_vote(tree)
            else:
                return None
    return tree.label

Ap√≥s a implementa√ß√£o das fun√ß√µes, segue-se a cria√ß√£o da √°rvore. 
Come√ßa-se por carregar os dados discretizados do dataset gerado: 

In [None]:
# Carrega dados discretizados
data = pd.read_csv("mcts_dataset.csv")
X = data.iloc[:, :-1]
y = data.iloc[:, -1]
features = X.columns.tolist()

Ap√≥s isso, treina-se (cria-se) a √°rvore de decis√£o usando a fun√ß√£o `id3` e testa-se a mesma com a fun√ß√£o `predict`, calculando a acur√°cia desse teste:

In [None]:
# Treina a √°rvore de decis√£o
tree = id3(X, y, features)

# Testa a √°rvore de decis√£o
sample = X.iloc[0].to_dict()  # primeira linha como dict
predicted_label = predict(tree, sample)
actual_label = y.iloc[0]

correct = 0
for i in range(len(X)):
    sample = X.iloc[i].to_dict()
    prediction = predict(tree, sample)
    if prediction == y.iloc[i]:
        correct += 1

accuracy = correct / len(X)
# print(f"Accuracy on training data: {accuracy:.2%}")

Por √∫ltimo, exporta-se a √°rvore de decis√£o, usando a biblioteca `pickle`, para ser usada mais tarde no ficheiro `game.py`:

In [None]:
# Exporta a √°rvore de decis√£o
with open("decision_tree.pkl", "wb") as f:
    pickle.dump(tree, f)

#### __iris_test.py__

Importa√ß√µes necess√°rias:

In [None]:
import pandas as pd
import pickle
from decision_tree_builder import id3, predict, Node

√â necess√°rio, inicialmente, carregar e discretizar os dados do dataset `iris.csv`. A fun√ß√£o `discretize` discretiza uma coluna num n√∫mero fixo de bins e retorna a coluna com os valores discretizados. Tem como par√¢metros:
- `col`: Coluna a discretizar;
- `n_bins`: Nr de bins (default: 3).

In [None]:
# Carregamento e discretiza√ß√£o dos dados do dataset iris.csv
df = pd.read_csv('iris.csv')

def discretize(col, n_bins=3):
    return pd.cut(col, bins=n_bins, labels=[f'bin{i}' for i in range(n_bins)])

# Discretiza todas as colunas, exceto a √∫ltima (r√≥tulo)
for col in df.columns[:-1]:
    df[col] = discretize(df[col])

Ap√≥s isso, s√£o preparados os atributos e r√≥tulos, tal como a divis√£o dos valores em treino e teste (70% de treino e 30% de teste).

In [None]:
# Prepara√ß√£o de atributos e r√≥tulos
X = df.iloc[:, :-1]
y = df.iloc[:, -1]
features = X.columns.tolist()

# Divis√£o em treino e teste (70% treino, 30% teste)
df_shuffled = df.sample(frac=1).reset_index(drop=True)
split_idx = int(len(df_shuffled) * 0.7)
train = df_shuffled.iloc[:split_idx].reset_index(drop=True)
test = df_shuffled.iloc[split_idx:].reset_index(drop=True)

X_train, y_train = train.iloc[:, :-1], train.iloc[:, -1]
X_test, y_test = test.iloc[:, :-1], test.iloc[:, -1]

Com eses valores, podemos treinar a √°rvore de decis√£o, com a fun√ß√£o `id3` e export√°-la, caso seja necess√°rio:

In [None]:
# treino da √°rvore de decis√£o
tree = id3(X_train, y_train, features)

# Serializa√ß√£o da √°rvore de decis√£o com pickle
with open('iris_tree.pkl', 'wb') as f:
    pickle.dump(tree, f)
print("Decision tree serialized to iris_tree.pkl")

Por √∫ltimo, a fun√ß√£o `print_tree` imprime a √°rvore de decis√£o de forma recursiva e tem como par√¢metros:
- `node` (N√≥): n√≥ atual da √°rvore de decis√£o;
- `depth`: profundidade atual da √°rvore.

In [None]:
# Fun√ß√£o para imprimir a √°rvore de decis√£o
def print_tree(node: Node, depth=0):
    '''
    Exibe a estrutura da √°rvore de decis√£o de forma recursiva
    Par√¢metros:
    node (Node) - n√≥ atual da √°rvore de decis√£o
    depth (int) - profundidade atual da √°rvore
    '''
    indent = '  ' * depth
    if node.label is not None:
        print(f"{indent}‚Üí Label: {node.label}")
    else:
        feat_name = features[node.feature] if isinstance(node.feature, int) else node.feature
        print(f"{indent}Feature: {feat_name}")
        for value, child in node.children.items():
            print(f"{indent}  If == {value}:")
            print_tree(child, depth+2)

Ap√≥s isso, basta chamar essa fun√ß√£o e, por fim, avaliar a acur√°cia do conjunto de teste.

In [None]:
# Exibe a estrutura da √°rvore de decis√£o gerada
print("\nDecision Tree Structure:")
print_tree(tree)

# Avalia a acur√°cia no conjunto de teste
correct = 0
for idx, row in X_test.iterrows():
    sample = row.to_dict()
    pred = predict(tree, sample)
    true_label = y_test.loc[idx]
    if pred == true_label:
        correct += 1
accuracy = correct / len(X_test)
print(f"\nAccuracy: {accuracy:.2%}")

## 4. Integra√ß√£o no Jogo

Usando os c√≥digos acima apresentados, √© ent√£o poss√≠vel recriar o jogo Quatro em Linha. Em baixo est√° o c√≥digo final, que importa todos os anteriores.

#### __game.py__

Importa√ß√µes necess√°rias:

In [None]:
from connected_four import ConnectState, GameMeta  # Representa o estado do jogo e a inicializa√ß√£o do jogo
from mcts import MCTS                   # Implementa o algoritmo MCTS
import pickle # usado para manipular a √°rvore de decis√£o
from decision_tree_builder import predict  # Importa a fun√ß√£o de previs√£o da √°rvore de decis√£o

As classes `RestartGameException` e `QuitGameException` s√£o exce√ß√µes espec√≠ficas para controlar o fluxo do jogo, e permitem reiniciar ou sair do mesmo de forma controlada.

In [None]:
class RestartGameException(Exception):
    pass

class QuitGameException(Exception):
    pass

Para utilizar a √°rvore de decis√£o no jogo √© necess√°rio, primeiramente, de a carregar, usando o `pickle`:

In [None]:
# carregamento da √°rvore de decis√£o (ficheiro .pkl)
with open("decision_tree.pkl", "rb") as f:
    decision_tree = pickle.load(f)

A fun√ß√£o `safe_int_input` l√™ inteiros de forma a tratar de inputs diferentes como `restart` e `quit`, ou erros.

In [None]:
#L√™ inteiros com tratamento para "restart" e "quit"
def safe_int_input(prompt):
    while True:
        try:
            value = input(prompt)
            if value.lower() == 'restart':
                raise RestartGameException
            if value.lower() == 'quit':
                raise QuitGameException
            return int(value)
        except ValueError:
            print("Entrada inv√°lida. Por favor insira um n√∫mero inteiro.")
        except EOFError:
            raise

A fun√ß√£o `safe_move_input` l√™ uma jogada v√°lida, i.e., um n√∫mero de 0 a 6 para associar √† coluna da jogada.

In [None]:
# L√™ uma jogada v√°lida (coluna de 0 a 6)
def safe_move_input(state, prompt="Escolha uma coluna (0-6), 'restart' ou 'quit': "):
    while True:
        try:
            user_input = input(prompt)
            if user_input.lower() == 'restart':
                raise RestartGameException
            if user_input.lower() == 'quit':
                raise QuitGameException
            move = int(user_input)
            if move in state.get_legal_moves():
                return move
            print("Movimento inv√°lido. Tente novamente.")
        except ValueError:
            print("Entrada inv√°lida. Insira um n√∫mero de 0 a 6.")
        except EOFError:
            raise

A fun√ß√£o `state_to_features` converte o estado de jogo em features, ou seja, transforma o estado do tabuleiro num dicion√°rio de atributos para alimentar a √°rvore de decis√£o.

In [None]:
def state_to_features(state):
    # Assumindo que o estado tem uma representa√ß√£o interna `board`
    # e que a √°rvore foi treinada com features nomeadas como pos_0, pos_1, ..., pos_41
    features = {}
    for i in range(6):  # 6 linhas
        for j in range(7):  # 7 colunas
            index = i * 7 + j
            features[f"s{index}"] = state.board[i][j]

    return features

De seguida temos as fun√ß√µes de jogo. Existem 4 modos de jogo:
- Jogador contra Jogador: tem como fun√ß√£o `play_player_vs_player` e par√¢metro o jogador inicial;

In [None]:
def play_player_vs_player(starting_player):
    state = ConnectState()
    state.to_play = starting_player
    while not state.game_over():
        state.print()
        print(f"Vez de {'X' if state.to_play==1 else 'O'}")
        move = safe_move_input(state)
        state.move(move)
    state.print()
    return state.get_outcome()

- Jogador contra MCTS: tem como fun√ß√£o `play_player_vs_ai` e par√¢metros a pe√ßa do jogador (`player_piece`) e o jogador inicial (`first`);

In [None]:
def play_player_vs_ai(player_piece, first):
    state = ConnectState()
    ai_piece = 2 if player_piece == 1 else 1
    mcts = MCTS(state)
    if first == 'ai':
        state.to_play = ai_piece
        state.print()
        print("MCTS a come√ßar...")
        mcts.search(10)
        mv = mcts.best_move()
        print(f"MCTS ({'X' if ai_piece==1 else 'O'}) escolheu: {mv}")
        state.move(mv)
        mcts.move(mv)
    else:
        state.to_play = player_piece
    while not state.game_over():
        state.print()
        if state.to_play == player_piece:
            mv = safe_move_input(state)
            state.move(mv)
            mcts.move(mv)
        else:
            print("MCTS a pensar...")
            mcts.search(5)
            mv = mcts.best_move()
            print(f"MCTS ({'X' if ai_piece==1 else 'O'}) escolheu: {mv}")
            state.move(mv)
            mcts.move(mv)
    state.print()
    return state.get_outcome()

- Jogador contra √Årvore, de fun√ß√£o `play_player_vs_tree` e par√¢metros a pe√ßa do jogador (`player_piece`), o jogador inicial (`first`) e a √°rvore de decis√£o carregada no in√≠cio do jogo (`tree`);

In [None]:
def play_player_vs_tree(player_piece, first, tree):
    state = ConnectState()
    tree_piece = 2 if player_piece == 1 else 1

    if first == 'tree':
        state.to_play = tree_piece
        state.print()
        features = state_to_features(state)
        mv = predict(tree, features)
        print(f"√Årvore ({'X' if tree_piece==1 else 'O'}) escolheu: {mv}")
        state.move(mv)
    else:
        state.to_play = player_piece

    while not state.game_over():
        state.print()
        if state.to_play == player_piece:
            mv = safe_move_input(state)
        else:
            print("√Årvore a pensar...")
            features = state_to_features(state)
            mv = predict(tree, features)
            print(f"√Årvore ({'X' if tree_piece==1 else 'O'}) escolheu: {mv}")
        state.move(mv)

    state.print()
    return state.get_outcome()

- MCTS contra √Årvore, de fun√ß√£o `play_ai_vs_tree` e par√¢metros o jogador inicial (`starting_player`) e a √°rvore de decis√£o (`tree`).

In [None]:
def play_ai_vs_tree(starting_player, tree):
    state = ConnectState()
    mcts = MCTS(state)
    ai_piece = starting_player
    tree_piece = 2 if ai_piece == 1 else 1

    while not state.game_over():
        state.print()
        if state.to_play == ai_piece:
            print("MCTS a pensar...")
            mcts.search(5)
            mv = mcts.best_move()
            print(f"MCTS escolheu: {mv}")
        else:
            print("√Årvore a pensar...")
            features = state_to_features(state)
            mv = predict(tree, features)
            print(f"√Årvore escolheu: {mv}")
        state.move(mv)
        mcts.move(mv)

    state.print()
    return state.get_outcome()

Ap√≥s um jogo terminar, √© apresentado um menu, de fun√ß√£o `post_game_menu`, que permite ao jogador jogar novamente, mudar de modo ou sair do jogo.

In [None]:
# Menu p√≥s-jogo: Play Again, Change Modes, Quit
def post_game_menu():
    print("O que deseja fazer a seguir?")
    print("1: Jogar novamente")
    print("2: Mudar modo")
    print("3: Sair")
    choice = safe_int_input("Escolha: ")
    if choice == 1:
        return 'again'
    if choice == 2:
        raise RestartGameException
    return 'quit'

A fun√ß√£o `main` lida com os menus iniciais, com a escolha do modo (que utiliza as fun√ß√µes acima), do jogador inicial e da pe√ßa do jogador. Cria um "placar" com o n√∫mero de vit√≥rias/derrotas caso o jogador decida fazer v√°rios jogos seguidos no mesmo modo. Assim, durante esse tempo, o n√∫mero de vit√≥rias e derrotas √© armazenado pelo sistema e impresso no terminal.

In [None]:
# Bloco principal

def main():
    x_wins = o_wins = draws = 0
    try:
        while True:
            print("1: Jogador vs Jogador\n2: Jogador vs MCTS\n3: Jogador vs √Årvore\n4: MCTS vs √Årvore")
            mode = safe_int_input("Modo: ")
            # Defini√ß√µes iniciais do modo
            if mode == 1:
                print("Quem come√ßa? \n1: X  \n2: O")
                first = 1 if safe_int_input("Escolha: ")==1 else 2
                while True:
                    outcome = play_player_vs_player(first)
                    if outcome == 1: x_wins += 1
                    elif outcome == 2: o_wins += 1
                    else: draws += 1
                    print(f"Placar: (X) {x_wins} - {o_wins} (O) (Empates: {draws})")
                    action = post_game_menu()
                    if action == 'again':
                        continue
                    elif action == 'quit':
                        raise QuitGameException
            elif mode == 2:
                print("Quem come√ßa? \n1: Jogador  \n2: MCTS")
                first = 'player' if safe_int_input("Escolha: ") == 1 else 'ai'
                print("Que pe√ßa prefere? \n1: X  \n2: O")
                player_piece = 1 if safe_int_input("Escolha: ") == 1 else 2
                mcts_piece = 3 - player_piece

                while True:
                    outcome = play_player_vs_ai(player_piece, first)
                    # se outcome == player_piece ‚Üí jogador humano ganhou
                    if outcome == player_piece:
                        if player_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    elif outcome == mcts_piece:
                        # MCTS ganhou
                        if mcts_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    else:
                        draws += 1

                    print(f"Placar: (X) {x_wins} - {o_wins} (O) (Empates: {draws})")
                    action = post_game_menu()
                    if action == 'again':
                        continue
                    elif action == 'quit':
                        raise QuitGameException

            elif mode == 3:
                print("Quem come√ßa? \n1: Jogador  \n2: √Årvore")
                first = 'player' if safe_int_input("Escolha: ") == 1 else 'tree'
                print("Que pe√ßa prefere? \n1: X  \n2: O")
                player_piece = 1 if safe_int_input("Escolha: ") == 1 else 2
                tree_piece = 3 - player_piece

                while True:
                    outcome = play_player_vs_tree(player_piece, first, decision_tree)
                    if outcome == player_piece:
                        # Jogador humano ganhou
                        if player_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    elif outcome == tree_piece:
                        # √Årvore ganhou
                        if tree_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    else:
                        draws += 1

                    print(f"Placar: (X) {x_wins} - {o_wins} (O) (Empates: {draws})")
                    action = post_game_menu()
                    if action == 'again':
                        continue
                    elif action == 'quit':
                        raise QuitGameException
         
            elif mode == 4:
                print("Quem come√ßa? \n1: MCTS  \n2: √Årvore")
                mcts_piece = 1 if safe_int_input("Escolha: ") == 1 else 2
                tree_piece = 3 - mcts_piece

                while True:
                    outcome = play_ai_vs_tree(mcts_piece, decision_tree)
                    if outcome == mcts_piece:
                        # MCTS ganhou
                        if mcts_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    elif outcome == tree_piece:
                        # √Årvore ganhou
                        if tree_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    else:
                        draws += 1

                    print(f"Placar: (X) {x_wins} - {o_wins} (O) (Empates: {draws})")
                    action = post_game_menu()
                    if action == 'again':
                        continue
                    elif action == 'quit':
                        raise QuitGameException
            else:
                print("Modo inv√°lido.")
    except RestartGameException:
        print("Mudando modo...")
        main()
    except QuitGameException:
        print("Programa encerrado.")
    except EOFError:
        print("Entrada finalizada.")

if __name__ == "__main__":
    main()

## 4. Resultados

Nesta se√ß√£o, apresentamos os resultados num√©ricos e visuais obtidos a partir das simula√ß√µes de Connect‚ÄØFour e do teste com o conjunto Iris.  
Mostraremos m√©tricas quantitativas, detalhes de partidas de exemplo (‚Äúuso ao vivo‚Äù) e visualiza√ß√µes da √°rvore de decis√£o.

### 4.1. Demonstra√ß√µes ao Vivo

#### __Jogador Contra MCTS__

In [15]:
%load_ext autoreload
%autoreload 3
from connected_four import ConnectState, GameMeta
from mcts import MCTS
state = ConnectState()
mcts = MCTS(state)
state.to_play = 1
state.move(0) #Jogador joga pe√ßa na coluna 0
state.print()
mcts.search(1) # MCTS "pensou" por 1 segundo
print(f"O MCTS escolheu: {mcts.best_move()}")
state.move(mcts.best_move())
state.print()
state.move(1) #Jogador joga pe√ßa na coluna 1
state.print()   
mcts.search(1)
print(f"O MCTS escolheu: {mcts.best_move()}")
state.move(mcts.best_move())
state.print()

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
| X |   |   |   |   |   |   |
O MCTS escolheu: 2
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
| X |   | O |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
| X | X | O |   |   |   |   |
O MCTS escolheu: 2
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   | O |   |   |   |   |
| X | X | O |   |   |   |   |


__Sequ√™ncia:__

Jogador (X): 0  
MCTS (O): 2  
Jogador (X): 1  
MCTS (O): 2  

O jogador (X) tenta formar uma linha horizontal nas colunas 0 e 1. O MCTS responde com uma jogada na coluna 2 ‚Äî interrompendo o avan√ßo e ocupando espa√ßo central estrat√©gico. O facto do MCTS repetir a jogada na mesma coluna (2) mostra que ele reconhece o valor t√°tico da posi√ß√£o (tanto defensivo como central).

#### __Jogador Contra √Årvore__

In [11]:
%load_ext autoreload
%autoreload 3
from connected_four import ConnectState, GameMeta
from decision_tree_builder import predict
from game  import state_to_features
import pickle
# carregar √°rvore de decis√£o
with open("decision_tree.pkl", "rb") as f:
    decision_tree = pickle.load(f)
# C√©lula de c√≥digo: executa algumas jogadas
state = ConnectState()
state.to_play = 1
state.move(0) # Jogador (X) faz jogada na coluna 0
state.print()
# √Årvore de Decis√£o responde
mv = predict(decision_tree, state_to_features(state))
print(f"√Årvore escolheu: {mv}")
state.move(mv)
state.print()
state.move(1) # Jogador (X) faz jogada na coluna 1
state.print()
mv = predict(decision_tree, state_to_features(state))
print(f"√Årvore escolheu: {mv}")
state.move(mv)
state.print()
state.move(2) # Jogador (X) faz jogada na coluna 2
state.print()
mv = predict(decision_tree, state_to_features(state))
print(f"√Årvore escolheu: {mv}")
state.move(mv)
state.print()

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
| X |   |   |   |   |   |   |
√Årvore escolheu: 6
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
| X |   |   |   |   |   | O |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
| X | X |   |   |   |   | O |
√Årvore escolheu: 6
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   | O |
| X | X |   |   |   |   | O |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   | O |
| 

__Sequ√™ncia de jogadas:__

Jogador (X): 0  
√Årvore (O): 3  
Jogador (X): 1  
√Årvore (O): 6  
Jogador (X): 2  
√Årvore (O): 6  

O jogador (X) tenta formar uma linha de 4 horizontal come√ßando pelas colunas 0‚Äì2. A √°rvore, percebendo a amea√ßa, joga na coluna 3 e mais tarde repete na 6, demonstrando um comportamento defensivo, bloqueando uma potencial vit√≥ria, e consistente. Mostra, assim, que a √°rvore tem capacidade de bloqueio, mesmo sem usar lookahead profundo como o MCTS.

#### __MCTS contra √Årvore__

In [24]:
%load_ext autoreload
%autoreload 3
from connected_four import ConnectState, GameMeta
from decision_tree_builder import predict
from game  import state_to_features
from mcts import MCTS
import pickle
# carregar √°rvore de decis√£o
with open("decision_tree.pkl", "rb") as f:
    decision_tree = pickle.load(f)
# C√©lula de c√≥digo: executa algumas jogadas
state = ConnectState()
mcts = MCTS(state)
mcts.search(4)
print(f"O MCTS escolheu: {mcts.best_move()}")
state.move(mcts.best_move())
state.print()
# √Årvore de Decis√£o responde
mv = predict(decision_tree, state_to_features(state))
print(f"√Årvore escolheu: {mv}")
state.move(mv)
state.print()
mcts.search(4)
print(f"O MCTS escolheu: {mcts.best_move()}")
state.move(mcts.best_move())
state.print()
mv = predict(decision_tree, state_to_features(state))
print(f"√Årvore escolheu: {mv}")
state.move(mv)
state.print()
mcts.search(4)
print(f"O MCTS escolheu: {mcts.best_move()}")
state.move(mcts.best_move())
state.print()
mv = predict(decision_tree, state_to_features(state))
print(f"√Årvore escolheu: {mv}")
state.move(mv)
state.print()
mcts.search(4)
print(f"O MCTS escolheu: {mcts.best_move()}")
state.move(mcts.best_move())
state.print()

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload
O MCTS escolheu: 2
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   | X |
√Årvore escolheu: 6
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   | O |
|   |   |   |   |   |   | X |
O MCTS escolheu: 6
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   | O |
|   |   |   |   | X |   | X |
√Årvore escolheu: 5
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   | O |
|   |   |   |   | X | O | X |
O MCTS escolheu: 3
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |

__Sequ√™ncia de jogadas:__
MCTS (X): 3  
√Årvore (O): 2  
MCTS (X): 4  
√Årvore (O): 5  
MCTS (X): 6  
√Årvore (O): 6

Neste cen√°rio, o MCTS come√ßa pressionando pelo centro e cria uma amea√ßa diagonal. A √°rvore responde com jogadas defensivas e ocupa espa√ßos laterais. Apesar de poucas jogadas, j√° se observa um padr√£o estrat√©gico emergente de ambos os lados. 

### 4.2. Desempenho do MCTS

O desempenho do algoritmo Monte Carlo Tree Search ode ser avaliado sob tr√™s aspectos principais: 
- velocidade de simula√ß√µes (rollouts);
- tempo m√©dio por decis√£o;
- qualidade do jogo (win‚Äërate).

#### __Rollouts por segundo__

N√∫mero de simula√ß√µes completas (‚Äúplayouts‚Äù) que o MCTS executa por segundo de CPU. Cada rollout percorre Sele√ß√£o‚ÄØ‚Üí‚ÄØExpans√£o‚ÄØ‚Üí‚ÄØSimula√ß√£o‚ÄØ‚Üí‚ÄØRetropropaga√ß√£o at√© o fim do jogo. Mais rollouts geralmente significam melhor estimativa de valor de cada movimento, pois exploram mais cen√°rios futuros.

In [None]:
import time
mcts = MCTS(ConnectState())
start = time.process_time()
mcts.search(time_limit=1.0)      # 1 segundo de CPU
rollouts = mcts.num_rollouts     # armazenado internamente
elapsed = time.process_time() - start
print(f"{rollouts} rollouts em {elapsed:.2f}s")

#### __Tempo M√©dio por Decis√£o__

Tempo de CPU gasto em m√©dia para escolher uma jogada. Se usarmos um limite fixo de X segundos em cada itera√ß√£o de search, este ser√° pr√≥ximo de X, mas pequenas varia√ß√µes ocorrem por conta do overhead de Python e estruturas de dados. Ajuda a entender se o algoritmo √© vi√°vel em tempo real. Por exemplo, para um agente advers√°rio r√°pido, 3‚ÄØs por jogada pode ser aceit√°vel; para um servidor de partidas online com mil partidas simult√¢neas, talvez n√£o.

In [None]:
times = []
for _ in range(10):
    t0 = time.process_time()
    mcts.search(time_limit=3.0)   # 3s solicitados
    times.append(time.process_time() - t0)
print("M√©dia por move:", sum(times)/len(times), "s")

#### __Qualidade de Jogo (Win-Rate)__

Propor√ß√£o de partidas em que o MCTS sai vencedor contra outro jogador (pode ser contra si mesmo ou outra pessoa, contra a √°rvore de decis√£o ou contra o MCTS).
Como medir:
- MCTS vs MCTS: fixar ambos com mesmo tempo por jogada (por ex. 5‚ÄØs) e jogar N partidas, alternando quem come√ßa:

In [43]:
from game import play_ai_vs_ai #n√£o usado no jogo, definido no ficheiro game.py
from mcts import MCTS, Node
N = 3
wins1 = 0
wins2 = 0
for _ in range(N):
    state1 = ConnectState()
    state2 = ConnectState()
    mcts1 = MCTS(state1)
    mcts2 = MCTS(state2)
    outcome = play_ai_vs_ai(mcts1)
    if outcome == 1:
        wins1 += 1
        print("Jogador 1 venceu!")
    elif outcome == 2:
        wins2 += 1
        print("Jogador 2 venceu!")
    else:
        print("Empate!")
win_rate1 = wins1 / N
win_rate2 = wins2 / N
print(f"Taxa de vit√≥rias do Jogador 1: {win_rate1:.2%}")
print(f"Taxa de vit√≥rias do Jogador 2: {win_rate2:.2%}")

|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
MCTS O a pensar...
MCTS O escolheu a coluna: 2
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
MCTS X a pensar...
MCTS X escolheu a coluna: 1
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   | X |   |   |   |   |   |
MCTS O a pensar...
MCTS O escolheu a coluna: 6
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   | X |   |   |   |   | O |
MCTS X a pensar...
MCTS X escolheu a coluna: 5
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
|   |   |   |   |   |   |   |
| 

- MCTS vs √Årvore de Decis√£o: MCTS com X‚ÄØs/jogada vs √°rvore que responde instantaneamente (predict):

In [None]:
%load_ext autoreload
%autoreload 2
from mcts import MCTS, Node
from game import play_ai_vs_tree
N = 3
MCTS_PLAYER = 1
wins = 0
for _ in range(N):
    outcome = play_ai_vs_tree(starting_player=1, tree=decision_tree)
    if outcome == MCTS_PLAYER: wins += 1
win_rate = wins / N
print(f"Taxa de vit√≥ria do MCTS: {win_rate:.2%}")

In [None]:
import time
import matplotlib.pyplot as plt

def calcular_accuracy_id3(model, X_test, y_test):
    """
    Recebe um modelo ID3 treinado, dados de teste X_test e r√≥tulos y_test,
    retorna a acur√°cia em porcentagem (implementa√ß√£o pura em Python).
    """
    y_pred = model.predict(X_test)
    correct = sum(1 for yt, yp in zip(y_test, y_pred) if yt == yp)
    acc = (correct / len(y_test)) * 100
    return acc


def calcular_tempo_medio_id3(model, X):
    """
    Recebe um modelo ID3 e um conjunto de entradas X (iter√°vel),
    retorna o tempo m√©dio (em segundos) de predi√ß√£o por amostra.
    """
    start = time.perf_counter()
    for x in X:
        model.predict([x])
    end = time.perf_counter()
    total = end - start
    return total / len(X)


def calcular_win_rate_id3(model, adversario, partidas, get_estado_inicial, realizar_jogada):
    """
    Executa um n√∫mero de partidas onde o ID3 joga contra o advers√°rio.
    - model: √°rvore ID3 treinada (joga como 'player1')
    - adversario: fun√ß√£o ou objeto que, dado o estado, retorna jogada
    - partidas: n√∫mero de partidas a simular
    - get_estado_inicial: fun√ß√£o que retorna estado inicial do jogo
    - realizar_jogada: fun√ß√£o que aplica jogada no estado e retorna novo estado e vencedor
    Retorna porcentual de vit√≥rias do ID3.
    """
    vitorias = 0
    for _ in range(partidas):
        estado = get_estado_inicial()
        atual = 'id3'
        vencedor = None
        while vencedor is None:
            if atual == 'id3':
                jogada = model.predict([state_to_features(estado)])[0]
            else:
                jogada = adversario(estado)
            estado, vencedor = realizar_jogada(estado, jogada, atual)
            atual = 'adversario' if atual == 'id3' else 'id3'
        if vencedor == 'id3':
            vitorias += 1
    return (vitorias / partidas) * 100

# Exemplo de curva ID3: acur√°cia vs profundidade
depths = [2,4,6,8,10]
acc = [72.5, 75.9, 78.2, 77.4, 76.0]  # seus dados aqui
plt.plot(depths, acc, marker='o')
plt.xlabel('Profundidade M√°xima')
plt.ylabel('Acur√°cia (%)')
plt.title('Sensibilidade da Acur√°cia √† Profundidade (ID3)')
plt.show()

## 5. Discuss√£o dos Resultados

A taxa m√©dia de rollouts por segundo foi de 77, o que, embora modesto, revelou-se suficiente para tomadas de decis√£o eficazes no contexto do Connect Four, como demonstrado nos exemplos apresentados anteriormente.

M√©dia por move: 3.0102835999999997 s

MCTS vs Arvore: Taxa de vit√≥ria do MCTS: 100.00%

MCTS x MCTS: 
- Taxa de vit√≥rias do Jogador 1: 100.00%
- Taxa de vit√≥rias do Jogador 2: 0.00%
O jogador 1 come√ßou sempre primeiro, logo tem a vantagem. Mesmo assim, preencheram quase todo o tabuleiro em todos os jogos de teste.

![Accuracy x Depth](acur√°ciaxprofundidade.png)

- Aumento inicial de 2 ‚Üí 6: a acur√°cia sobe de ~72.5% at√© ~78.2% em profundidade 6, indicando que a √°rvore est√° colhendo mais padr√µes relevantes.
- Queda ap√≥s profundidade 6: a partir daqui (8 e 10) a acur√°cia diminui (‚âà77.4% e 76.0%), sinal cl√°ssico de overfitting ‚Äî o modelo come√ßa a ‚Äúdecorar‚Äù ru√≠dos do conjunto de treino e perde capacidade de generalizar.

For√ßas do ID3

Interpretabilidade: √°rvore f√°cil de visualizar e entender.

R√°pida infer√™ncia: predi√ß√£o em poucos microssegundos.

Fraquezas do ID3

Overfitting se profundidade excessiva.

Sens√≠vel √† discretiza√ß√£o: escolhas de bins podem distorcer padr√µes.

For√ßas do MCTS

Adaptativo: aloca√ß√£o din√¢mica de rollouts onde importa.

Robustez em espa√ßos grandes de jogo.

Fraquezas do MCTS

Custo computacional: tempo e mem√≥ria para muitos rollouts.

Requer calibra√ß√£o de  para bom desempenho.

Compara√ß√£o geral:

Cen√°rios simples (board est√°vel, poucos movimentos): ID3 pode competir bem.

Cen√°rios complexos (alto branching factor): MCTS tende a superar.



## 6. Conclus√£o 

## 7. Refer√™ncias

Qi Wang‚Äôs Blog! (2022). Connect 4 with Monte Carlo Tree Search. [online] Available at: https://www.harrycodes.com/blog/monte-carlo-tree-search.
‚Äå