# Jogo Connect Four com Intelig√™ncia Artificial: √Årvores de Decis√£o e MCTS

Realizado pelos alunos:
- Rita Moreira (202303885);
- Pedro Gilvaia (202306975);
- Gon√ßalo Correia (202208527).

## 0. √çndice

1. Introdu√ß√£o  
2. Descri√ß√£o do problema  
   **2.1.**  Implementa√ß√£o do jogo  
3. Metodologia e sua implementa√ß√£o  
   **3.1.**  Monte Carlo Tree Search (MCTS)  
   **3.2.**  Gera√ß√£o do Dataset  
   **3.3.**  √Årvores de Decis√£o  
4. Integra√ß√£o no Jogo  
5. Resultados  
   **5.1.**  Runs  
      **5.1.1.**  Jogador vs. MCTS  
      **5.1.2.**  Jogador vs. √Årvore de Decis√£o  
      **5.1.3.**  MCTS vs. √Årvore de Decis√£o  
6. Discuss√£o de Resultados  
   **6.1.**  Desempenho do MCTS  
   **6.2.**  Frequ√™ncia de Jogadas do MCTS  
   **6.3.**  Impacto do Alpha  
   **6.4.**  For√ßas e limita√ß√µes do algoritmo Monte Carlo Tree Search (MCTS)  
   **6.5.**  Desempenho da √Årvore de Decis√£o com algoritmo ID3  
   **6.6.**  Rela√ß√£o entre acur√°cia, profundidade e tempo de previs√£o da √°rvore de decis√£o  
   **6.7.**  For√ßas e limita√ß√µes do algoritmo Iterative Dichotomiser 3 (ID3)  
   **6.8.**  Compara√ß√£o Geral  
   **6.9.**  Sugest√µes de Extens√µes Futuras  
7. Conclus√£o  
8. Refer√™ncias  


## 1. Introdu√ß√£o

Este projeto implementa e compara duas abordagens de Intelig√™ncia Artificial aplicadas ao jogo Connect Four:
1. Uma baseada no algoritmo **ID3** (√°rvore de decis√£o supervisionada), treinada a partir de exemplos jogados;
2. Outra baseada em **Monte Carlo Tree Search (MCTS)**, uma estrat√©gia de procura n√£o supervisionada amplamente utilizada em jogos como Go e Xadrez.

O objetivo √© compreender o funcionamento, vantagens e limita√ß√µes de cada abordagem na resolu√ß√£o de jogos com estados complexos e decis√µes sequenciais.

Este notebook inclui:
- Uma explica√ß√£o dos fundamentos te√≥ricos de ID3 e MCTS;
- Implementa√ß√µes completas de ambas as t√©cnicas aplicadas ao Connect Four;
- Experimentos entre jogador humano e IA;
- Discuss√£o sobre o impacto dos par√¢metros e do desempenho das IAs;
- Conclus√µes sobre qual abordagem √© mais adequada em diferentes cen√°rios.


## 2. Descri√ß√£o do Problema

O Quatro em Linha √© um jogo de estrat√©gia de dois jogadores. S√£o usadas 42 pe√ßas, 21 para cada jogador, e um tabuleiro vertical com 7 colunas e 6 filas. A cada jogada, o jogador atual "deixa cair" a sua pe√ßa numa coluna √† sua escolha, desde que n√£o esteja cheia. Esta cai na linha dispon√≠vel. Um jogador ganha quando 4 das suas pe√ßas formarem uma linha horizontal, vertical ou diagonal consecutiva.

### 2.1. Implementa√ß√£o do Jogo

Abaixo segue-se a implementa√ß√£o das funcionalidades do jogo (connected_four.py). Mais tarde, ser√° apresentada a implementa√ß√£o do jogo em si (game.py), que utiliza todos os c√≥digos trabalhados no projeto (connected_four.py, mcts.py e decision_tree_builder.py).

#### __connected_four.py__

Importa√ß√µes necess√°rias:

In [None]:
from copy import deepcopy
import math

A classe `GameMeta` funciona como um container de constantes e par√¢metros globais que descrevem as regras b√°sicas e conven√ß√µes do jogo Connect Four na sua implementa√ß√£o. 

In [None]:
class GameMeta:
    # dicion√°rio que mapeia nomes de jogador para valores usados no jogo
    PLAYERS = {'none': 0, 'one': 1, 'two': 2} 
    # dicion√°rio que mapeia resultados poss√≠veis de uma partida
    OUTCOMES = {'none': 0, 'one': 1, 'two': 2, 'draw': 3}
    # constante que representa "infinito" em pontua√ß√µes ou limites
    INF = float('inf')
    # defini√ß√£o do tamanho do tabuleiro (ROWS x COLS)
    ROWS = 6
    COLS = 7

A classe `MCTSMeta` define o coeficiente de explora√ß√£o (c). Tem como papel balancear o teste de ramos menos visitados para descobrir se possuem bons resultados (exploit) e a escolha do ramo com maior valor m√©dio $\frac{Q}{N}$. Um c grande amplia a explora√ß√£o de n√≥s (explore) e um c pequeno prioriza o valor $\frac{Q}{N}$ (exploit).

In [None]:
class MCTSMeta:
    EXPLORATION = 1.4

A classe `ConnectState` representa o estado de um jogo. A fun√ß√£o `__init__` √© um construtor da classe, e inicializa o tabuleiro, o jogador atual, a altura de cada coluna e a √∫ltima jogada feita.

Possui atributos como:
- `board`: matriz 6x7 com valores 0 (vazio), 1(jogador 1) e 2 (jogador 2);
- `to_play`: identificador do jogador que jogar√° a seguir;
- `height`: lista de √≠ndices da pr√≥xima linha livre em cada coluna
- `last_played`: par [linha, coluna] da √∫ltima jogada.

In [None]:
class ConnectState:
    def __init__(self):
        # Inicializa o tabuleiro com zeros (vazio)
        self.board = [[0] * GameMeta.COLS for _ in range(GameMeta.ROWS)]
        # Inicializa o jogador atual como 'one' (1)
        self.to_play = GameMeta.PLAYERS['one']
        # Inicializa a altura de cada coluna como o n√∫mero de linhas menos 1 (posi√ß√£o inicial)
        self.height = [GameMeta.ROWS - 1] * GameMeta.COLS
        # Inicializa a lista de a√ß√µes jogadas como nula
        self.last_played = []


A fun√ß√£o `get_board` retorna uma c√≥pia do tabuleiro atual.

In [None]:
def get_board(self):
        return deepcopy(self.board)

A fun√ß√£o `move` executa um movimento numa coluna espec√≠fica e atualiza o estado de jogo. Se a coluna estiver cheia, surge um `ValueError`. Possui como par√¢metro a coluna onde o jogador quer jogar.

In [None]:
def move(self, col):
        # Verifica se a coluna est√° cheia
        if self.height[col] < 0:
            raise ValueError(f"Coluna {col} j√° est√° cheia!")  # Retorna ValueError (permite que jogador tente novamente)
        self.board[self.height[col]][col] = self.to_play # Atualiza a posi√ß√£o do jogador no tabuleiro: coloca c√≥digo de jogador na coluna escolhida
        self.last_played = [self.height[col], col] # Atualiza a √∫ltima jogada
        self.height[col] -= 1 # Atualiza a altura da coluna (pr√≥xima linha dispon√≠vel)
        # Alterna entre os jogadores
        self.to_play = GameMeta.PLAYERS['two'] if self.to_play == GameMeta.PLAYERS['one'] else GameMeta.PLAYERS['one']

A fun√ß√£o `get_legal_moves` retorna uma lista dos √≠ndices das colunas onde ainda √© poss√≠vel jogar, isto √©, que n√£o estejam cheias. 

In [None]:
def get_legal_moves(self):
        # Obt√©m as colunas dispon√≠veis para jogar: onde o valor √© 0
        return [col for col in range(GameMeta.COLS) if self.board[0][col] == 0]

A fun√ß√£o `check_win` verifica se o jogador atual venceu. Se sim, retorna o c√≥digo do mesmo (1 ou 2, dependendo do jogador). Se n√£o houver vit√≥ria, retorna 0.

In [None]:
def check_win(self):
        # se n√£o existir jogada anterior, n√£o h√° vencedor (retorna 0)
        # se houver jogada anterior, verifica se o jogador atual ganhou (row->0, col->1) usando a fun√ß√£o check_win_from
        if len(self.last_played) > 0 and self.check_win_from(self.last_played[0], self.last_played[1]):
            return self.board[self.last_played[0]][self.last_played[1]]
        return 0

A fun√ß√£o `check_win_from` verifica se h√° "quatro em linha" a partir da posi√ß√£o (row, col) em todas as dire√ß√µes: horizontal, vertical, diagonal principal e diagonal secund√°ria. Se sim, retorna True. Caso contr√°rio, retorna False. Tem como par√¢metros a linha (`row`) e a coluna (`col`) da √∫ltima jogada.

In [None]:
def check_win_from(self, row, col):
        player = self.board[row][col] # jogador atual (1 ou 2)
        consecutive = 1 # acumular n√∫mero de jogadas consecutivas do jogador atual
        # verificar vertical
        tmprow = row # linha atual (temp)
        # enquanto a linha atual + 1 estiver dentro do tabuleiro
        # e (linha atual + 1 , coluna) tiver o codigo do jogador atual
        while tmprow + 1 < GameMeta.ROWS and self.board[tmprow + 1][col] == player: 
            consecutive += 1 #acumulador aumenta
            tmprow += 1 #linha atual aumenta
        tmprow = row #mesmo processo mas para o lado oposto (para baixo)
        while tmprow - 1 >= 0 and self.board[tmprow - 1][col] == player:
            consecutive += 1
            tmprow -= 1
        # se o n√∫mero de jogadas consecutivas for maior ou igual a 4, retorna True (quatro em linha vertical)
        if consecutive >= 4:
            return True

        # verifica horizontal (mesmo processo mas para v√°rias colunas na mesma linha)
        consecutive = 1
        tmpcol = col
        while tmpcol + 1 < GameMeta.COLS and self.board[row][tmpcol + 1] == player:
            consecutive += 1
            tmpcol += 1
        tmpcol = col
        while tmpcol - 1 >= 0 and self.board[row][tmpcol - 1] == player:
            consecutive += 1
            tmpcol -= 1
        # se o n√∫mero de jogadas consecutivas for maior ou igual a 4, retorna True (quatro em linha horizontal)
        if consecutive >= 4:
            return True

        # verifica diagonal (mudan√ßas de linha e coluna na diagonal principal)
        consecutive = 1
        tmprow = row
        tmpcol = col
        # diagonal principal a subir
        while tmprow + 1 < GameMeta.ROWS and tmpcol + 1 < GameMeta.COLS and self.board[tmprow + 1][tmpcol + 1] == player:
            consecutive += 1
            tmprow += 1
            tmpcol += 1
        tmprow = row
        tmpcol = col
        #diagonal principal a descer
        while tmprow - 1 >= 0 and tmpcol - 1 >= 0 and self.board[tmprow - 1][tmpcol - 1] == player:
            consecutive += 1
            tmprow -= 1
            tmpcol -= 1

        if consecutive >= 4:
            return True

        # verifica anti-diagonal / diagonal secund√°ria (mesmo processo mas para a diagonal secund√°ria)
        consecutive = 1
        tmprow = row
        tmpcol = col
        # diagonal secund√°ria a subir
        while tmprow + 1 < GameMeta.ROWS and tmpcol - 1 >= 0 and self.board[tmprow + 1][tmpcol - 1] == player:
            consecutive += 1
            tmprow += 1
            tmpcol -= 1
        tmprow = row
        tmpcol = col
        # diagonal secund√°ria a descer
        while tmprow - 1 >= 0 and tmpcol + 1 < GameMeta.COLS and self.board[tmprow - 1][tmpcol + 1] == player:
            consecutive += 1
            tmprow -= 1
            tmpcol += 1

        if consecutive >= 4:
            return True
        # se n√£o houver quatro em linha, retorna False
        return False


A fun√ß√£o `game_over` verifica se o jogo acabou, retornando um valor booleano consoante o resultado.

In [None]:
def game_over(self):
        # verifica se o jogo terminou: usa a fun√ß√£o check_win para verificar se h√° um vencedor
        # ou se n√£o h√° mais jogadas dispon√≠veis (todas as colunas cheias), o que d√° um empate
        return self.check_win() or len(self.get_legal_moves()) == 0

A fun√ß√£o `get_outcome` retorna o c√≥digo de resultado (outcome) da partida. Se for vit√≥ria retorna 1 ou 2, dependendo do jogador vencedor. Se for empate retorna 3. 

In [None]:
def get_outcome(self):
        # se n√£o houver mais jogadas dispon√≠veis e n√£o houver vencedor, retorna empate
        if len(self.get_legal_moves()) == 0 and self.check_win() == 0:
            return GameMeta.OUTCOMES['draw'] # 3
        # se houver vencedor, retorna o jogador vencedor (c√≥digo 1 ou 2)
        return GameMeta.OUTCOMES['one'] if self.check_win() == GameMeta.PLAYERS['one'] else GameMeta.OUTCOMES['two']


Por √∫ltimo, a fun√ß√£o `print` exibe o tabuleiro no terminal e substitui o n√∫mero que est√° na matriz (tabuleiro) pela pe√ßa de jogo ou espa√ßo vazio:
- ' ' (espa√ßo) substitui o 0;
- X substitui o 1;
- O substitui o 2.

In [None]:

def print(self):
    print('=============================')

    for row in range(GameMeta.ROWS):
        for col in range(GameMeta.COLS):
            # imprime o tabuleiro com os c√≥digos dos jogadores (1 ou 2) ou vazio (0)
            print('| {} '.format('X' if self.board[row][col] == 1 else 'O' if self.board[row][col] == 2 else ' '), end='')
        print('|')

    print('=============================')

## 3. Metodologia e sua implementa√ß√£o

### 3.1. Monte Carlo Tree Search (MCTS)

O MCTS √© um algoritmo de busca adversarial que leva em considera√ß√£o as altera√ß√µes de estado causadas por um advers√°rio nas etapas subsequentes. A sua implementa√ß√£o utiliza o crit√©rio Upper Confidence Bound (UCT) para avaliar cada ramo de uma √°rvore, de f√≥rmula:
$$
UCT = \frac{Q}{N} + c\sqrt{\frac{In{N_{parent}}}{N}}
$$
O MCTS tem quatro fases:
- Sele√ß√£o: Come√ßa na raiz e, em cada n√≥, escolhe o filho que maximiza o UCT at√© atingir um n√≥ ainda n√£o totalmente expandido;
- Expans√£o:  A partir do n√≥ selecionado, gera um dos estados-filho ainda n√£o representados na √°rvore, adicionando-o como novo n√≥;
- Simula√ß√£o: A partir desse n√≥ rec√©m-criado, executa um jogo at√© ao fim (playout), usando uma pol√≠tica aleat√≥ria ou heur√≠stica, obtendo um resultado (vit√≥ria/derrota);
- Retropropaga√ß√£o (Backpropagation): Propaga o resultado da simula√ß√£o de volta √† raiz, atualizando em cada n√≥ visitado. Nesses n√≥s, a contagem de visitas aumenta 1 valor e contagem de vit√≥rias aumenta o valor do resultado (0 se perdeu, 1 se ganhou).


#### __mcts.py__

Importa√ß√µes necess√°rias:

In [None]:
import random
import time # mede tempo de execu√ß√£o na simula√ß√£o
import math
from copy import deepcopy

from connected_four import ConnectState, GameMeta, MCTSMeta  #inicializa estado, jogo e mcts 

A classe Node representa um n√≥ de uma √°rvore de pesquisa Monte Carlo. A fun√ß√£o `__init__` inicializa um n√≥ e seus atributos:
- `move`: jogada que levou ao n√≥ atual;
- `parent`: n√≥ pai da √°rvore (a razi tem parent=None);
- `N`: n√∫mero de visitas;
- `Q`: Soma das recompensas (vit√≥rias) obtidas deste n√≥;
- `children`: mapeia jogadas para n√≥s-filho;
- `outcome`: estado de resultado no n√≥ (0=nenhum, 1=jogador1, 2=jogador2).

In [None]:
class Node:
    def __init__(self, move, parent):
        self.move = move
        self.parent = parent
        self.N = 0 #come√ßa em zero
        self.Q = 0 #come√ßa em zero
        self.children = {} #come√ßa vazia
        self.outcome = GameMeta.PLAYERS['none'] #come√ßa em zero


A fun√ß√£o `add_children` adiciona n√≥s-filho a partir de um dicion√°rio (par√¢metro).

In [None]:
def add_children(self, children: dict) -> None:
        for child in children:
            #para cada n√≥ filho, adiciona-o ao dicion√°rio de filhos
            self.children[child.move] = child

A fun√ß√£o `get_exploration` calcula dinamicamente e retorna o coeficiente da explora√ß√£o `c` para UCT. Baseia-se no n√∫mero de visitas do n√≥ pai e o valor diminui consoante a raiz quadrada desse n√∫mero, levando a uma explora√ß√£o maior no in√≠cio e mais leve no final. Esta fun√ß√£o aplica uma penaliza√ß√£o logar√≠tmica ao valor de C, reduzindo a explora√ß√£o ao longo do tempo (annealing).
$$ \text{Exploration}(N) = \frac{c_0}{1 + \alpha \cdot \log(1 + N)} $$

In [None]:
def get_exploration(self) -> float:
        c0 = MCTSMeta.EXPLORATION #1.4
        if self.parent is not None:    #se n√≥ pai n√£o for nulo
            root_visits = self.parent.N  #n√∫mero de visitas do n√≥ pai
            alpha = 0.2 # fator de decaimento  (annealing)
            return c0 / (1 +  alpha * math.log(1 + root_visits))
        return c0 #se n√≥ pai for nulo, retorna constante de explora√ß√£o

A fun√ß√£o `value` calcula e retorna o valor UCT do n√≥ para a sele√ß√£o. Utiliza como par√¢metro o coeficiente inicial de explora√ß√£o: 1.4.

In [None]:

def value(self, explore: float = MCTSMeta.EXPLORATION):
    if self.N == 0: # se n√£o houver visitas, n√£o h√° valor
        return GameMeta.INF # for√ßar explora√ß√£o de n√≥s n√£o visitados
    else: #dynamic c
        c_now = self.get_exploration() # calcula o valor de explora√ß√£o atual
        return self.Q / self.N + c_now * math.sqrt(math.log(self.parent.N) / self.N) # upper confidence bound (UCT)

A classe MCTS implementa o algoritmo para o Connected Four. A fun√ß√£o `__init__` inicializa o MCTS com um estado inicial, que provem da classe ConnectedState.  Tem como atributos:
- `root_state`: estado de jogo na raiz;
- `root`: n√≥ raiz da √°rvore de busca;
- `run_time`: tempo gasto na √∫ltima pesquisa (segundos de CPU);
- `num_rollouts`: n√∫mero de simula√ß√µes executadas na √∫ltima pesquisa.

In [None]:
class MCTS:
    def __init__(self, state=ConnectState()):
        self.root_state = deepcopy(state) # c√≥pia do estado inicial
        self.root = Node(None, None) #incializa n√≥ raiz nulo
        self.run_time = 0 #inicializa tempo de execu√ß√£o em zero
        self.node_count = 0 #inicializa contagem de n√≥s em zero
        self.num_rollouts = 0 #inicializa n√∫mero de simula√ß√µes em zero

A primeira fase do MCTS √© a sele√ß√£o, representada pela fun√ß√£o `select_node`. Esta seleciona um n√≥ a ser expandido com base no UCT, at√© que um n√≥ n√£o visitado seja encontrado ou o jogo acabe. Retorna um tuplo, com o n√≥ selecionado e o estado de jogo.

In [None]:
def select_node(self) -> tuple:
        node = self.root # n√≥ raiz
        state = deepcopy(self.root_state) # c√≥pia do estado inicial

        # Se o n√≥ n√£o tiver filhos, expande-o
        while len(node.children) != 0:
            # escolher o filho com maior valor UCT
            children = node.children.values() # lista de filhos
            max_value = max(children, key=lambda n: n.value()).value() # calcula o valor m√°ximo entre os filhos
            max_nodes = [n for n in children if n.value() == max_value] # filtra os filhos com o valor m√°ximo

            node = random.choice(max_nodes) # escolhe um n√≥ aleat√≥rio entre os filhos com o valor m√°ximo
            state.move(node.move) # move o estado para o n√≥ escolhido

            if node.N == 0: # se o n√≥ n√£o tiver visitas, n√£o h√° mais filhos a explorar
                return node, state # retorna o n√≥ e o estado
        # se o n√≥ n√£o for terminal, expande-o
        if self.expand(node, state):
            node = random.choice(list(node.children.values())) # escolhe um n√≥ filho aleat√≥rio
            state.move(node.move) # move o estado para o n√≥ filho escolhido

        return node, state # retorna o n√≥ e o estado

A segunda fase √© a expans√£o. A fun√ß√£o `expand` cria filhos para o n√≥ pai com base nas jogadas dispon√≠veis. Se o estado for terminal, i.e., n√£o houver expans√£o poss√≠vel, retorna False. Tem como par√¢metros:
- `parent` (N√≥): n√≥ pai a ser expandido;
- `state` (ConnectState): estado atual do jogo.

In [None]:
def expand(self, parent: Node, state: ConnectState) -> bool:
        if state.game_over(): # se o jogo estiver terminado, n√£o h√° mais jogadas poss√≠veis
            return False
        #  lista de filhos do n√≥ pai com base nas jogadas dipon√≠veis
        children = [Node(move, parent) for move in state.get_legal_moves()]
        parent.add_children(children)

        return True

A terceira fase √© a de simula√ß√£o. A fun√ß√£o correspondente, `roll_out`, joga aleatoriamente at√© ao fim do jogo e retorna o resultado do mesmo. Utiliza como argumento o estado do jogo.

In [None]:
def roll_out(self, state: ConnectState) -> int:
        while not state.game_over(): # enquanto o jogo n√£o terminar
            moves = state.get_legal_moves() # lista de jogadas dispon√≠veis
            player = state.to_play # jogador atual
            opp = 3 - player # jogador advers√°rio (1 ou 2)
            # Vit√≥ria imediata
            for m in moves:
                s2 = deepcopy(state) # c√≥pia do estado
                s2.move(m) # move o estado para a jogada escolhida
                if s2.game_over() and s2.get_outcome() == player: # se o jogo terminar e o jogador atual vencer
                    state.move(m) # move o estado para a jogada escolhida
                    break 
            else:
                # Bloqueio de amea√ßas advers√°rias
                blocked = False # inicializa bloqueio como falso
                for m in moves:
                    s2 = deepcopy(state) # c√≥pia do estado
                    s2.move(m) # move o estado para a jogada escolhida
                    for m2 in s2.get_legal_moves(): # lista de jogadas dispon√≠veis
                        s3 = deepcopy(s2) # c√≥pia do estado
                        s3.move(m2) # move o estado para a jogada escolhida
                        if s3.game_over() and s3.get_outcome() == opp: # se o jogo terminar e o jogador advers√°rio vencer
                            state.move(m) # move o estado para a jogada escolhida
                            blocked = True # bloqueia a jogada
                            break
                    if blocked: # se bloqueio for verdadeiro, sai do loop
                        break
                if not blocked: # se n√£o houver bloqueio, joga aleatoriamente
                    state.move(random.choice(moves))

        return state.get_outcome() # retorna o resultado do jogo (vencedor ou empate)

A √∫ltima fase √© a de Backpropagation (retropropaga√ß√£o). Tem como fun√ß√£o `back_propagate`, que atualiza os valores de `N` e `Q` dos n√≥s visitados. Tem como par√¢metros:
- `node` (N√≥): n√≥ onde terminou a simula√ß√£o;
- `turn` (int): jogador que fez a √∫ltima jogada;
- `outcome` (int): resultado do jogo (1,2 ou 3).

In [None]:
def back_propagate(self, node: Node, turn: int, outcome: int) -> None:
        #recompensa relativa ao jogador 'turn'
        reward = 0 if outcome == turn else 1 # se o jogador atual ganhar (turn) a recomepnsa √© 1, caso contr√°rio √© 0

        while node is not None:
            node.N += 1 # incrementa o n√∫mero de visitas dos n√≥s visitados
            node.Q += reward # incrementa a recompensa acumulada 
            node = node.parent # sobe na √°rvore
            if outcome == GameMeta.OUTCOMES['draw']: # empate
                reward = 0
            else:
                reward = 1 - reward # inverte a recompensa (se o jogador atual ganhar, o advers√°rio perde)

Para executar simula√ß√µes do MCTS por um tempo limitado √© usada a fun√ß√£o `search`. Executa o MCTS por um limite de tempo.

Args: time_limit (int): Tempo m√°ximo (em segundos de CPU) para realizar simula√ß√µes.

Ap√≥s o fim do tempo, self.num_rollouts e self.run_time ficam dispon√≠veis com o n√∫mero de rollouts realizados e o tempo efetivo de execu√ß√£o.

In [None]:
def search(self, time_limit: int):
        start_time = time.process_time() # inicia o tempo de execu√ß√£o (limite)

        num_rollouts = 0 # n√∫mero de simula√ß√µes
        # enquanto o tempo de execu√ß√£o - o tempo inicial for menor que o limite
        while time.process_time() - start_time < time_limit: 
            node, state = self.select_node() # seleciona o n√≥ e o estado
            outcome = self.roll_out(state) # simula o jogo at√© o fim
            self.back_propagate(node, state.to_play, outcome) # atualiza os n√≥s visitados
            num_rollouts += 1 # incrementa o n√∫mero de simula√ß√µes

        run_time = time.process_time() - start_time # calcula o tempo de execu√ß√£o
        self.run_time = run_time # atualiza o tempo de execu√ß√£o
        self.num_rollouts = num_rollouts # atualiza o n√∫mero de simula√ß√µes

A fun√ß√£o `best_move` devolve a jogada mais promissora com base nas estat√≠sticas do MCTS. Seleciona o filho da raiz com maior n√∫mero de visitas (explora√ß√£o intensiva), assumindo que mais visitas indicam maior confian√ßa no resultado esperado.
Returna a coluna correspondente √† jogada selecionada.

In [None]:
def best_move(self):
        if self.root_state.game_over(): # se o jogo estiver terminado, n√£o h√° jogadas poss√≠veis
            return -1
        # valor m√°ximo entre os filhos do n√≥ raiz
        max_value = max(self.root.children.values(), key=lambda n: n.N).N
        # filtra os filhos com o valor m√°ximo
        max_nodes = [n for n in self.root.children.values() if n.N == max_value]
        # escolhe um n√≥ filho aleat√≥rio entre os filhos com o valor m√°ximo
        best_child = random.choice(max_nodes)

        return best_child.move # retorna a jogada escolhida

Para a raiz ser atualizada, √© usada a fun√ß√£o `move`, de par√¢metro a coluna onde o jogador jogou (`move`).

In [None]:
def move(self, move):
        if move in self.root.children: # se a jogada j√° estiver na √°rvore
            self.root_state.move(move) # move o estado para a jogada escolhida
            self.root = self.root.children[move] # n√≥ filho correspondente
            return

        self.root_state.move(move) # move o estado para a jogada escolhida
        self.root = Node(None, None) # n√≥ raiz nulo (inicializa nova √°rvore)

Por √∫ltimo, a fun√ß√£o `statistics` retorna as estat√≠sticas da √∫ltima pesquisa:
- o n√∫mero de simula√ß√µes feitas;
- o tempo de CPU gasto nas mesmas.

In [None]:
def statistics(self) -> tuple:
    return self.num_rollouts, self.run_time

### 3.2. Gera√ß√£o do dataset

Usando o algoritmo MCTS, foi gerado um dataset para treinar uma √°rvore de decis√£o, abordada de seguida. Este c√≥digo simula m√∫ltiplas partidas de Connect Four usando o MCTS para gerar um conjunto de exemplos (estado, movimento) que servir√£o de treino para a √°rvore de decis√£o ID3. Cada linha do dataset cont√©m 42 atributos (o tabuleiro achatado) seguidos da coluna escolhida pelo MCTS como 'move'. O dataset final (mcts_dataset.csv) tem 27118 linhas e 43 colunas.

Importa√ß√µes necess√°rias:

In [None]:
import random
import numpy as np
from mcts import MCTS 
from connected_four import ConnectState, GameMeta, MCTSMeta # inicializa estado, jogo e mcts

A fun√ß√£o `save_dataset` recebe a lista de tuplos `dataset` e o nome do ficheiro de sa√≠da, e salva-a como um ficheiro CSV com cabe√ßalho. O CSV gerado ter√° colunas 's0',...,'s41' e 'move'. O CSV gerado ter√° colunas 's0'...'s41' e 'move'.

In [None]:
def save_dataset(dataset, filename='mcts_dataset.csv'):
    with open(filename, 'w') as f:
        # Cabe√ßalho com 42 features e o r√≥tulo move
        f.write(','.join([f's{i}' for i in range(42)]) + ',move\n')
        for state, move in dataset: # para cada estado e jogada no dataset
            f.write(','.join(map(str, state)) + f',{move}\n') # escreve no arquivo

A fun√ß√£o `generate_mcts_dataset` gera um dataset de pares (estados, movimento) usando o MCTS. Tem como par√¢metro o n√∫mero de partidas a simular (`num_games`) e retorna uma lista de tuplos (`board_flat`, `move`). Cada estado `board_flat` √© uma lista de 42 inteiros representando o tabuleiro, seguido de `move` (coluna escolhida pelo MCTS). O MCTS recebe um tempo de busca vari√°vel: 3 segundos por jogada inicial e, ap√≥s 10 jogadas, passa a 1.5 segundos. A fun√ß√£o salva o dataset parcialmente a cada 10 jogos.

In [None]:
def generate_mcts_dataset(num_games=1000): # gera dataset de jogadas
    dataset = [] # lista para armazenar os dados

    for game_idx in range(num_games): # loop para cada jogo
        print(f"\nüéÆ Jogo {game_idx + 1} de {num_games}")
        state = ConnectState() # inicializa o estado do jogo
        mcts = MCTS(state) # inicializa o MCTS
        total_moves = 0  # contador de jogadas
        mcts.search(time_limit=3)  # Tempo inicial para explora√ß√£o mais profunda

        while not state.game_over(): # enquanto o jogo n√£o terminar
            legal_moves = state.get_legal_moves() # lista de jogadas dispon√≠veis
            move = mcts.best_move() # jogada escolhida pelo MCTS
            # Verifica e corrige movimento ilegal, se houver
            if move not in legal_moves: # se a jogada n√£o for v√°lida
                print(f"[!] Movimento ilegal sugerido: {move}")
                move = random.choice(legal_moves) # escolhe uma jogada aleat√≥ria v√°lida

            try:
                 # salva o estado atual do tabuleiro e a jogada
                board_flat = [cell for row in state.get_board() for cell in row]
                dataset.append((board_flat, move)) # adiciona ao dataset
                # Aplica jogada no estado e no MCTS
                state.move(move)
                mcts.move(move)
                total_moves += 1 # incrementa o contador de jogadas
                # Ajuste de tempo por jogada ap√≥s 10 movimentos
                if not state.game_over():
                    time_limit = 3 if total_moves < 10 else 1.5 # ajusta o tempo de execu√ß√£o
                    mcts.search(time_limit=time_limit) # reinicia a busca

            except ValueError as e: # se houver erro de movimento
                print(f"[Erro] Movimento inv√°lido: {e}")
                break
        # n¬¥umero de jogadas totais
        print(f"‚úîÔ∏è Jogo {game_idx + 1} conclu√≠do ‚Äî total de jogadas salvas: {len(dataset)}")

        # Salvamento parcial a cada 10 jogos
        if (game_idx + 1) % 10 == 0:
            save_dataset(dataset, filename='mcts_dataset_parcial.csv')
            print(f"üíæ Dataset parcial salvo com {len(dataset)} jogadas.")

    return dataset

Ap√≥s isso, √© poss√≠vel fazer execu√ß√£o direta do gerador e salvar o dataset final. Neste caso foram escolhidos 1000 jogos, para ter boas informa√ß√µes e a √°rvore de decis√£o ser robusta.

In [None]:
# Gera√ß√£o e salvamento
if __name__ == "__main__":
    dataset = generate_mcts_dataset(num_games=1000)
    save_dataset(dataset) # salva o dataset final
    print(f"\n‚úÖ Dataset final salvo com {len(dataset)} exemplos!")


### 3.3. √Årvores de Decis√£o

Para o segundo m√©todo, foi utilizado um dataset (`iris.csv`) para testar ("warm-up") o algoritmo ID3. √â um dataset mais pequeno, de contexto diferente, que tem como tarefa gerar/treinar uma √°rvore de decis√£o que, dadas quatro caracter√≠sticas (comprimento e largura da p√©tala, comprimento e largura da s√©pala), determine a que classe cada planta pertence (Iris setosa, Iris virginica ou Iris versicolor).
Ap√≥s esse teste, o objetivo √© gerar uma √°rvore de decis√£o associada √† implementa√ß√£o do algoritmo MCTS. √â gerado um conjunto de pares ($state_{i}, move_{i}$), em que $state_{i}$ √© o estado corrente do jogo e $move_{i}$ √© o pr√≥ximo movimento sugerido pelo algoritmo. Com esse dataset (`mcts_dataset.csv`), √© treinada uma √°rvore de decis√£o usando o algoritmo ID3 (Iterative Dichotomiser 3), de forma a que, dado um estado de jogo, a √°rvore escolha o pr√≥ximo movimento.
Abaixo ser√£o apresentadas os ficheiros decision_tree_builder.py, que implementa o algoritmo ID3, e `iris_test.py`, que aplica esse algoritmo no seu dataset.


#### __decision_tree_builder.py__

Importa√ß√µes necess√°rias:

In [None]:
import pandas as pd
import numpy as np
import pickle # exporta √°rvore
from collections import Counter

A classe Node representa um n√≥ numa √°rvore de decis√£o ID3. A fun√ß√£o `__init__` inicializa o n√≥ da √°rvore e tem como atributos:
- `feature`: nome ou √≠ndice da feature usada para dividir neste n√≥ (None se folha);
- `children`: mapeamento do valor de feature para n√≥s-filho;
- `label`: R√≥tulo da classe se este n√≥ for folha (None caso contr√°rio).

In [None]:
class Node:
    def __init__(self, feature=None, children=None, label=None):
        self.feature = feature
        self.children = children if children is not None else {}
        self.label = label

A fun√ß√£o `entropy` calcula e retorna a entropia de Shannon de um vetor/s√©rie de r√≥tulos `y` (par√¢metro). A entropia pode ser calculada usando a f√≥rmula:
$$ H(y) = -\sum_{i} p_i \cdot \log_2(p_i) $$

In [None]:
def entropy(y):
    counts = Counter(y) # conta as ocorr√™ncias de cada r√≥tulo
    probabilities = [count / len(y) for count in counts.values()] # calcula as probabilidades
    return -sum(p * np.log2(p) for p in probabilities if p > 0) # calcula a entropia

A fun√ß√£o `information_gain` calcula e retorna o ganho de informa√ß√£o ao dividir X e y pela feature especificada. Tem como par√¢metros:
- `X`: DataFrame de atributos;
- `y`: S√©rie de r√≥tulos/classes;
- `feature`: nome da coluna de X a avaliar.
Este valor pode ser, ent√£o, calculado pela f√≥rmula:
$$ IG = H(y) - \sum_{j} \frac{|S_j|}{|S|} \cdot H(S_j) $$

In [None]:
def information_gain(X, y, feature):
    values = X[feature].unique() # obt√©m os valores √∫nicos da feature
    weighted_entropy = 0 # inicializa a entropia ponderada

    for v in values:
        subset_y = y[X[feature] == v] # obt√©m os r√≥tulos correspondentes
        weighted_entropy += (len(subset_y) / len(y)) * entropy(subset_y) # calcula a entropia ponderada

    return entropy(y) - weighted_entropy # calcula o ganho de informa√ß√£o (diferen√ßa entre a entropia original e a ponderada)

A principal fun√ß√£o para a cria√ß√£o de uma √°rvore de decis√£o √© o algoritmo `id3` (Iterative Dichotomiser 3), que retorna o n√≥ raiz da √°rvore de decis√£o. Tem como par√¢metros:
- `X`: Dataframe de atributos;
- `y`: S√©rie de r√≥tulos/classes correspondente;
- `features`: Lista de colunas ainda dispon√≠veis para divis√£o;
- `depth`: Profundidade atual da √°rvore;
- `max_depth`: Profundidade m√°xima permitida.

In [None]:
def id3(X, y, features, depth=0, max_depth=15):
    # crit√©rios de paragem: pureza, sem features ou profundidade m√°xima
    # se o tamanho de y for igual a 1, ou se n√£o houver mais features, ou se a profundidade m√°xima for atingida
    if len(set(y)) == 1 or len(features) == 0 or depth == max_depth:
        return Node(label=y.iloc[0]) # retorna o r√≥tulo mais comum
    
    if len(features) == 0: # se n√£o houver mais features
        most_common_label = y.mode()[0] # o r√≥tulo mais comum
        return Node(label=most_common_label) # retorna o r√≥tulo mais comum
    #escolha de melhor feature
    gains = [information_gain(X, y, f) for f in features] # calcula o ganho de informa√ß√£o para cada feature
    best_feature = features[np.argmax(gains)] # √≠ndice da feature com maior ganho de informa√ß√£o

    node = Node(feature=best_feature) # cria um n√≥ com a feature escolhida
    feature_values = X[best_feature].unique() # obt√©m os valores √∫nicos da feature
    #recurs√£o para cada valor da feature escolhida
    for value in feature_values:
        subset_X = X[X[best_feature] == value] # obt√©m os exemplos correspondentes
        subset_y = y[X[best_feature] == value] # obt√©m os r√≥tulos correspondentes

        if len(subset_y) == 0: # se n√£o houver exemplos correspondentes
            # nenhum exemplo com esse valor
            most_common_label = y.mode()[0] # o r√≥tulo mais comum
            child = Node(label=most_common_label) 
        else:
            #continua a recurs√£o sem a feature escolhida
            remaining_features = [f for f in features if f != best_feature] # features restantes
            child = id3(subset_X, subset_y, remaining_features, depth+1, max_depth) # recurs√£o

        node.children[value] = child   # adiciona o n√≥ filho ao dicionario de filhos do n√≥ pai

    return node

A fun√ß√£o `majority_vote` ocorre quando existem ramos nunca vistos durante a previs√£o (`predict`), fazendo assim uma vota√ß√£o majorit√°ria nos descendentes. Tem como par√¢metro o n√≥ atual da √°rvore de decis√£o e retorna a classe mais comum entre os filhos, ou `None` se n√£o houver filhos.

In [None]:
def majority_vote(node):
    labels = [] # lista para armazenar os r√≥tulos
    def collect_labels(subnode): # fun√ß√£o recursiva para coletar r√≥tulos
        if subnode.label is not None: # se o n√≥ tiver r√≥tulo
            labels.append(subnode.label) # adiciona o r√≥tulo √† lista
        else:
            for child in subnode.children.values(): # percorre os filhos
                collect_labels(child) # chama a fun√ß√£o recursiva
    collect_labels(node) # coleta os r√≥tulos
    if labels:
        return Counter(labels).most_common(1)[0][0] # retorna o r√≥tulo mais comum
    else:
        return None # retorna None se n√£o houver r√≥tulos

Por fim, a fun√ß√£o `predict` prediz a classe de um exemplo usando a √°rvore de decis√£o. Tem como par√¢metros:
- `tree`: o n√≥ raiz da √°rvore;
- `sample`: a classe prevista, ou `None` se n√£o houver previs√£o.

Retorna a `sample`.

In [None]:
def predict(tree, sample):
    while tree.label is None: # enquanto o n√≥ n√£o tiver r√≥tulo
        value = sample.get(tree.feature) # obt√©m o valor da feature
        if value in tree.children: # se o valor estiver nos filhos
            tree = tree.children[value] # move para o n√≥ filho correspondente
        else:
            # Valor nunca visto ‚Äî retorna o valor de maior ocorr√™ncia entre os filhos
            # ou uma jogada aleat√≥ria segura
            if tree.children:
                return majority_vote(tree) # retorna o r√≥tulo mais comum entre os filhos
            else:
                return None
    return tree.label # retorna o r√≥tulo do n√≥

Ap√≥s a implementa√ß√£o das fun√ß√µes, segue-se a cria√ß√£o da √°rvore. 
Come√ßa-se por carregar os dados discretizados do dataset gerado: 

In [None]:
# Carrega dados discretizados
data = pd.read_csv("mcts_dataset.csv") # Carrega o dataset
X = data.iloc[:, :-1] # separa as features
y = data.iloc[:, -1] # separa o r√≥tulo
features = X.columns.tolist() # lista de features

Ap√≥s isso, treina-se (cria-se) a √°rvore de decis√£o usando a fun√ß√£o `id3` e testa-se a mesma com a fun√ß√£o `predict`, calculando a acur√°cia desse teste:

In [None]:
# Treina a √°rvore de decis√£o
tree = id3(X, y, features)

# Testa a √°rvore de decis√£o
sample = X.iloc[0].to_dict()  # primeira linha como dict
predicted_label = predict(tree, sample) # previs√£o
actual_label = y.iloc[0] # r√≥tulo real

correct = 0
for i in range(len(X)):
    sample = X.iloc[i].to_dict() # primeira linha como dict
    prediction = predict(tree, sample) # previs√£o
    if prediction == y.iloc[i]: # se a previs√£o for correta
        correct += 1 # incrementa o contador

accuracy = correct / len(X) # calcula a acur√°cia
# print(f"Accuracy on training data: {accuracy:.2%}")

Por √∫ltimo, exporta-se a √°rvore de decis√£o, usando a biblioteca `pickle`, para ser usada mais tarde no ficheiro `game.py`:

In [None]:
# Exporta a √°rvore de decis√£o
with open("decision_tree.pkl", "wb") as f:
    pickle.dump(tree, f)

#### __iris_test.py__

Importa√ß√µes necess√°rias:

In [None]:
import pandas as pd
import pickle
from decision_tree_builder import id3, predict, Node

√â necess√°rio, inicialmente, carregar e discretizar os dados do dataset `iris.csv`. A fun√ß√£o `discretize` discretiza uma coluna num n√∫mero fixo de bins e retorna a coluna com os valores discretizados. Tem como par√¢metros:
- `col`: Coluna a discretizar;
- `n_bins`: Nr de bins (default: 3).

In [None]:
# Carregamento e discretiza√ß√£o dos dados do dataset iris.csv
df = pd.read_csv('iris.csv')

def discretize(col, n_bins=3): # discretiza a coluna : 
    # Significa que os valores cont√≠nuos de uma coluna foram convertidos em categorias (bins)
    return pd.cut(col, bins=n_bins, labels=[f'bin{i}' for i in range(n_bins)]) # discretiza a coluna em n_bins categorias

# Discretiza todas as colunas, exceto a √∫ltima (r√≥tulo)
for col in df.columns[:-1]:
    df[col] = discretize(df[col])

Ap√≥s isso, s√£o preparados os atributos e r√≥tulos, tal como a divis√£o dos valores em treino e teste (70% de treino e 30% de teste).

In [None]:
# Prepara√ß√£o de atributos e r√≥tulos
X = df.iloc[:, :-1] # separa as features
y = df.iloc[:, -1] #    separa o r√≥tulo
features = X.columns.tolist() # lista de features

# Divis√£o em treino e teste (70% treino, 30% teste)
df_shuffled = df.sample(frac=1).reset_index(drop=True) # embaralha o dataframe
split_idx = int(len(df_shuffled) * 0.7) # √≠ndice de divis√£o 
train = df_shuffled.iloc[:split_idx].reset_index(drop=True) # treino
test = df_shuffled.iloc[split_idx:].reset_index(drop=True) # teste

X_train, y_train = train.iloc[:, :-1], train.iloc[:, -1] # separa as features
X_test, y_test = test.iloc[:, :-1], test.iloc[:, -1] # separa o r√≥tulo

Com eses valores, podemos treinar a √°rvore de decis√£o, com a fun√ß√£o `id3` e export√°-la, caso seja necess√°rio:

In [None]:
# treino da √°rvore de decis√£o
tree = id3(X_train, y_train, features)

# Serializa√ß√£o da √°rvore de decis√£o com pickle
with open('iris_tree.pkl', 'wb') as f:
    pickle.dump(tree, f)
print("Decision tree serialized to iris_tree.pkl")

Por √∫ltimo, a fun√ß√£o `print_tree` imprime a √°rvore de decis√£o de forma recursiva e tem como par√¢metros:
- `node` (N√≥): n√≥ atual da √°rvore de decis√£o;
- `depth`: profundidade atual da √°rvore.

In [None]:
# Fun√ß√£o para imprimir a √°rvore de decis√£o
def print_tree(node: Node, depth=0):
    indent = '  ' * depth # indenta√ß√£o para cada n√≠vel
    if node.label is not None: # se o n√≥ tiver r√≥tulo
        print(f"{indent}‚Üí Label: {node.label}") ## imprime o r√≥tulo
    else:
        # imprime a feature e os filhos
        feat_name = features[node.feature] if isinstance(node.feature, int) else node.feature
        print(f"{indent}Feature: {feat_name}")
        for value, child in node.children.items():
            print(f"{indent}  If == {value}:")
            print_tree(child, depth+2) # imprime a √°rvore recursivamente

Ap√≥s isso, basta chamar essa fun√ß√£o e, por fim, avaliar a acur√°cia do conjunto de teste.

In [None]:
# Exibe a estrutura da √°rvore de decis√£o gerada
print("\nDecision Tree Structure:")
print_tree(tree)

# Avalia a acur√°cia no conjunto de teste
correct = 0
for idx, row in X_test.iterrows():
    sample = row.to_dict()
    pred = predict(tree, sample)
    true_label = y_test.loc[idx]
    if pred == true_label:
        correct += 1
accuracy = correct / len(X_test)
print(f"\nAccuracy: {accuracy:.2%}")

## 4. Integra√ß√£o no Jogo

Usando os c√≥digos acima apresentados, √© ent√£o poss√≠vel recriar o jogo Quatro em Linha. Em baixo est√° o c√≥digo final, que importa todos os anteriores.

#### __game.py__

Importa√ß√µes necess√°rias:

In [None]:
from connected_four import ConnectState, GameMeta  # Representa o estado do jogo e a inicializa√ß√£o do jogo
from mcts import MCTS                   # Implementa o algoritmo MCTS
import pickle # usado para manipular a √°rvore de decis√£o
from decision_tree_builder import predict  # Importa a fun√ß√£o de previs√£o da √°rvore de decis√£o

As classes `RestartGameException` e `QuitGameException` s√£o exce√ß√µes espec√≠ficas para controlar o fluxo do jogo, e permitem reiniciar ou sair do mesmo de forma controlada.

In [None]:
class RestartGameException(Exception): # reinicia o jogo
    pass

class QuitGameException(Exception): # encerra o jogo
    pass

Para utilizar a √°rvore de decis√£o no jogo √© necess√°rio, primeiramente, de a carregar, usando o `pickle`:

In [None]:
# carregamento da √°rvore de decis√£o (ficheiro .pkl)
with open("decision_tree.pkl", "rb") as f:
    decision_tree = pickle.load(f)

A fun√ß√£o `safe_int_input` l√™ inteiros de forma a tratar de inputs diferentes como `restart` e `quit`, ou erros.

In [None]:
#L√™ inteiros com tratamento para "restart" e "quit"
def safe_int_input(prompt):
    while True:
        try:
            value = input(prompt) # l√™ a entrada do usu√°rio
            if value.lower() == 'restart': # reinicia o jogo
                raise RestartGameException
            if value.lower() == 'quit': # encerra o jogo
                raise QuitGameException
            return int(value) # converte para inteiro
        except ValueError: # se n√£o for um inteiro
            print("Entrada inv√°lida. Por favor insira um n√∫mero inteiro.")
        except EOFError: # se o arquivo de entrada estiver vazio
            raise

A fun√ß√£o `safe_move_input` l√™ uma jogada v√°lida, i.e., um n√∫mero de 0 a 6 para associar √† coluna da jogada.

In [None]:
# L√™ uma jogada v√°lida (coluna de 0 a 6)
def safe_move_input(state, prompt="Escolha uma coluna (0-6), 'restart' ou 'quit': "):
    while True:
        try:
            user_input = input(prompt) # l√™ a entrada do usu√°rio
            if user_input.lower() == 'restart': # reinicia o jogo
                raise RestartGameException
            if user_input.lower() == 'quit': # encerra o jogo
                raise QuitGameException
            move = int(user_input) # converte para inteiro
            if move in state.get_legal_moves(): # se a jogada for v√°lida
                return move # retorna a jogada
            print("Movimento inv√°lido. Tente novamente.") # se a jogada n√£o for v√°lida
        except ValueError: # se n√£o for um inteiro
            print("Entrada inv√°lida. Insira um n√∫mero de 0 a 6.")
        except EOFError: # se o arquivo de entrada estiver vazio
            raise

A fun√ß√£o `state_to_features` converte o estado de jogo em features, ou seja, transforma o estado do tabuleiro num dicion√°rio de atributos para alimentar a √°rvore de decis√£o.

In [None]:
def state_to_features(state):
    # Assumindo que o estado tem uma representa√ß√£o interna `board`
    # e que a √°rvore foi treinada com features nomeadas como pos_0, pos_1, ..., pos_41
    features = {}
    for i in range(6):  # 6 linhas
        for j in range(7):  # 7 colunas
            index = i * 7 + j # √≠ndice linear para 2D
            features[f"s{index}"] = state.board[i][j] # valor da c√©lula (0, 1 ou 2)

    return features

De seguida temos as fun√ß√µes de jogo. Existem 4 modos de jogo:
- Jogador contra Jogador: tem como fun√ß√£o `play_player_vs_player` e par√¢metro o jogador inicial;

In [None]:
def play_player_vs_player(starting_player):
    state = ConnectState() # inicializa o estado do jogo
    state.to_play = starting_player # jogador inicial
    while not state.game_over(): # enquanto o jogo n√£o terminar
        state.print() # imprime o tabuleiro
        print(f"Vez de {'X' if state.to_play==1 else 'O'}") # jogador atual
        move = safe_move_input(state) # l√™ a jogada do jogador
        state.move(move) # aplica a jogada
    state.print() # imprime o tabuleiro final
    return state.get_outcome() # resultado do jogo (vencedor ou empate)

- Jogador contra MCTS: tem como fun√ß√£o `play_player_vs_ai` e par√¢metros a pe√ßa do jogador (`player_piece`) e o jogador inicial (`first`);

In [None]:
def play_player_vs_ai(player_piece, first):
    state = ConnectState() # inicializa o estado do jogo
    ai_piece = 2 if player_piece == 1 else 1 # jogador advers√°rio (MCTS)
    mcts = MCTS(state) # inicializa o MCTS
    if first == 'ai': # se o MCTS for o primeiro a jogar
        state.to_play = ai_piece
        state.print()
        print("MCTS a come√ßar...")
        mcts.search(10) # tempo de execu√ß√£o inicial
        mv = mcts.best_move() # jogada escolhida pelo MCTS
        print(f"MCTS ({'X' if ai_piece==1 else 'O'}) escolheu: {mv}")
        state.move(mv) # aplica a jogada
        mcts.move(mv) # atualiza o MCTS
    else:
        state.to_play = player_piece # jogador humano
    while not state.game_over():
        state.print()
        if state.to_play == player_piece: # jogador humano
            mv = safe_move_input(state) # l√™ a jogada do jogador
            state.move(mv) # aplica a jogada
            mcts.move(mv) # atualiza o MCTS
        else:
            print("MCTS a pensar...")
            mcts.search(5)
            mv = mcts.best_move()
            print(f"MCTS ({'X' if ai_piece==1 else 'O'}) escolheu: {mv}")
            state.move(mv)
            mcts.move(mv)
    state.print()
    return state.get_outcome() # resultado do jogo (vencedor ou empate)

- Jogador contra √Årvore, de fun√ß√£o `play_player_vs_tree` e par√¢metros a pe√ßa do jogador (`player_piece`), o jogador inicial (`first`) e a √°rvore de decis√£o carregada no in√≠cio do jogo (`tree`);

In [None]:
def play_player_vs_tree(player_piece, first, tree):
    state = ConnectState() # inicializa o estado do jogo
    tree_piece = 2 if player_piece == 1 else 1 # jogador advers√°rio (√°rvore)

    if first == 'tree': # se a √°rvore for o primeiro a jogar
        state.to_play = tree_piece 
        state.print()
        features = state_to_features(state) # converte o estado para features
        mv = predict(tree, features) # jogada escolhida pela √°rvore (previs√£o)
        print(f"√Årvore ({'X' if tree_piece==1 else 'O'}) escolheu: {mv}")
        state.move(mv) # aplica a jogada
    else:
        state.to_play = player_piece # jogador humano

    while not state.game_over():
        state.print()
        if state.to_play == player_piece: # jogador humano
            mv = safe_move_input(state) # l√™ a jogada do jogador
        else:
            print("√Årvore a pensar...")
            features = state_to_features(state)
            mv = predict(tree, features)
            print(f"√Årvore ({'X' if tree_piece==1 else 'O'}) escolheu: {mv}")
        state.move(mv)

    state.print()
    return state.get_outcome() # resultado do jogo (vencedor ou empate)

- MCTS contra √Årvore, de fun√ß√£o `play_ai_vs_tree` e par√¢metros o jogador inicial (`starting_player`) e a √°rvore de decis√£o (`tree`).

In [None]:
def play_ai_vs_tree(starting_player, tree):
    state = ConnectState() # inicializa o estado do jogo
    mcts = MCTS(state) # inicializa o MCTS
    ai_piece = starting_player # identifica o jogador inicial
    tree_piece = 2 if ai_piece == 1 else 1

    while not state.game_over(): # enquanto o jogo n√£o terminar
        state.print() # imprime o tabuleiro
        if state.to_play == ai_piece: # jogador MCTS
            print("MCTS a pensar...")
            mcts.search(5) # tempo de execu√ß√£o
            mv = mcts.best_move() # jogada escolhida pelo MCTS
            print(f"MCTS escolheu: {mv}")
        else:
            print("√Årvore a pensar...") 
            features = state_to_features(state) # converte o estado para features
            mv = predict(tree, features) # jogada escolhida pela √°rvore (previs√£o)
            print(f"√Årvore escolheu: {mv}")
        state.move(mv) # aplica a jogada
        mcts.move(mv) # atualiza o MCTS

    state.print()
    return state.get_outcome() # resultado do jogo (vencedor ou empate)

Ap√≥s um jogo terminar, √© apresentado um menu, de fun√ß√£o `post_game_menu`, que permite ao jogador jogar novamente, mudar de modo ou sair do jogo.

In [None]:
# Menu p√≥s-jogo: Play Again, Change Modes, Quit
def post_game_menu():
    print("O que deseja fazer a seguir?") 
    print("1: Jogar novamente")
    print("2: Mudar modo")
    print("3: Sair")
    choice = safe_int_input("Escolha: ")
    if choice == 1:
        return 'again'
    if choice == 2:
        raise RestartGameException
    return 'quit'

A fun√ß√£o `main` lida com os menus iniciais, com a escolha do modo (que utiliza as fun√ß√µes acima), do jogador inicial e da pe√ßa do jogador. Cria um "placar" com o n√∫mero de vit√≥rias/derrotas caso o jogador decida fazer v√°rios jogos seguidos no mesmo modo. Assim, durante esse tempo, o n√∫mero de vit√≥rias e derrotas √© armazenado pelo sistema e impresso no terminal.

In [None]:
# Bloco principal

def main():
    x_wins = o_wins = draws = 0 # contadores de vit√≥rias e empates
    try:
        while True:
            print("1: Jogador vs Jogador\n2: Jogador vs MCTS\n3: Jogador vs √Årvore\n4: MCTS vs √Årvore")
            mode = safe_int_input("Modo: ")
            # Defini√ß√µes iniciais do modo
            if mode == 1: # Jogador vs Jogador
                print("Quem come√ßa? \n1: X  \n2: O") # jogador X ou O
                first = 1 if safe_int_input("Escolha: ")==1 else 2
                while True:
                    outcome = play_player_vs_player(first) # resultado do jogo
                    if outcome == 1: x_wins += 1 # jogador X ganhou
                    elif outcome == 2: o_wins += 1  # jogador O ganhou
                    else: draws += 1 # empate
                    print(
                        f"Placar: (X) {x_wins} - {o_wins} (O) (Empates: {draws})"
                        ) # imprime o placar
                    action = post_game_menu() # menu p√≥s-jogo
                    if action == 'again': # jogar novamente
                        continue
                    elif action == 'quit': # sair
                        raise QuitGameException
            elif mode == 2: # Jogador vs MCTS
                 # jogador humano ou MCTS
                print("Quem come√ßa? \n1: Jogador  \n2: MCTS")
                first = 'player' if safe_int_input("Escolha: ") == 1 else 'ai'
                print("Que pe√ßa prefere? \n1: X  \n2: O") # jogador X ou O
                player_piece = 1 if safe_int_input("Escolha: ") == 1 else 2
                mcts_piece = 3 - player_piece # jogador advers√°rio (MCTS)

                while True:
                    outcome = play_player_vs_ai(
                        player_piece, first) # resultado do jogo
                    # se outcome == player_piece ‚Üí jogador humano ganhou
                    if outcome == player_piece:
                        if player_piece == 1: # jogador X ganhou
                            x_wins += 1
                        else:
                            o_wins += 1
                    elif outcome == mcts_piece: # MCTS ganhou
                        # MCTS ganhou
                        if mcts_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    else:
                        draws += 1 # empate

                    print(
                        f"Placar: (X) {x_wins} - {o_wins} (O) (Empates: {draws})"
                        )
                    action = post_game_menu()
                    if action == 'again':
                        continue
                    elif action == 'quit':
                        raise QuitGameException

            elif mode == 3: # Jogador vs √Årvore
                 # jogador humano ou √°rvore
                print("Quem come√ßa? \n1: Jogador  \n2: √Årvore")
                first = 'player' if safe_int_input("Escolha: ") == 1 else 'tree'
                print("Que pe√ßa prefere? \n1: X  \n2: O") # jogador X ou O
                player_piece = 1 if safe_int_input("Escolha: ") == 1 else 2
                tree_piece = 3 - player_piece

                while True:
                    outcome = play_player_vs_tree(
                        player_piece, first, decision_tree)
                    if outcome == player_piece: # jogador humano ganhou
                        if player_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    elif outcome == tree_piece: # √°rvore ganhou
                        if tree_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    else:
                        draws += 1 # empate

                    print(
                        f"Placar: (X) {x_wins} - {o_wins} (O) (Empates: {draws})"
                        )
                    action = post_game_menu()
                    if action == 'again':
                        continue
                    elif action == 'quit':
                        raise QuitGameException
         
            elif mode == 4: # MCTS vs √Årvore
                # jogador MCTS ou √°rvore
                print("Quem come√ßa? \n1: MCTS  \n2: √Årvore") 
                mcts_piece = 1 if safe_int_input("Escolha: ") == 1 else 2
                tree_piece = 3 - mcts_piece

                while True:
                    outcome = play_ai_vs_tree(
                        mcts_piece, decision_tree)
                    if outcome == mcts_piece: 
                        # MCTS ganhou
                        if mcts_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    elif outcome == tree_piece:
                        # √Årvore ganhou
                        if tree_piece == 1:
                            x_wins += 1
                        else:
                            o_wins += 1
                    else:
                        draws += 1 # empate

                    print(
                        f"Placar: (X) {x_wins} - {o_wins} (O) (Empates: {draws})"
                        )
                    action = post_game_menu()
                    if action == 'again':
                        continue
                    elif action == 'quit':
                        raise QuitGameException
            else:
                # se o modo n√£o for v√°lido
                print("Modo inv√°lido.") 
    except RestartGameException: 
        # reinicia o jogo
        print("Mudando modo...")
        main()
    except QuitGameException: 
        # encerra o jogo
        print("Programa encerrado.")
    except EOFError:
    # se o arquivo de entrada estiver vazio
        print("Entrada finalizada.") 

if __name__ == "__main__":
    main() # executa o jogo

## 5. Resultados

Nesta sec√ß√£o, apresentamos os resultados num√©ricos e visuais obtidos a partir das simula√ß√µes de Connect‚ÄØFour e do teste com o conjunto Iris.  
Mostraremos m√©tricas quantitativas, detalhes de partidas de exemplo (‚Äúuso ao vivo‚Äù) e visualiza√ß√µes da √°rvore de decis√£o.

### 5.1. Runs 

#### 5.1.1. Jogador vs. MCTS

![Jogador vs. MCTS](content/jogadorVSMCTS.png)

Jogador Inicial: Humano.
Pe√ßa Inicial: Vermelho.
Pe√ßa de MCTS: Amarelo.

| Nr de Jogada | An√°lise |
| ------------ | ------- |
| Jogada 3 | Explora√ß√£o de ambos os jogadores. |
| Jogada 6 | Poss√≠vel ataque na diagonal do Jogador Humano. |
| Jogada 9 | Continua√ß√£o de ataque do Humano. |
| Jogada 12 | Ataque de Amarelo e bloqueio de Humano. Poss√≠vel ataque na diagonal de ambos os jogadores. |
| Jogada 15 | Ataque perigoso de Humano na diagonal. |
| Jogada 18 | Bloqueio da diagonal pelo MCTS. |
| Jogada 21 | Ataque na diagonal de MCTS bloqueado por Humano. Ataque perigoso de Humani na diagonal. Poss√≠vel ataque duplo na horizontal e vertical de MCTS. |
| Jogada 24 | Ataque na horizontal de MCTS e seu bloqueio. Estrat√©gia de MCTS ataca na horizontal. Vit√≥ria de MCTS. |

#### 5.1.2. Jogador vs. √Årvore de Decis√£o

![Jogador vs. √Årvore de Decis√£o](content/mosaic_tree.png)

Jogador Inicial: Humano. 
Pe√ßa Inicial: Vermelho.
Pe√ßa da √Årvore de Decis√£o: Amarelo.

| Nr de Jogada | An√°lise |
| ------------ | ------- |
| Jogada 3 | Explora√ß√£o do tabuleiro por ambos os jogadores. |
| Jogada 6 | Ataque horizontal de Humano bloqueado pela √Årvore de Decis√£o. |
| Jogada 9 | Ataque vertical de √Årvore de Decis√£o bloqueado por Humano. |
| Jogada 12 | Poss√≠vel ataque na diagonal de Humano bloqueado por √Årvore. Ataque na vertical de √Årvore. |
| Jogada 15 | Ataque na diagonal de Humano bloqueado por √Årvore. Ataque na vertical de Humano. |
| Jogada 17 | Falha na defesa de ataque de Humano. Vit√≥ria de Humano. |

#### 5.1.3. MCTS vs. √Årvore de Decis√£o

![MCTS vs √Årvore de Decis√£o](content/mosaic_mcts_tree.png)

Jogador Inicial: MCTS. 
Pe√ßa Inicial: Vermelho.
Pe√ßa √Årvore de Decis√£o: Amarelo.

| Nr de Jogada | An√°lise |
| ------------ | ------- |
| Jogada 3 | Forma√ß√£o de ataque na vertical de MCTS. |
| Jogada 6 | Bloqueio de potencial ataque por ID3. Forma√ß√£o de ataque na vertical de ID3. |
| Jogada 9 | Forma√ß√£o de ataque na vertical de MCTS. |
| Jogada 12 | Forma√ß√£o de ataque na vertical de ID3. |
| Jogada 15 | Ataque na vertical da √°rvore de decis√£o. Falha na defesa de ataque de MCTS. Vit√≥ria de MCTS. |

## 6. Discuss√£o dos Resultados

#### 6.1. Desempenho do MCTS

O desempenho do algoritmo Monte Carlo Tree Search pode ser avaliado sob tr√™s aspetos principais, resumidos na seguinte tabela: 

| Vari√°veis | Defini√ß√£o | Resultado | An√°lise | Poss√≠veis melhorias |
| --------- | --------- | --------- | ------- | ------------------- |
| **Rollouts por segundo** | **N√∫mero de simula√ß√µes completas** (‚Äúplayouts‚Äù) que o MCTS executa por segundo de CPU. Cada rollout percorre Sele√ß√£o‚ÄØ‚Üí‚ÄØExpans√£o‚ÄØ‚Üí‚ÄØSimula√ß√£o‚ÄØ‚Üí‚ÄØRetropropaga√ß√£o at√© o fim do jogo. Mais rollouts geralmente significam melhor estimativa de valor de cada movimento, pois exploram mais cen√°rios futuros. | ‚âà 77 rollouts/s | Adequado para an√°lises t√°ticas profundas, mas talvez **insuficiente** para cen√°rios com centenas de partidas simult√¢neas. | Uma mitiga√ß√£o seria paralelizar simula√ß√µes ou usar heur√≠sticas de poda (e.g. uct-random) pode elevar essa taxa. |
| **Tempo m√©dio por decis√£o** | **Tempo de CPU gasto em m√©dia para escolher uma jogada**. Se usarmos um limite fixo de X segundos em cada itera√ß√£o de search, este ser√° pr√≥ximo de X, mas pequenas varia√ß√µes ocorrem por conta do overhead de Python e estruturas de dados. Ajuda a entender se o algoritmo √© vi√°vel em tempo real. Por exemplo, para um agente advers√°rio r√°pido, 3‚ÄØs por jogada pode ser aceit√°vel; para um servidor de partidas online com mil partidas simult√¢neas, talvez n√£o. | ‚âà‚ÄØ3,01‚ÄØs | Vi√°vel em aplica√ß√µes offline ou semi‚Äërealtime, mas lento para sistemas interativos. | Uma alternativa seria limitar o n√∫mero de rollouts ou implementar uma vers√£o incremental do MCTS. |
| **Win-Rate contra √Årvore de Decis√£o** | Propor√ß√£o de partidas em que o MCTS sai **vencedor** contra a √°rvore de decis√£o. | 100% | Mostra que, mesmo com lat√™ncia (tempo entre comando e execu√ß√£o), o MCTS produz jogadas consistentemente superiores em cen√°rios adversariais est√°ticos. | Nada a melhorar neste aspeto. |

#### 6.2. Frequ√™ncia de Jogadas do MCTS

![Frequ√™ncia de Jogadas do MCTS](content/numeroJogadas.png)

*Figura 1: Frequ√™ncia de cada jogada no dataset mcts_dataset.csv*

- √â poss√≠vel ver que o MCTS tende a escolher muito mais as colunas centrais do tabuleiro. Em particular, a coluna 3 (o centro absoluto) responde por cerca de 25‚Äì30 % de todas as jogadas geradas, seguida pelas colunas 2 e 4 com ~15‚Äì20 % cada. J√° as colunas de borda (0 e 6) aparecem em menos de 5 % dos exemplos.

- Reflete uma estrat√©gia cl√°ssica de Connect-Four: controlar o centro maximiza o n√∫mero de linhas de quatro poss√≠veis e permite maior flexibilidade t√°tica. 

- No entanto, esse desequil√≠brio no dataset pode causar um vi√©s no modelo ID3, que vai aprender muito bem a classe ‚Äú3‚Äù mas ter√° menos amostras para diferenciar adequadamente as jogadas de borda.

- Como consequ√™ncia, a acur√°cia do ID3 estar√° inflada se medida apenas globalmente (pois grande parte das previs√µes recai sobre as colunas centrais).

- Para mitigar essa assimetria, poder√≠amos aplicar t√©cnicas de re-amostragem (undersampling das classes centrais ou oversampling das extremas) ou class weighting ao treinar a √°rvore, de modo a equilibrar melhor o aprendizado entre todos os tipos de jogada.

#### 6.3. Impacto de alpha 

![Impacto de alpha](content/impactoAlpha.png)

*Figura 2: Impacto de alpha na taxa de vit√≥ria e tempo m√©dio de decis√£o.*

| Œ±‚ÄØ=‚ÄØ0.1 | Œ±‚ÄØ=‚ÄØ0.5 (ponto √≥timo) | Œ±‚ÄØ=‚ÄØ1.0 |
| ------- | ------- | ------- |
|Mais "exploitation" na f√≥rmula UCT (Œ± baixo) d√° quase o mesmo ‚Äúsucesso‚Äù (97‚ÄØ%) mas leva um pouco mais de tempo (1.90‚ÄØs).|Maior taxa de vit√≥ria (99‚ÄØ%) e menor tempo por jogada (~1.86‚ÄØs).|Total foco em "exploration" (Œ± alto) aumenta a velocidade (2.02‚ÄØs) e faz a taxa de vit√≥ria cair para 97‚ÄØ%.|
|Provavelmente o agente est√° a desperdi√ßar algumas simula√ß√µes em ramos menos promissores.|√â a√≠ que a explora√ß√£o vs. exploit est√° mais equilibrada para o setup usado: explora o suficiente para ver novas jogadas, mas sem dispersar demasiado o esfor√ßo de simula√ß√£o.|Quando exploras demais sem peso para a parte de ‚Äúexploitation‚Äù, a √°rvore n√£o aprofunda r√°pido nas jogadas que j√° sabem ser boas.|

Conclui-se que `Œ± ‚âÉ 0.5` parece ser o **‚Äúsweet spot‚Äù** para o MCTS face ao advers√°rio.

#### 6.4. For√ßas e limita√ß√µes do algoritmo Monte Carlo Tree Search (MCTS)

- `Vantagens`: adapt√°vel a diferentes jogos, bom trade‚Äëoff exploit vs explore; n√£o requer fun√ß√£o de avalia√ß√£o manual;

- `Limita√ß√µes`: alto custo computacional, potencial para heur√≠sticas pobres em horizontes de busca muito longos.

#### 6.5. Desempenho da √Årvore de Decis√£o com o algoritmo ID3

O desempenho da √°rvore de decis√£o pode ser avaliado a partir do dataset gerado, e, consequentemente, a partir de algumas vari√°veis:

| Vari√°vel                    | Defini√ß√£o                                                                                                               | Resultado    | An√°lise                                                                                                                                                             | Poss√≠veis melhorias                                                                                                                               |
|-----------------------------|-------------------------------------------------------------------------------------------------------------------------|--------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------------------------------------|
|**N¬∫ de n√≥s da √°rvore**         | N√∫mero total de n√≥s (internos + folhas) gerados pelo algoritmo ID3 durante o treino.                                    | 16 061       | √Årvores muito grandes tendem a captar ru√≠do; um n√≥ por registo indica forte complexidade e risco elevado de overfitting.                                              | Introduzir um par√¢metro de **min_samples_split** mais alto ou poda p√≥s-treino para reduzir n√≥s sup√©rfluos.                                         |
| **Profundidade m√°xima**         | Dist√¢ncia (em n√≠veis) entre a raiz e a folha mais profunda.                                                              | 16           | Profundidade elevada dificulta interpretabilidade e sugere divis√£o excessiva; a √°rvore faz decis√µes muito espec√≠ficas.                                                | Limitar **max_depth** (p. ex. a 5‚Äì8 n√≠veis) para for√ßar divis√µes mais gerais e evitar percursos demasiado longos.                                  |
| **Precis√£o treino**             | Percentagem de exemplos do conjunto de treino classificados corretamente pela √°rvore.                                   | 73,03 %      | Valor moderado em treino revela que, mesmo nos dados vistos, o modelo n√£o encaixa perfeitamente ‚Äî possivelmente devido a ru√≠do ou muitos atributos irrelevantes.      | Fazer **feature selection** (e.g. vari√¢ncia m√≠nima, informa√ß√£o m√∫tua) para retirar atributos pouco informativos antes do treino.                     |
| **Precis√£o teste**              | Percentagem de exemplos do conjunto de teste classificados corretamente.                                                | 27,78 %      | Queda dr√°stica face ao treino indica fraca capacidade de generaliza√ß√£o: o modelo n√£o aprendeu padr√µes √∫teis para dados novos.                                         | Usar **valida√ß√£o cruzada** para selecionar hiperpar√¢metros (profundidade, limiares de split) e melhorar robustez do modelo.                         |
| **Tempo m√©dio infer√™ncia**      | Tempo de CPU m√©dio gasto para descer a √°rvore e produzir uma previs√£o por inst√¢ncia (m√©dia sobre at√© 100 amostras).     | ‚âà 0,0000 s   | Infer√™ncia praticamente instant√¢nea ‚Äî excelente desempenho para produ√ß√£o ‚Äî mas insuficiente para compensar a baixa qualidade das previs√µes.                           | Manter performance, mas considerar **ensembles** (Random Forest) para melhorar precis√£o sem sacrificar muito a velocidade de infer√™ncia.             |
| **Atributos usados (m√©d.)**     | N√∫mero m√©dio de divis√µes (features) examinadas no caminho da raiz at√© √† folha para cada inst√¢ncia de teste.             | 12,60        | Percursos longos (quase a profundidade m√°xima) confirmam que o modelo faz muitas divis√µes antes de prever, refletindo a alta complexidade da √°rvore.                   | Aplicar **poda** baseada em complexidade ou em ganho m√≠nimo de informa√ß√£o para encurtar caminhos e simplificar as regras de decis√£o.                |


#### 6.6. Rela√ß√£o entre acur√°cia, profundidade e tempo de previs√£o da √°rvore usando o algoritmo ID3

![Acur√°cia x Profundidade x Tempo de Previs√£o](content/acur√°ciaxprofundidadextempo.png)

*Figura 3. Acur√°cia da √°rvore ID3 em fun√ß√£o da profundidade e do tempo de previs√£o.*

- `Tend√™ncia geral de melhoria:` A acur√°cia sobe de 15,23 % (depth 2) para 22,23 % (depth 10), e o tempo m√©dio de previs√£o mant√©m-se em ‚âà 0,004 ms at√© profundidade 8, saltando para 0,007 ms em depth 10. Isso mostra que √°rvores mais profundas capturam mais padr√µes do dataset, elevando a precis√£o ao mesmo tempo que aumentam o custo computacional em n√≠veis mais altos de profundidade.
- `Baixa performance em profundidades rasas (2‚Äì4):` Em depth 2 e 4, a acur√°cia √© apenas ‚âà 15 %, claro sintoma de underfitting ‚Äî o modelo √© demasiado simples para as rela√ß√µes do conjunto. O tempo m√©dio de previs√£o √© m√≠nimo e id√™ntico nesses dois casos (‚âà 0,004 ms), refletindo a estrutura pouco profunda.
- `Grande salto de 4 para 6:` Passar de depth 4 (15,67 %) para 6 (19,10 %) traz um ganho de ‚âà 3,4 %, indicando que a √°rvore come√ßa a capturar intera√ß√µes antes ignoradas. O tempo m√©dio mant√©m-se em ‚âà 0,004 ms, sugerindo que at√© essa profundidade a complexidade extra n√£o impacta significativamente a lat√™ncia de infer√™ncia.
- `Poss√≠vel ponto de equil√≠brio (‚Äúsweet spot‚Äù):` Embora a acur√°cia m√°xima ocorra em depth 10, o equil√≠brio entre ganho de precis√£o e consist√™ncia do tempo de predi√ß√£o pode favorecer profundidades entre 6 e 8.
- `Melhor profundidade (maior acur√°cia):` Depth 10: acur√°cia = 22,23 %, tempo m√©dio ‚âà 0,007 ms.

#### 6.7. For√ßas e limita√ß√µes do algoritmo Iterative Dichotomiser 3 (ID3)

- `Vantagens`: interpretabilidade, rapidez de predi√ß√£o;

- `Limita√ß√µes`: baixa robustez em cen√°rios de alta dimensionalidade / caracter√≠sticas cont√≠nuas sem discretiza√ß√£o cuidadosa.

#### 6.8. Compara√ß√£o Geral

| Crit√©rio          | ID3 (√Årvore de Decis√£o) | MCTS                 |
| ----------------- | ----------------------- | -------------------- |
| Tipo de algoritmo | Supervisionado (aprende com os dados)| N√£o supervisionado (baseado em simula√ß√£o) |   
| Treino            | Necessita de dataset    | Nada                 |
| Capacidade de generaliza√ß√£o     | Limitada aos padr√µes nos dados| Explora os estados dinamicamente|
| Desempenho t√°tico | Previs√≠vel e fr√°gil     | Adapta-se            |
| Velocidade de Decis√£o   | Muito r√°pida (√°rvore j√° constru√≠da) | Mais lenta (requer simula√ß√µes)|
| Complexidade Computacional    | Baixa depois de treinada       | Alta (depende de nr de simula√ß√µes)  |

- `Cen√°rios simples (board est√°vel, poucos movimentos)`: ID3 pode competir razoavelmente bem;

- `Cen√°rios complexos (alto branching factor)`: MCTS tende a superar.

Conclui-se que:
- O ID3 √© √∫til para demonstrar como a IA pode tomar decis√µes com base em exemplos passados, mas n√£o reage bem a situa√ß√µes fora do padr√£o;
- O MCTS √© mais robusto, adapt√°vel e inteligente em tempo real, especialmente quando configurado com um n√∫mero razo√°vel de simula√ß√µes e bom ajuste do coeficiente de explora√ß√£o.

#### 6.9. Sugest√µes de Extens√µes Futuras

- Implementar poda em ID3 (e.g. reduced error pruning);

- Comparar com outros algoritmos de decis√£o (e.g. Random Forest, XGBoost);

## 7. Conclus√£o 

Neste trabalho, explor√°mos duas abordagens distintas de Intelig√™ncia Artificial aplicadas ao jogo Connect Four: Monte Carlo Tree Search (MCTS) e √Årvores de Decis√£o (ID3). 

O MCTS demonstrou ser significativamente mais eficaz. Ao simular milhares de partidas poss√≠veis antes de tomar decis√µes, esta abordagem conseguiu adaptar-se melhor ao advers√°rio e ao estado atual do jogo. O uso de par√¢metros como o n√∫mero de simula√ß√µes e o coeficiente de explora√ß√£o (com ajuste via `alpha`) mostrou-se crucial para alcan√ßar um bom desempenho.

Por outro lado, a √°rvore de decis√£o, treinada com exemplos de jogadas rotuladas, revelou-se uma solu√ß√£o r√°pida e compreens√≠vel, ideal para situa√ß√µes em que h√° padr√µes bem definidos. No entanto, a sua limita√ß√£o torna-se evidente em jogos com muitas possibilidades ou situa√ß√µes novas n√£o presentes no conjunto de treino.

Conclu√≠mos que, embora o ID3 seja uma boa introdu√ß√£o a modelos supervisionados, o MCTS √© a abordagem mais recomendada para jogos com alto n√∫mero de estados e onde a tomada de decis√£o precisa ser din√¢mica e explorat√≥ria. O projeto mostrou na pr√°tica como diferentes paradigmas de IA t√™m pontos fortes em contextos distintos.

## 8. Refer√™ncias

- Qi Wang‚Äôs Blog! (2022). Connect 4 with Monte Carlo Tree Search. [online] Available at: https://www.harrycodes.com/blog/monte-carlo-tree-search;

- matant (2020). Monte Carlo Tree Search - ConnectX. [online] Kaggle.com. Available at: https://www.kaggle.com/code/matant/monte-carlo-tree-search-connectx;
‚Äå
- ‚ÄåOpenAI (2025). ChatGPT. [online] chatgpt.com. Available at: https://chatgpt.com;
‚Äå
- GeeksforGeeks. (2024). Iterative Dichotomiser 3 (ID3) Algorithm From Scratch. [online] Available at: https://www.geeksforgeeks.org/iterative-dichotomiser-3-id3-algorithm-from-scratch/;
‚Äå
- AshirbadPradhan (2023). Decision Tree ID3 Algorithm |Machine Learning. [online] Medium. Available at: https://medium.com/@ashirbadpradhan8115/decision-tree-id3-algorithm-machine-learning-4120d8ba013b.
‚Äå