# Parâmetro critério no best_action - Nº de visitas ou WinRate

In [None]:
#mc_tester_best_action
from board import *
from montecarlo import *
import time

def run_monte_carlo_matches(num_games=100):
    '''Avalia em 100 jogos as diferenças de comportamento do MonteCarlo quando mudamos certos parâmetros'''
    ai1 = MonteCarlo_Player_WinRate(c_param=np.sqrt(2))     # escolher o modo de escolha da melhor ação (maior numero de visitas ou win rate)
    ai2 = MonteCarlo_Player(c_param=np.sqrt(2))             # escolher o modo de escolha da melhor ação (maior numero de visitas ou win rate)
    results = {PLAYER1: 0, PLAYER2: 0, 0: 0}  # 0 é empate

    for game_idx in range(num_games):
        board = Board()
        current_player = PLAYER1

        while not board.is_game_over():

            if current_player == PLAYER1:
                move = ai1.make_move(board)
            else:
                move = ai2.make_move(board)

            if move == -1:
                break  # sem jogadas possíveis

            board.drop_piece(move)
            current_player = PLAYER2 if current_player == PLAYER1 else PLAYER1

        winner = board.winner if board.winner is not None else 0
        results[winner] += 1

    print(f"Vitórias Jogador 1 (Vermelho): {results[PLAYER1]}")
    print(f"Vitórias Jogador 2 (Amarelo): {results[PLAYER2]}")
    print(f"Empates: {results[0]}")

if __name__ == "__main__":
    run_monte_carlo_matches(num_games=100)

## Testes estatísticos por cada 100 jogos

### Teste 1
- **Jogador 1 - MonteCarlo_Player (número de visitas)**: 55 vitórias  
- **Jogador 2 - MonteCarlo_Player_WinRate (WinRate)**: 44 vitórias  
- **Empates**: 1

### Teste 2
- **Jogador 1 - MonteCarlo_Player_WinRate (WinRate)**: 48 vitórias  
- **Jogador 2 - MonteCarlo_Player (número de visitas)**: 50 vitórias  
- **Empates**: 2


## Conclusões

O critério número de visitas é geralmente mais robusto do que a Win Rate, pois reflete melhor o trabalho geral de exploração e avaliação feito pelo algoritmo MCTS, guiado pelo UCB1. Uma jogada muito visitada significa que o algoritmo consistentemente considerou a jogada promissora ao longo de muitas simulações. A Win Rate, apesar de ser uma opção intuitiva, é mais sensível a resultados iniciais ou à “sorte” em poucas simulações - ruído/outliers. Uma jogada pode ter uma taxa de 100% após poucas visitas, mas isso não é tão fiável como uma taxa de 80% baseada em centenas ou milhares de visitas.


Desta forma, e com a confirmação de melhor performance do número de visitas sobre a Win Rate, e com o objetivo de encontrar um critério de escolha mais informada e estatisticamente significativo, concluímos que o número de visitas é o melhor critério a utilizar no jogo Quatro em Linha.
