# Parâmetro C na fórmula UCB1

In [None]:
#mc_tester_c_param
from board import *
from montecarlo import *
import time

def run_monte_carlo_matches(num_games=100):
    '''Avalia em 100 jogos as diferenças de comportamento do MonteCarlo quando mudamos certos parâmetros'''
    ai1 = MonteCarlo_Player(c_param=np.sqrt(2))         # escolher valor do C parameter (ex.: 1,sqrt(2),2 ou 4)
    ai2 = MonteCarlo_Player(c_param=1)                  # escolher valor do C parameter (ex.: 1,sqrt(2), ou 4)
    results = {PLAYER1: 0, PLAYER2: 0, 0: 0}  # 0 é empate

    for game_idx in range(num_games):
        board = Board()
        current_player = PLAYER1

        while not board.is_game_over():

            if current_player == PLAYER1:
                move = ai1.make_move(board)
            else:
                move = ai2.make_move(board)

            if move == -1:
                break  # sem jogadas possíveis

            board.drop_piece(move)
            current_player = PLAYER2 if current_player == PLAYER1 else PLAYER1

        winner = board.winner if board.winner is not None else 0
        results[winner] += 1

    print(f"Vitórias Jogador 1 (Vermelho): {results[PLAYER1]}")
    print(f"Vitórias Jogador 2 (Amarelo): {results[PLAYER2]}")
    print(f"Empates: {results[0]}")

if __name__ == "__main__":
    run_monte_carlo_matches(num_games=100)

## Testes estatísticos por cada 100 jogos

### Teste 1
- **Jogador 1 (c_param = np.sqrt(2))**: 60 vitórias  
- **Jogador 2 (c_param = 2.0)**: 40 vitórias  
- **Empates**: 0

### Teste 2
- **Jogador 1 (c_param = 2.0)**: 56 vitórias  
- **Jogador 2 (c_param = np.sqrt(2))**: 44 vitórias  
- **Empates**: 0

### Teste 3
- **Jogador 1 (c_param = np.sqrt(2))**: 63 vitórias  
- **Jogador 2 (c_param = 4)**: 37 vitórias  
- **Empates**: 0

### Teste 4
- **Jogador 1 (c_param = 4)**: 60 vitórias  
- **Jogador 2 (c_param = np.sqrt(2))**: 40 vitórias  
- **Empates**: 0

### Teste 5
- **Jogador 1 (c_param = np.sqrt(2))**: 63 vitórias  
- **Jogador 2 (c_param = 1)**: 36 vitórias  
- **Empates**: 1

### Teste 6
- **Jogador 1 (c_param = 1)**: 67 vitórias  
- **Jogador 2 (c_param = np.sqrt(2))**: 32 vitórias  
- **Empates**: 1


## Conclusões

Após a análise estatística após 100 jogos para cada um dos 6 conjuntos de confrontos, concluímos que o valor de C = raiz de 2​ (aproximadamente 1.414), que é um valor teórico normalmente recomendado, demonstrou um desempenho forte e consistente contra as outras variações. O valor C = 1 também apresentou resultados muito competitivos, superando a raiz de 2​ quando atuou como Jogador 1. Valores de C mais altos, como 2 e especialmente 4, que incentivam maior exploração, não mostraram uma vantagem clara e, em alguns confrontos, foram superados por valores de C menores. 

Temos sempre a considerar que foram realizados 100 jogos. No entanto, os resultados sugerem que valores de C entre 1 e raiz de 2​ são os mais promissores para este problema, com raiz de 2​ a ser uma escolha robusta. Para os restantes testes e para o jogador final, optámos por manter o valor padrão de 2​ devido à sua boa performance em relação ao objetivo, com o C = 1 a ser uma opção para níveis de dificuldade inferiores.
