# First assignment: Informed and adversarial search strategies

## Estruturas de Dados implementadas

### Node

#### Atributos

&emsp;Move: Coordenadas do Movimento feito a ser representado pelo nó. Vetor de duas dimensões com a posição da coluna e linha.

&emsp;State: Estado atual do tabuleiro do jogo. Matriz de caracteres que representam os simbolos do jogo.

&emsp;Parent: Nó pai do nó representado. Referência para um nó.

&emsp;Children: Lista dos nós filhos do nó. Lista de referências para nós.

&emsp;pathCost: Custo do caminho + heurística para passar para o nó (o custo neste contexto não é relevante e não é considerado)

&emsp;N: A preencher

&emsp;Q: A preencher

#### Métodos

&emsp;setPathCost: Atribui um valor ao atributo pathCost

&emsp;getPathCost: Retorna o valor do atributo pathCost

&emsp;setChildren: Atribui um valor ao atributo children

### Implementação:

In [None]:
class Node():

    def __init__(self, move, state, parent):
        self.move = move
        self.state = state
        self.parent = parent
        self.children = []
        self.N = 0
        self.Q = 0
    
    def setPathCost(self, cost):
        self.pathCost = cost

    def getPathCost(self):
        return self.pathCost
    
    def setChildren(self, children):
        self.children = children

### Vector

#### Atributos

&emsp;X: Valor X do vetor. Inteiro

&emsp;Y: Valor Y do vetor. Inteiro

#### Métodos

&emsp;setX: Atribui um valor ao atributo X

&emsp;setY: Atribui um valor ao atributo Y

&emsp;getX: Retorna o valor do atributo X

&emsp;getY: Retorna o valor do atributo Y

### Implementação:

In [None]:
class Vector():

    def __init__(self, x, y):
        self.x = x
        self.y = y
    
    def setX(self, x):
        self.x = x

    def setY(self, y):
        self.y = y
    
    def getX(self):
        return self.x

    def getY(self):
        return self.y

### Queue

#### Atributos

&emsp;Stack: Lista para armazenar os valores da fila.

&emsp;Size: Tamanho da fila.

#### Métodos

&emsp;isEmpty: Verifica se a lista está ou não vazia.

&emsp;pop: Remove e retorna o elemento do topo da fila.

&emsp;top: Apenas retorna o elemento do topo da fila.

&emsp;add: Adiciona um elemento no topo da fila.

### Implementação:

In [None]:
class Queue():

    def __init__(self):
        self.stack = []
        self.size = 0

    def isEmpty(self):
        if self.size ==0:
            return True
        return False

    def pop(self):
        if self.size != 0:
            self.size = self.size - 1
            return self.stack.pop(self.size)
        else:
            return None

    def top(self):
        if self.size != 0:
            return self.stack.pop(self.size-1)
        else:
            return None
        
    def add(self, value):
        self.stack.append(value)
        self.size = self.size + 1

## Heurística

A heurística apresentada lida bem com o problema, mas por vezes parece não favorecer vitórias mais rápidas. No entanto decidimos ainda experimentar outra heurística de modo a comparar.

A heurística dada no enunciado tem como base o cálculo linear seguinte: ValorPeçasDoAdversário - ValorPeçasIA

Este valor de peças é dado pela soma das combinações em linha dos jogadores em todo o tabuleiro de 4 em 4 slots e cada linha de 4 tem os seguintes valores:

&emsp;Em caso de tokens iguais apenas: 1 em linha = 1, 2 em linha = 10, 3 em linha = 50, 4 em linha = 512 .

&emsp;Em caso de haver tokens de ambos os lados na mesma linha de 4 que basicamente não podem resultar em vitória é dado o valor 0.

Experimentamos ainda mudar os valores acima para 0.1 0.3 e 0.9 3.2 de modo a experimentar e baseado num documento de um trabalho realizado por um aluno de outra faculdade, mas não era tão eficiente dado que permitia o empate com o MinMax (pelo menos para a profundidade de 3).

Outra heurística possível é valorizar cada slot do tabuleiro dado mais valor aos do centro, como mostrado no seguinte esquema:

![text](esquemas/heuristica.png)

Testando usar esta heurística sozinha, para estado iniciais ela performa muito bem, mas em estado mais avançados comete erros e não é suficiente.

Mas se a usarmos junto à heurística anterior então temos uma boa adição a ela.

(Retirado de https://file.scirp.org/Html/1-9601415_90972.htm)

### Implementação:

In [None]:
# Regras de valoração de combinações do segmento (segmentos de 4 slots)
# params: 
#
#       segment | type: list de caracteres de tamanho 4 | representa um segmento de 4 slots com os símbolos de cada slot
#       IaSymbol | type: string | representa o símbolo que IA está a usar para jogar
#
# returns: type: int | Retorna a valoração correta para a combinação de número de símbolos X e O encontrados no segmento segundo as regras dadas para calculo da heurística

def heuristicVal(segment, IaSymbol):
    
    #Define qual símbolo é usado pelo humano com base no dado para a IA
    if IaSymbol == 'X':
        HumanSymbol = 'O'
    else:
        HumanSymbol = 'X'

    #Conta o número
    IA_count = segment.count(IaSymbol)
    Human_count = segment.count(HumanSymbol)

    if Human_count == 4 and IA_count == 0:
        return 512  # Valor para 4 Símbolos do humano e 0 Símbolos  da IA
    elif Human_count == 3 and IA_count == 0:
        return 50  # Valor para 3 Símbolos do humano e 0 Símbolos  da IA
    elif Human_count == 2 and IA_count == 0:
        return 10  # Valor para 2 Símbolos do humano e 0 Símbolos  da IA
    elif Human_count == 1 and IA_count == 0:
        return 1  # Valor para 1 Símbolos do humano e 0 Símbolos  da IA
    elif Human_count == 0 and IA_count == 0:
        return 0  # Sem O ou X
    elif IA_count == 1 and Human_count == 0:
        return -1  # Valor para 1  Símbolos da IA e 0 Símbolos do humano
    elif IA_count == 2 and Human_count == 0:
        return -10  # Valor para 2  Símbolos da IA e 0 Símbolos do humano
    elif IA_count == 3 and Human_count == 0:
        return -50  # Valor para 3  Símbolos da IA e 0 Símbolos do humano
    elif IA_count == 4 and Human_count == 0:
        return -512 # Valor para 4  Símbolos da IA e 0 Símbolos do humano
    else:
        return 0  #Combinação de O e X | nenhum padrão encontrado


# Cálculo da heurística através da geração dos segmentos e soma dos seus valores 
# params: 
#
#       boardState | matrix (list of lists): matrix de caracteres | representa o estado atual do tabuleiro do jogo
#       IaSymbol | type: string | representa o símbolo que AI está a usar para jogar
#
# returns: type: int | Retorna a heurística do boardState dado

def heuristicCalculate(boardState, IaSymbol):

    heuristic = 0

    # Segmentos horizontais
    for row in boardState:
        for i in range(len(row) - 3):
            segment = row[i:i+4] # segmento a ser valorado
            heuristic += heuristicVal(segment, IaSymbol)

    # Segmentos verticais
    for j in range(len(boardState[0])):
        for i in range(len(boardState) - 3):
            segment = [boardState[i+k][j] for k in range(4)] # segmento a ser valorado
            heuristic += heuristicVal(segment, IaSymbol)

    # Diagonal segments (superior-esquerdo to inferior-direito)
    for i in range(len(boardState) - 3):
        for j in range(len(boardState[0]) - 3):
            segment = [boardState[i+k][j+k] for k in range(4)] # segmento a ser valorado
            heuristic += heuristicVal(segment, IaSymbol)

    # Segmentos das Diagonais (superior-direito até inferior-esquerdo)
    for i in range(len(boardState) - 3):
        for j in range(3, len(boardState[0])):
            segment = [boardState[i+k][j-k] for k in range(4)] # segmento a ser valorado
            heuristic += heuristicVal(segment, IaSymbol)

    # Bónus de movimento
    move_bonus = 16 if IaSymbol == 'X' else -16 # Define o bónus dependendo de quem joga
    heuristic += move_bonus # Adiciona o bónus

    return heuristic

## Algoritmo A* (Algoritmo não advesarial)

### Implementação:

In [1]:
from dataStructs.myQueue import Queue
from dataStructs.node import Node
from dataStructs.vector import Vector
from searchAlgos.heuristic import heuristicCalculate

# Máximo entre dois inteiros
# params: 
#
#       a, b | type: int | Inteiros a ser comparados
#
# returns: type: int | Retorna o máximo entre a e b

def max(a, b):
    if a > b:
        return a
    else:
        return b
#
# Classe que representa o algoritmo Astar                                                                                                                                                  
# atributos:                                                                                                                                                                                
#       
#           frontier | type: Queue instance | Representa a fronteira ou seja os próximos caminhos a partir do estado dado
#           symbol | type: string | Representa o símbolo a ser jogado pela IA
#           monotony | type: int/float | Representa o valor da heurística (custo do caminho é irrelevante neste jogo) do ultimo estado escolhido
#
# metodos:
#
#       __bestMove | privado | Retorna a coluna do move do melhor nó ou seja o nó com heurística mais alta no caso
#       __setFrontier | privado | Define o atributo frontier com os nós filhos (neste caso não adiciona os nós anteriormente analizados pois não podemos voltar para trás neste jogo)
#       play | publico | Retorna a jogada a fazer pela IA
#
class Astar():

    # Construtor da classe
    # params: 
    #
    #       self | type: int | Referência ao objeto Astar usado 
    #       symbol | type: string | Símbolo jogado pela IA a ser guardado como argumento da classe
    #
    # A monotonia é ainda inicializada com o -inf para que possa ser ignorada na primeira jogada da IA

    def __init__(self, symbol):
        self.frontier = Queue()
        self.symbol = symbol
        self.monotony = float('-inf')
    
    # BestMove
    # params: 
    #
    #       self | type: int | Referência ao objeto Astar usado 
    #
    # return: type: int | Retorna a coluna do move do melhor nó ou seja o nó com heurística mais alta no caso

    def __bestMove(self):

        if self.frontier.isEmpty(): #Verifica se exitem jogadas possíveis (nós filhos)
            return False

        # Escolhe o melhor nó de entre os nós filhos (ou seja aquele com melhor heurística)
        bestMoveNode = self.frontier.pop()
        while ((newNode := self.frontier.pop()) != None):
            if newNode.pathCost < bestMoveNode.pathCost:
                bestMoveNode = newNode
        
        # atualiza a monotonia para a proxima jogada da IA
        self.monotony = bestMoveNode.pathCost

        return bestMoveNode.move.getX()
    
    # setFrontier
    # params: 
    #
    #       self | type: int | Referência ao objeto Astar usado 
    #       actualState | type: matrix (list of lists): matrix de caracteres | representa o estado atual do tabuleiro do jogo
    # Define o atributo frontier com os nós filhos (neste caso não adiciona os nós anteriormente analizados pois não podemos voltar para trás neste jogo)
        
    def __setFrontier(self, actualState):
        for column in range(0,7):
            for line in range(5,-1,-1):
                if actualState[line][column] == '-':

                    newState = list(map(list, actualState)) # Cria uma cópia do tabuleiro numa referência de memória diferente
                    newState[line][column] = self.symbol # Atualiza o tabuleiro com a jogada representada por o nó a ser calculado

                    node = Node(Vector(column, line), newState, None) # Cria o nó com o move e o estado do jogo que representa

                    # Na linha abaixo deveria ser somado o custo do caminho ao heuristicCalculate mas dado que neste jogo o custo é irrelevante não foi feito.
                    node.setPathCost(max(self.monotony, heuristicCalculate(node.state, self.symbol))) # Calcula e guarda a heurística do nó especifico (o custo do caminho é irrelevante neste jogo)

                    self.frontier.add(node) # Adiciona o nó à fronteira
                    break

    # play
    # params: 
    #
    #       self | type: int | Referência ao objeto Astar usado 
    #       game | type: matrix (list of lists): matrix de caracteres | representa o estado atual do tabuleiro do jogo
    #
    # return | type: int | Retorna a jogada a fazer pela IA

    def play(self, game):
        self.__setFrontier(game.state) # Define a fronteira
        
        return self.__bestMove() # Verifica e retorna o melhor dos nós da fronteira

### Dificuldades sentidas e pontos abordados durante a implementação do algoritmo

Numa primeira fase quando começamos a implementar o algoritmo e percebemos que ao contrário da implementação normal do A* esta não iria necessitar voltar para trás visto que no jogo não existe a possibilidade de remover peças do tabuleiro. Outra conclusão que tirámos era que o custo do caminho neste jogo não seria necessário visto que é o mesmo para qualquer coluna jogada de certa forma não existe um custo associado. Isso levou-nos à conclusão que estariamos a implementar um Greedy em vez de um A*.

A maior dificuldade neste algoritmo foi enquanto não percebemos que o comportamento de ignorar o outro jogador se dava devido à sua natureza não-advesarial.

### Problemas do algoritmo no contexto apresentado

Durante a implementação e testes no A* notamos principalmente dois problemas principais:

O facto do A* ser *não adversarial*, faz com que não reconheça as jogadas do adversário, perdendo sem se defender. Na maioria dos casos, existe uma grande facilidade de vitória por parte do jogador humano especialmente se este jogar em  primeiro lugar.

O segundo não seria um problema, mas o facto de não existir um custo associado a jogar em determinada coluna visto que é o mesmo jogar em qualquer que seja pelo menos em termos de custo (a heurística é diferente no entando esta é baseada no resultado final), estamos basicamente a implementar um Greedy. 

Dado que implementar a combinação do custo somado da heurística como custo total é o mesmo que considerar apenas a heurística tendo isto em conta, consideramos apenas a heurística, de certa forma implementando um greedy a única diferença é que garantimos que a função é monótona (isto não está presente no greedy).

Foi deixado um comentário na parte do código onde deveria ter sido feita a soma do custo do caminho para assim ter mesmo um A*.

## Algoritmo MinMax (Adversarial)

### Implementação:

In [None]:
from dataStructs.vector import Vector
from dataStructs.node import Node
from searchAlgos.heuristic import heuristicCalculate

#                                                                                                                                               
# atributos:                                                                                                                                                                                
#       
#           MaxSymbol | type: character | Representa o simbolo usado nos máximos (Simbolo da IA)
#           MinSymbol | type: character | Representa o símbolo usado nos mínimos
#
# metodos:
#
#       __gameAlreadyWon | privado | Retorna a coluna do move do melhor nó ou seja o nó com heurística mais alta no caso
#       __minimax | privado | Função recursiva para determinar o máximo e minimo dos nós alternadamente (implementação do minMax em si)
#       __getChildren | privado | Define os nós filhos do nó a ser analisado e dá calcula a heurística deles e o estado que representam
#       play | publico | Retorna a jogada a fazer pela IA
#
class MinMax():

    # Construtor da classe
    # params: 
    #
    #           self | type: int | Referência ao objeto MinMax usado
    #           MaxSymbol | type: character | Representa o simbolo usado nos máximos (Simbolo da IA)
    #           MinSymbol | type: character | Representa o símbolo usado nos mínimos
    #
    def __init__(self, MaxSymbol, MinSymbol):
        self.MaxSymbol = MaxSymbol
        self.MinSymbol = MinSymbol
    
    # gameAlreadyWon
    # params: 
    #
    #       self | type: int | Referência ao objeto MinMax usado
    #       gameState | type: matrix (list of lists): matrix de caracteres | Representa o estado do jogo neste ponto
    #
    # return: type: int | Retorna a hheurística em caso de vitória, empate ou derrota ou None

    def __gameAlreadyWon(self, gameState):
        heuristic = heuristicCalculate(gameState, self.MaxSymbol) # Calcula a heurística do estado neste ponto
        if heuristic >= 512 or heuristic <= -512 or heuristic == 0: # Verifica se é vitória, empate ou derrota
            return heuristic
        return None

    # minimax
    # params: 
    #
    #       self | type: int | Referência ao objeto MinMax usado
    #       children | type: list of nodes | Lista com os nós filhos do nó "expandido"
    #       depth | type: int | Altura restante a analisar
    #       maximizingPlayer | type: bool | Se é ou não uma altura de comparar máximos ou não (se não for são mínimos)
    #       actualGame | type: matrix (list of lists): matrix de caracteres | Representa o estado do jogo neste ponto
    #
    # return: type: int | Retorna o valor máximo ou minimo dependendo da fase e o melhor nó


    def __minimax(self, children, depth, maximizingPlayer, actualGame):

        # Verifica se a já verificamos a uma altura suficiente (defenida posteriormente)
        if depth == 0:
            return 0, None
 
        # Primeiro expande até à profundidade pretendida e posteriormente ao voltar para trás escolhe o nó maximo ou minimo dependendo do "turno" (forma alternada começando sempre no Max nesta implementação)
        if maximizingPlayer:
            heuristicVal = self.__gameAlreadyWon(actualGame) # Verifica se houve ou não o fim do jogo e retorna uma heurística caso aconteça
            if heuristicVal and (heuristicVal >= 512 or heuristicVal == 0):
                return heuristicVal, None # Retornando tal heurística como valor máximo em caso de vitória ou empate
 
            max_eval = float('-inf') # Inicializa o valor máximo como -inf para a primeira comparação
            best_move = None # Inicializa o bestMove
            for child in children: # Percorre os nós filhos do nó atual a ser analizado

                eval, bestChild = self.__minimax(self.__getChildren(child.state, self.MinSymbol), depth - 1, False, child.state) # Para cada nó filho aplica o minmax mas agora para a busca de minimos

                # Caso o nó maximo dos nós seja vitória ou empate o eval recebe o valor da heurística do nó filho a ser analizado
                if bestChild == None:
                    eval = child.getPathCost()

                # Verifica se o nó é maximo comparado aos já analizado
                if eval > max_eval:
                    max_eval = eval
                    best_move = child

            # Retorna o nó maximo e o seu valor
            return max_eval, best_move
        else:
            heuristicVal = self.__gameAlreadyWon(actualGame) # Verifica se houve ou não o fim do jogo e retorna uma heurística caso aconteça
            if heuristicVal and (heuristicVal <= -512 or heuristicVal == 0): 
                return heuristicVal, None  # Retornando tal heurística como valor mínimo em caso de vitória ou empate

            min_eval = float('inf') # Inicializa o valor mínimo como inf para a primeira comparação
            best_move = None # Inicializa o bestMove
            for child in children: # Percorre os nós filhos do nó atual a ser analizado

                eval, bestChild = self.__minimax(self.__getChildren(child.state, self.MaxSymbol), depth - 1, True, child.state) # Para cada nó filho aplica o minmax mas agora para a busca de máximos
                
                # Caso o nó mínimo dos nós seja vitória ou empate o eval recebe o valor da heurística do nó filho a ser analizado
                if bestChild == None:
                    eval = child.getPathCost()
                
                # Verifica se o nó é maximo comparado aos já analizado
                if eval < min_eval:
                    min_eval = eval
                    best_move = child

            # Retorna o nó mínimo e o seu valor
            return min_eval, best_move

    # getChildren
    # params: 
    #
    #       self | type: int | Referência ao objeto MinMax usado
    #       game | type: matrix (list of lists): matrix de caracteres | Representa o estado do jogo neste ponto
    #       symbolToPlay | type: character | Simbolo a jogar no momento
    #
    # return: type: list of nodes | retorna os nós filhos do estado passado

    def __getChildren(self, game, symbolToPlay):
        children = []
        for column in range(0,7):
            for line in range(5, -1, -1):
                if game[line][column] == '-': # Procura pela linha disponível na coluna caso exista
                    
                    newGame = list(map(list, game)) # Copia o estado do tabuleiro para uma referência de memória diferente
                    newGame[line][column] = symbolToPlay # Atualiza esse estado com o simbolo no move a jogar
                    node = Node(Vector(column, line), newGame, None) # Cria um nó para esse move e estado
                    
                    node.setPathCost(heuristicCalculate(game, self.MinSymbol)) # Calcula a heurística para esse estado
                    children.append(node) # adiciona esse nó á lista dos filhos
                    break
        return children

    # play
    # params: 
    #
    #       self | type: int | Referência ao objeto MinMax usado
    #       game | type: matrix (list of lists): matrix de caracteres | Representa o estado do jogo neste ponto
    #
    # return: type: int | Retorna a coluna da melhor jogada

    def play(self, game):
        newGame = list(map(list, game.state)) # Copia o estado do jogo para outro endereço de memória
        frontier = self.__getChildren(newGame, self.MaxSymbol) # Busca os nós filhos do estado atual
    
        _, melhor = self.__minimax(frontier, 3, True, newGame) # Aplica o minmax começando pelo máximo

        return melhor.move.getX() # Retorna a coluna da melhor jogada

### Melhorias em relação ao A* e problemas:

Decidimos implementar o MinMax para testar realmente a heurística usando um algoritmo adversarial que é ideal para o jogo em questão.

Comparando com o A* a diferença é notória pois o MinMax considera as jogadas do adversário, bloqueando-as e jogando em função de evitar a derrota e não apenas de ganhar.

Reparámos que por vezes o algortimo não escolhe o caminho de vitória mais rápido optando por fazer mais jogadas mas isso deve-se principalmente à heurística apresentada.

Em termos de performance depende da profundidade a ser analisada pretendida, uma profundidade de 3 pareceu-nos ideal e uma boa troca entre performance e eficiência, sendo praticamente impossível de ganhar (nós nunca o conseguimos fazer), obviamente profundidades maiores tornavam o algoritmo ligeiramente mais lento mas tornava-o mais díficil de vencer teoricamente.

## Interface

O código para uma interface que permite a escolha do algoritmo contra quem tencionamos jogar (dos apresentados acima), pode ainda ser escolhido o símbolo com que jogar.

### Implementação

In [None]:
from searchAlgos.astar import Astar
from searchAlgos.miniMax import MinMax
from searchAlgos.mcts import MCTS
from fourGame import FourGame

# Analisa e retorna a resposta junto com o tabuleiro atual
# params: 
#
#       game | matrix (list of lists): matrix de caracteres | representa o estado atual do tabuleiro do jogo
#       result | type: int | representa o códdigo daquilo que aconteceu no jogo (-1 -> a coluna está cheia | 0 -> Caso não acha fim no jogo | 1 -> Caso de empate | 2 -> Caso de vitória)
#       winner | type: string | representa o símbolo que venceu no caso de vitória
#
# returns: type: boolean | Retorna se o jogo terminou ou não

def showResults(game, result, winner):

    print(game)  # Print do estado atual do tabuleiro

    match result:
        case -1:  # Caso quando a coluna está cheia
            print("Invalid Move! Please choose another column.")
            return False, True
        case 0:  # Caso para quando o movimento é valido mas não resulta no fim do jogo
            print("Nice Move!")
            return False, False
        case 1:  # Caso de empate
            print("It's a Draw!!")
            return True, False
        case 2:  # Caso de vitória
            print('The symbol ' + winner + ' just won!')
            return True, False

def main():
    game = FourGame(7, 6)  # Cria uma nova instância da classe FourGame
    end = False  # Inizializa end como False e usa-o para indicar que o jogo ainda não terminou

    move = input('Escolhe o símbolo com que queres jogar (X ou O): ') # Escolher com que símbolo se quer jogar 

    # Escolhe o símbolo com que o jogador quer jogar
    try:
        if move != 'X' and move != 'O':
            raise ValueError
    except ValueError:
        print('O símbolo deve ser X ou O')
        return
    
    match move:
        case 'X':
            iaSymbol = 'O'
        case 'O': 
            iaSymbol = 'X'

    # Escolhe contra que algoritmo o jogador pretende jogar
    print('===============\n| 1 -> A*     |\n| 2 -> MCTS   |\n| 3 -> MinMax |\n===============')
    algoResp = int(input('Escolhe contra que algoritmo gostarias de jogar: '))
    match algoResp:
        case 1:
            algo = Astar(iaSymbol)
        case 2:
            algo = MCTS(iaSymbol, game)
        case 3:
            algo = MinMax(iaSymbol, move)

    # Faz moves até que o jogo tenha um fim
    while not end:
        invalid = False
        while True:  # Loop para verificar o input até ser dado um movimento válido
            try:
                col = int(input('Column: '))
                if col < 1 or col > 7:
                    raise ValueError  # Raise a ValueError se o input não estiver entre 1-7
                break
            except ValueError:
                print("Invalid Input! Please enter a number from 1 to 7.")

        result, winner = game.makeMove(col, move)  # Faz um movimento na coluna col

        end, invalid = showResults(game, result, winner) # Analisa e retorna a resposta junto com o tabuleiro atual

        if not end and not invalid:
            result, winner = game.makeMove(algo.play(game)+1, iaSymbol)  # Faz um movimento na coluna col

            end, invalid = showResults(game, result, winner) # Analisa e retorna a resposta junto com o tabuleiro atual
        
if __name__ == '__main__':
    main()