## Rapport de projet Ultimate Tic Tac Toe
### Par Belarouci Mohamed Nadir et Hu Marc


## I. La représentation du problème  

Le modèle est décrit par certaines classes:

Nous identifions 3 classes principales parmi celles-ci:

- la classe Cell qui représente une petite cellule parmis les 81 cellules qui forment le jeu
- la classe Board qui représente un mini-board parmi les 9 board du jeu, elle contient 9 petites cellules et elle est aussi considérée comme une cellule puisqu'elle fait partie du MasterBoard
- Le MasterBoard qui représente les 9 mini-boards

Le modèle a deux autres enums pour représenter l'état du jeu ou d'une cellule

![uml-diagram.png](attachment:uml-diagram.png)


Nous avons donc ajouter 4 fichiers au projet de base qui sont :
- UltimateTicTacToeModel : Notre modèle qui comporte toutes les classes du diagramme UML
- AI : Nos stratégies 
- UltimateTicTacToeGame : Contient une classe UTTTGame qui permet de jouer au Ultimate Tic Tac Toe et initialiser les joueurs
- UltimateTicTacToeModel-new : Initialiser le match

## II. Les stratégies

### 1. Une stratégie aléatoire

Cette stratégie est très simple:

Étant donné un mini-board sur lequel on va jouer, si le tableau n'est pas détenu par un joueur, c'est-à-dire que nous pouvons jouer dessus, nous choisissons aléatoirement une cellule parmi les cellules vides que contient ce mini-board.
sinon, si le mini-board est détenu par un joueur, c'est-à-dire déjà gagné par un cercle ou une croix ou dans le cas d'un match nul, alors nous choisissons au hasard un mini-board parmi les autres mini-board du tableau principal. et bien sûr nous continuons en choisissant aléatoirement une cellule parmi les cellules vides que contient ce nouveau mini-board choisie.

In [None]:
    def move(self, board_move=None):
        if board_move is None:
            return
        # iSi le mini-board est pris
        if self.board.is_taken(board_move):
            board_moves = []
            # Donc pour tous les mini-board du master board
            for i in range(3):
                for j in range(3):
                    if not self.board.is_taken((i, j)):
                        # On ajoute le mini-board si il n'est pas pris
                        board_moves.append((i, j))
            
            # On choisit au hasard le mini-board pas pris 
            x = random.randint(0, len(board_moves) - 1)

            board_move = board_moves[x]
        
        cell_moves = []
        # Pour toutes les cases du mini-board choisi
        for i in range(3):
            for j in range(3):
                if self.board.cells[board_move[0]][board_move[1]].cells[i][j].is_empty():
                    # Ajoute la case si elle n'est pas prise
                    cell_moves.append((i, j))
        # On choisit la case au hasard parmi celle qui ne sont pas prise
        x = random.randint(0, len(cell_moves) - 1)
        cell_move = cell_moves[x]
        
        # retourne le mini-board et la prochaine case à jouer
        return board_move, cell_move

### 2. MiniMax stratégie

Dans cette stratégie, nous devons formuler une fonction d'évaluation heuristique, qui renvoie un score relatif, par exemple, + ∞ pour ordinateur-gagnant, -∞ pour adversaire-gagnant, 0 pour neutre, et un nombre entre les deux pour indiquer l'avantage relatif de l'ordinateur contre l'adversaire.

Dans le Tic-Tac-Toe, une fonction d'évaluation heuristique possible pour la position actuelle du forum est:

- +100 pour CHAQUE 3-dans-une-ligne pour ordinateur.
- +10 pour CHAQUE deux-en-ligne (avec une cellule vide) pour ordinateur.
- +1 pour CHAQUE une-en-ligne (avec deux cellules vides) pour ordinateur.
- Les scores négatifs pour l'adversaire, c'est-à-dire, -100, -10, -1 pour chaque 3-dans-une-ligne de l'adversaire, 2-dans-une-ligne et 1-dans-une-ligne.
- 0 sinon (lignes vides ou lignes avec les graines de l'ordinateur et de l'adversaire).

Pour le Tic-Tac-Toe, il faut calculer les scores pour chacune des 8 lignes (3 lignes, 3 colonnes et 2 diagonales) et obtenir la somme.

Mais comment traitons-nous le problème de l'ultimate-tic-tac-toe?

Nous pouvons utiliser la même stratégie, puisque Ultimate-tic-tac-toe est juste un tic-tac-toe à 2 niveaux.
Une façon possible de traiter ce problème est d'utiliser cette fonction heuristique avec les mini-board, on obtient un certain score $S$, puis on utilise la même fonction heuristique pour calculer le score de chaque mini-board et on le stocke dans un vecteur $S_v$.

A partir de cela, nous formulons le score global qui est juste:
$$S_g= 10 * S + \sum_{i=0}^9 S_v$$


Nous multiplions S par 10 pour donner plus de poids puisque le tableau principal est presque 10 fois plus grand qu'un mini tableau.



Afin de mettre en œuvre cette stratégie, nous utilisons l'algorithme Minimax avec Alpha-beta Pruning 

L'algorithme commence par trouver tous les mouvements possibles, il peut être au plus 9 si le mini-board n'est pas pris, ou 64 au maximum si le mini-board est pris.
Le nombre de mouvements possibles définit le nombre d'appels récursifs que l'algorithme va effectuer à chaque niveau, et avec un profondeur = 5, nous pouvons nous retrouver avec plus de 3 millions de nœuds à visiter, ce qui prend beaucoup de temps.
En outre, la profondeur est ce qui rend une instance IA forte, une instance d'IA avec un profondeur de 5 est beaucoup plus forte qu'une instance d'IA avec un profondeur de 2, elle gagne toujours, peu importe celui qui commence à jouer.


In [None]:
    """
        move takes the current_board_move which represent the coordinates of the current mini board that's we playing on
        it updates the self.cells attribute, then it calls the minimax algorithm 
        :return list[board_move,cell_move]
    """

    def move(self, current_board_move=None):
        if current_board_move is not None:
            self.current_board_move = current_board_move

        self.cells = self.board.cells
        m = self.minimax(self.depth, self.player1, -float('inf'), float('inf'))
        return m[1:]

    """
        Minimax (recursive) at level of depth for maximizing or minimizing player
        with alpha-beta cut-off. Return int[3] of {score, board_move[], cell_move[]}  
    """

    def minimax(self, depth, player, alpha, beta):
        best_cell_move = [-1, -1]
        best_board_move = [-1, -1]
        #  Generate possible next moves in a list of tuples of (board_move, cell_move)
        next_moves = self.generate_moves()

        # player1 is maximizing; while player2 is minimizing

        if len(next_moves) == 0 or depth == 0:
            # game over or depth reached, evaluate score
            score = self.evaluate()
            return [score, best_board_move, best_cell_move]
        else:
            for b_move, c_move in next_moves:
                # try a move
                i, j = b_move
                row, col = c_move
                self.board.set_cell_in_board(b_move, c_move, player)
                if player == self.player1:  # player1 (computer) is maximizing player
                    score = self.minimax(depth - 1, self.player2, alpha, beta)[0]
                    if score > alpha:
                        alpha = score
                        best_board_move = b_move
                        best_cell_move = c_move
                else:  # player2 is minimizing player
                    score = self.minimax(depth - 1, self.player1, alpha, beta)[0]
                    if score < beta:
                        beta = score
                        best_board_move = b_move
                        best_cell_move = c_move

                # undo move
                i, j = b_move
                k, l = c_move
                self.cells[i][j].cells[k][l].set_player(CellState.EMPTY)
                self.cells[i][j].set_player(CellState.EMPTY)
                # cut off
                if alpha >= beta:
                    break

        return [alpha if player == self.player1 else beta, best_board_move, best_cell_move]

La méthode d'évaluation qui est appelée lorsqu'il n'y a pas de mouvements possibles ou que la profondeur est 0, implémente l'heuristique dont nous avons parlé plus haut.

Elle est défini comme suit :


In [None]:
    """
        evaluate calculate the heuristic of the MasterBoard 
           The heuristic evaluation function for a given line of 3 cells: 
            +100, +10, +1 for 3-, 2-, 1-in-a-line for computer.
                   -100, -10, -1 for 3-, 2-, 1-in-a-line for opponent.
                   0 otherwise (this work is done by evaluate_line())
        we first calculate an heuristic of the mini boards 
        than we add to the the heuristic of cells of each mini board 
        
    """

    def evaluate(self):

        score = 0
        score += self.evaluate_line(self.cells, 0, 0, 0, 1, 0, 2)  # row 0
        score += self.evaluate_line(self.cells, 1, 0, 1, 1, 1, 2)  # row 1
        score += self.evaluate_line(self.cells, 2, 0, 2, 1, 2, 2)  # row 2
        score += self.evaluate_line(self.cells, 0, 0, 1, 0, 2, 0)  # col  0
        score += self.evaluate_line(self.cells, 0, 1, 1, 1, 2, 1)  # col 1
        score += self.evaluate_line(self.cells, 0, 2, 1, 2, 2, 2)  # col 2
        score += self.evaluate_line(self.cells, 0, 0, 1, 1, 2, 2)  # diagonal
        score += self.evaluate_line(self.cells, 0, 2, 1, 1, 2, 0)  # alternate diagonal
        score *= 10  # multiply the score by 10, since The MasterBoard is bigger 10 times than a mini board (optional)

        # for each mini board
        for row in self.cells:
            for mini_board in row:
                # calculate its heuristic
                score += self.evaluate_line(mini_board.cells, 0, 0, 0, 1, 0, 2)  # row 0
                score += self.evaluate_line(mini_board.cells, 1, 0, 1, 1, 1, 2)  # row 1
                score += self.evaluate_line(mini_board.cells, 2, 0, 2, 1, 2, 2)  # row 2
                score += self.evaluate_line(mini_board.cells, 0, 0, 1, 0, 2, 0)  # col  0
                score += self.evaluate_line(mini_board.cells, 0, 1, 1, 1, 2, 1)  # col 1
                score += self.evaluate_line(mini_board.cells, 0, 2, 1, 2, 2, 2)  # col 2
                score += self.evaluate_line(mini_board.cells, 0, 0, 1, 1, 2, 2)  # diagonal
                score += self.evaluate_line(mini_board.cells, 0, 2, 1, 1, 2, 0)  # alternate diagonal

        return score


### 3. Corner stratégie

La stratégie Corner est très simple, le joueur va essayer de jouer d'abord dans les coins d'un board. Par exemple, il va d'abord jouer en haut à gauche puis en haut à droite et enfin en bas à gauche. Si il parvient à poser une fiole sur ces 3 positions alors il aura au maximum 3 cases à jouer pour gagner le mini-board (au milieu, haut milieu et milieu gauche), dans un cas très favorable bien sûr. Cette stratégie nous vient du fait de jouer un Tic Tac Toe normal. En effet, si on joue en premier et qu'on joue stratégiquement les coins alors on est sûr de pouvoir gagner ou de faire un match nul mais on ne perdra jamais le simple Tic Tac Toe si on commence et qu'on joue les coins (ou corner).

In [None]:
#self.corner contient nos préférences, on jous d'abord sur la case (0, 0) puis (0, 2) et enfin (2, 0)
self.corner=[(2, 0), (0, 2), (0, 0)]
#Si on a déjà mis toutes nos préférences, alors on va jouer les cases qui nous font gagner qui sont :
#le (1, 1), (1, 0) et (0, 1)
self.rest=[(2, 2), (2, 1), (1, 2), (1, 1), (1, 0), (0, 1)]

In [None]:
def move(self, board_move=None):
        if board_move is None:
            return
        #Si le board est déjà pris
        if self.board.is_taken(board_move):
            find=False
            #On choisit un board selon nos préférences
            for i in range(len(self.corner)):
                #Si on en trouve un on le prend
                if not self.board.is_taken(self.corner[i]):
                    board_move=self.corner[i]
                    find=True
                    break
            #Sinon on va chercher dans les positions gagnantes ou les boards restants
            if not find :
                for i in range(len(self.rest)):
                    if not self.board.is_taken(self.rest[i]):
                        board_move=self.rest[i]
        found=False
        #Lorsqu'on a trouvé notre board on va chercher la case dans les préférences
        for i in range(len(self.corner)):
            if self.board.cells[board_move[0]][board_move[1]].cells[self.corner[i][0]][self.corner[i][1]].is_empty():
                cell_move=self.corner[i]
                found=True
        #Si on ne trouve pas alors on va chercher dans les restes
        if not found:
            for i in range(len(self.rest)):
                if self.board.cells[board_move[0]][board_move[1]].cells[self.rest[i][0]][self.rest[i][1]].is_empty():
                    cell_move=self.rest[i]
        return board_move, cell_move

Afin d'améliorer un tout petit peu la stratégie, le CornerAI changera ses préférences selon les boards/cases prises. Avant de décider dans quel board jouer (si le board est déjà pris) on va appeler une fonction qui permet de choisir les préférences parmi celle-ci :

In [None]:
#Préférence choisie si la case bas droite est prise
self.corner1=[(2, 0), (0, 2), (0, 0)]
self.rest1=[(2, 2), (2, 1), (1, 2), (1, 1), (1, 0), (0, 1)]
#Préférence choisie si la case bas gauche est prise
self.corner2=[(2, 2), (0, 0), (0, 2)]
self.rest2=[(2, 1), (2, 0), (1, 0), (1, 1), (1, 2), (0, 1)]
#Préférence choisie si la case haut gauche est prise
self.corner3=[(2, 0), (0, 2), (2, 2)]
self.rest3=[(0, 0), (0, 1), (1, 0), (1, 1), (2, 1), (1, 2)]
#Préférence choisie si la case haut droite est prise
self.corner4=[(2, 2), (0, 0), (2, 0)]
self.rest4=[(1, 2), (0, 2), (0, 1), (1, 1), (2, 1), (1, 0)]

Ce choix sera aussi fait au niveau du choix de la case dans une board.

### 4. Monte Carlo Tree Search Algorithm

Explorons comment fonctionne l'algorithme. Au départ, nous allons construire un arbre de reconnaissance (arbre de jeu) avec un nœud racine, puis nous continuerons à l'étendre avec des déploiements aléatoires. Dans le processus, nous allons maintenir le nombre de visites et le nombre de victoires pour chaque nœud.

Au final, nous allons sélectionner le noeud avec les statistiques les plus prometteuses.

L'algorithme se compose de quatre phases. Explorons chacun d'eux en détail.

- 4.1 Sélection

Dans cette phase initiale, l'algorithme commence avec un nœud racine et sélectionne un nœud enfant de telle sorte qu'il sélectionne le nœud avec un taux de victoire maximum. Nous voulons également nous assurer que chaque nœud a une chance équitable.

L'idée est de continuer à sélectionner des nœuds enfants optimaux jusqu'à ce que nous atteignions le nœud feuille de l'arbre. Un bon moyen de sélectionner un tel nœud enfant est d'utiliser la formule UCT (Upper Confidence Bound appliquée aux arbres):
$$\frac{w_u}{n_i} + c *  \sqrt{\frac{ln(t)}{n_i}}$$

Dans lequel

* wi = nombre de victoires après le i-ème mouvement
* ni = nombre de simulations après le i-ème mouvement
* c = paramètre d'exploration (théoriquement égal à √2)
* t = nombre total de simulations pour le noeud parent


La formule garantit qu'aucun État ne sera victime de la famine et qu'il joue aussi des branches prometteuses plus souvent que leurs homologues.
3.2. Expansion
Quand il ne peut plus appliquer UCT pour trouver le nœud successeur, il développe l'arbre de jeu en ajoutant tous les états possibles du nœud feuille.

- 4.3 Simulation

Après Expansion, l'algorithme choisit arbitrairement un nœud enfant et simule un jeu randomisé à partir du nœud sélectionné jusqu'à ce qu'il atteigne l'état résultant du jeu. Si les nœuds sont choisis aléatoirement ou semi-aléatoirement pendant le play out, cela s'appelle light play out. Vous pouvez également opter pour un jeu lourd en écrivant des heuristiques de qualité ou des fonctions d'évaluation.

- 4.4 Rétropropagation

Ceci est également connu comme une phase de mise à jour. Une fois que l'algorithme atteint la fin du jeu, il évalue l'état pour déterminer quel joueur a gagné. Il traverse vers le haut jusqu'à la racine et augmente le score de visite pour tous les nœuds visités. Il met également à jour le score de victoire pour chaque nœud si le joueur pour cette position a gagné la diffusion.

MCTS ne cesse de répéter ces quatre phases jusqu'à un nombre fixe d'itérations ou d'une certaine quantité de temps fixe.

Dans cette approche, nous estimons le score gagnant pour chaque nœud basé sur des mouvements aléatoires. Plus le nombre d'itérations est élevé, plus l'estimation devient fiable. Les estimations de l'algorithme seront moins précises au début d'une recherche et continueront à s'améliorer après un laps de temps suffisant. Encore une fois, cela dépend uniquement du type de problème.

## III. Les tests

Nous simulé des matchs entre les différents IA développé et nous constatons que Alpha-beta Pruning reste le meilleur de tous. Ensuite nous avons l'algorithme de recherche de Monte-Carlo. Puis Corner strategy et enfin la stratégie aléatoire.


## IIII. Lancement des tests

Afin de simuler un match, il faut d'abord sélectionner les types d'IA souhaité dans le fichier pySpriteWorld-forStudents/UltimateTicTacToeGame.py ligne 16 et 17. Ligne 16 pour le joueur avec la croix et 17 pour celui avec les cercles. 
Ensuite pour lancer il faut simplement executer le fichier avec la commande suivante (dans le dossier pySpriteWorld-forstudents) :
   python3 UltimateTicTacToe-new.py