# Minimax en Python: le jeu de Nim

adapted from: Geir Arne Hjelle https://realpython.com/python-minimax-nim/ 

avec l'aide de ChatGPT pour la traduction.

Erreurs dûes à Marc Lelarge, merci de les signaler: https://github.com/mlelarge/agreg/issues

[Nim](https://fr.wikipedia.org/wiki/Jeux_de_Nim) est un jeu pour deux joueurs qui se termine toujours avec la victoire d'un joueur. Le jeu consiste en plusieurs jetons posés sur la table de jeu et les joueurs qui se relaient pour en retirer un ou plusieurs. Dans la première moitié de ce tutoriel, vous allez jouer une version simplifiée de Nim avec les règles suivantes :

- Il y a plusieurs jetons dans un tas commun.
- Deux joueurs se relaient.
- A son tour, un joueur retire un, deux ou trois jetons du tas.
- Le joueur qui prend le dernier jeton perd la partie.

Nous allons appeler ce jeu Simple-Nim. Plus tard, vous allez apprendre les vraies règles de Nim. Elles ne sont pas beaucoup plus compliquées, mais Simple-Nim est plus facile à présenter.

Voici un exemple de jeux:

| Mindy | Tas       | Maximillien |
|:-------|:------------:|------------:|
|       | 🪙🪙🪙🪙🪙🪙🪙🪙🪙🪙🪙🪙 |            |
| 🪙🪙      | 🪙🪙🪙🪙🪙🪙🪙🪙🪙🪙 |            |
|       | 🪙🪙🪙🪙🪙🪙🪙🪙🪙 |      🪙      |
|   🪙🪙🪙    | 🪙🪙🪙🪙🪙🪙 |          |
|      | 🪙🪙🪙🪙 |     🪙🪙     |
|   🪙🪙🪙   | 🪙 |         |
|      |  |     🪙    |

Vous pouvez représenter le même jeu en ne gardant en compte que le nombre de jetons dans le tas et à qui c'est le tour :

| Tour | Tas   | 
|:-------|:------------|
|   Mindy    | 🪙🪙🪙🪙🪙🪙🪙🪙🪙🪙🪙🪙 (12)| 
| Maximillien    | 🪙🪙🪙🪙🪙🪙🪙🪙🪙🪙 (10) |
|   Mindy    | 🪙🪙🪙🪙🪙🪙🪙🪙🪙 (9)|
|   Maximillien   | 🪙🪙🪙🪙🪙🪙 (7)|
|    Mindy  | 🪙🪙🪙🪙 (4)|
|   Maximillien   | 🪙 (1) |

On peut donc rerésenter le jeux par: **12-10-9-6-4-1, Mindy commence**, ce sera l'état du jeux (game state).
En partant d'une pile de six jetons, il y a seulement treize jeux différents possibles qui peuvent être joués:
![](./images/minmax_nim_tree.png)

## Stratégie optimale

La base de l'algorithme minimax: vous donnez à chacun des deux joueurs le rôle de joueur maximisant ou minimisant. Le joueur actuel veut faire un coup pour maximiser ses chances de gagner, tandis que son adversaire veut contrer avec un coup pour minimiser les chances de victoire du joueur actuel.

Pour suivre le jeu, dessinez l'arbre de tous les coups possibles. Ensuite, attribuez un score minimax à tous les nœuds feuilles de l'arbre, i.e..les nœuds avec un compteur à zéro. Le score dépendra de l'issue représentée par le nœud feuille: si le joueur qui maximise a gagné la partie, la feuille a un score de +1. De même, si le joueur minimisant a gagné la partie, la feuille a un score de -1:
![](./images/minmax_nim_tree_leaves.png)

Les nœuds feuilles dans les rangées marquées Max — Maximillian, le joueur qui maximise — sont marqués par +1, tandis que les nœuds feuilles dans les rangées de Mindy sont marqués par -1. Ensuite, laissez les scores minimax monter dans l'arbre. Considérez un nœud où tous les enfants ont reçu un score. Si le nœud est sur une ligne Max, donnez-lui le score maximum de ses enfants. Sinon, donnez-lui le score minimum de ses enfants.
![](./images/minmax_nim_tree_all.png)

## Code python pour la version simple

Voici une version très simple de l'algorithme:

In [None]:
def minimax(state, max_turn):
    # renvoie 1 si Maximilien gagne la partie et -1 s'il perd
    if state == 0:
        return 1 if max_turn else -1
    
    # nouveaux etats possibles
    possible_new_states = [
        # your code
    ]
    
    # algorithem minmax
    # your code
    pass

In [None]:
minimax(6, True)

In [None]:
minimax(5, False)

In [None]:
minimax(4, False)

Pour trouver efficacement quel coup Maximilien doit jouer ensuite, vous pouvez faire les calculs en boucle :

In [None]:
state = 6
for take in (1, 2, 3):
    new_state = state - take
    score = minimax(new_state, max_turn=False)
    print(f"Move from {state} to {new_state}: {score}")

In [None]:
def best_move(state):
    for take in (1, 2, 3):
        new_state = state - take
        score = minimax(new_state, max_turn=False)
        if score > 0:
            break
    return score, new_state

In [None]:
best_move(6)

In [None]:
best_move(5)

## Refactoring

Les deux fonctions `minimax()` et `best_move()` contiennent une logique qui traite de l'algorithme minimax et une logique qui traite des règles de Simple-Nim. Nous allons voir comment les séparer.

Nous commencons par les règles de Simple-Nim:

In [None]:
def possible_new_states(state):
    return [state - take for take in (1, 2, 3) if take <= state]
    
def evaluate(state, is_maximizing):
    if state == 0:
        return 1 if is_maximizing else -1

On peut maintenant reprendre le code de l'algorithme minimax:

In [None]:
def minimax(state, is_maximizing):
    # your code
    pass

Remarque dans la première ligne, on utilise `:=` [Assignment Expressions](https://peps.python.org/pep-0572/)

Ensuite, observez que les blocs de l'instruction `if … else` sont assez similaires. Les seules différences entre les blocs sont la fonction, `max()` ou `min()`, utilisée pour trouver le meilleur score et la valeur pour `is_maximizing` dans les appels récursifs à `minimax()`. Ces deux éléments peuvent être directement calculés à partir de la valeur actuelle de `is_maximizing`.

In [None]:
def minimax(state, is_maximizing):
    if (score := evaluate(state, is_maximizing)) is not None:
        return score

    return (max if is_maximizing else min)(
        minimax(new_state, is_maximizing=not is_maximizing)
        for new_state in possible_new_states(state)
    )

les règles de Simple-Nim ne sont pas explicitement encodées dans l'algorithme `minimax`. Au lieu de cela, ils sont encapsulés dans `possible_new_states()` et `evaluate()`.

In [None]:
minimax(6, is_maximizing=True)

In [None]:
minimax(5, is_maximizing=False)

In [None]:
minimax(4, is_maximizing=False)

On peut maintenant modifier `best_move`:

In [None]:
def best_move(state):
    return max(
        (minimax(new_state, is_maximizing=False), new_state)
        for new_state in possible_new_states(state)
    )

Comme précédemment, vous considérez (et renvoyez) un tuple contenant le score et le meilleur nouvel état. Étant donné que les comparaisons, y compris `max()`, sont effectuées élément par élément dans les tuples, le score doit être le premier élément du tuple.

In [None]:
best_move(6)

## Variantes du jeu de Nim

Il est temps de regarder les règles habituelles de Nim. Vous pouvez toujours reconnaître le jeu, mais il laisse un peu plus de choix aux joueurs :

- Il y a plusieurs piles, avec un certain nombre de jetons dans chacune.
- Deux joueurs jouent à tour de rôle.
- A son tour, un joueur retire autant de pions qu'il le souhaite, mais les pions doivent provenir de la même pile.
- Le joueur qui prend le dernier compteur perd la partie.

Notez qu'il n'y a plus de restriction sur le nombre de marqueurs à retirer par tour. Si une pile contient vingt marqueurs, alors le joueur actif peut tous les prendre.

Adaptez le code!

Nim est parfois qualifié de jeu [misère](https://en.wikipedia.org/wiki/Mis%C3%A8re) car le but est d'éviter de prendre le dernier contre. Une variante populaire de Nim modifie la condition de victoire. Dans cette variante, le joueur qui prend le dernier marqueur remporte la partie. Comment changeriez-vous votre code pour jouer à cette version du jeu ?

Une autre variante de Nim commence avec tous les pions en une seule pile :

- Il y a plusieurs pions, tous commençant par une seule pile.
- Deux joueurs jouent à tour de rôle.
- À son tour, un joueur divise une pile en deux, de sorte que les deux nouvelles piles aient des nombres de jetons différents.
- Le premier joueur qui ne peut diviser aucune pile perd la partie.

Dans cette variante, chaque mouvement crée une nouvelle pile. Le jeu dure jusqu'à ce que toutes les piles contiennent un ou deux jetons, car ces piles ne peuvent pas être divisées.

## Élagage alpha-bêta

Un défi avec l'algorithme minimax est que les arbres de jeu peuvent être énormes.

Dans Simple-Nim, l'arbre de jeu se compose de nombreux états de jeu répétés. Par exemple, vous pouvez passer de six à trois compteurs de quatre manières différentes : 6-3, 6-4-3, 6-5-3 et 6-5-4-3. Par conséquent, les mêmes états de jeu sont calculés à plusieurs reprises par `minimax()`. Vous pouvez contrer cela en utilisant un `cache`:

Revenons maintenant à l'exemple où c'est au tour de Maximilien avec six jetons sur la table. Si vous considérez les branches de gauche à droite et arrêtez d'explorer les sous-arbres une fois que le score minimax d'un nœud est décidé, vous vous retrouverez avec l'arbre suivant :
![](./images/minmax_nim_tree_alphabeta.png)

Vous avez besoin d'un critère pour savoir quand vous pouvez arrêter d'explorer. Pour ce faire, vous allez ajouter deux paramètres, alpha et beta :

- alpha représentera le score minimum que le joueur maximisant est assuré.
- beta représentera le score maximum que le joueur minimisant est assuré.

Si la beta est inférieure ou égale à alpha, le joueur peut arrêter d'explorer cet arbre de jeu. La maximisation aura déjà trouvé une meilleure option que celle que le joueur pourrait trouver en explorant plus avant.

Pour implémenter cette idée, vous commencerez par remplacer votre compréhension par une boucle for explicite. Vous avez besoin de la boucle explicite pour pouvoir en sortir et élaguer efficacement l'arbre...