# Minimax en Python: le jeu de Nim

adapted from: Geir Arne Hjelle https://realpython.com/python-minimax-nim/ 

avec l'aide de ChatGPT pour la traduction.

Erreurs d√ªes √† Marc Lelarge, merci de les signaler: https://github.com/mlelarge/agreg/issues

[Nim](https://fr.wikipedia.org/wiki/Jeux_de_Nim) est un jeu pour deux joueurs qui se termine toujours avec la victoire d'un joueur. Le jeu consiste en plusieurs jetons pos√©s sur la table de jeu et les joueurs qui se relaient pour en retirer un ou plusieurs. Dans la premi√®re moiti√© de ce tutoriel, vous allez jouer une version simplifi√©e de Nim avec les r√®gles suivantes :

- Il y a plusieurs jetons dans un tas commun.
- Deux joueurs se relaient.
- A son tour, un joueur retire un, deux ou trois jetons du tas.
- Le joueur qui prend le dernier jeton perd la partie.

Nous allons appeler ce jeu Simple-Nim. Plus tard, vous allez apprendre les vraies r√®gles de Nim. Elles ne sont pas beaucoup plus compliqu√©es, mais Simple-Nim est plus facile √† pr√©senter.

Voici un exemple de jeux:

| Mindy | Tas       | Maximillien |
|:-------|:------------:|------------:|
|       | ü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ô |            |
| ü™ôü™ô      | ü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ô |            |
|       | ü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ô |      ü™ô      |
|   ü™ôü™ôü™ô    | ü™ôü™ôü™ôü™ôü™ôü™ô |          |
|      | ü™ôü™ôü™ôü™ô |     ü™ôü™ô     |
|   ü™ôü™ôü™ô   | ü™ô |         |
|      |  |     ü™ô    |

Vous pouvez repr√©senter le m√™me jeu en ne gardant en compte que le nombre de jetons dans le tas et √† qui c'est le tour :

| Tour | Tas   | 
|:-------|:------------|
|   Mindy    | ü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ô (12)| 
| Maximillien    | ü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ô (10) |
|   Mindy    | ü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ôü™ô (9)|
|   Maximillien   | ü™ôü™ôü™ôü™ôü™ôü™ô (7)|
|    Mindy  | ü™ôü™ôü™ôü™ô (4)|
|   Maximillien   | ü™ô (1) |

On peut donc rer√©senter le jeux par: **12-10-9-6-4-1, Mindy commence**, ce sera l'√©tat du jeux (game state).
En partant d'une pile de six jetons, il y a seulement treize jeux diff√©rents possibles qui peuvent √™tre jou√©s:
![](./images/minmax_nim_tree.png)

## Strat√©gie optimale

La base de l'algorithme minimax: vous donnez √† chacun des deux joueurs le r√¥le de joueur maximisant ou minimisant. Le joueur actuel veut faire un coup pour maximiser ses chances de gagner, tandis que son adversaire veut contrer avec un coup pour minimiser les chances de victoire du joueur actuel.

Pour suivre le jeu, dessinez l'arbre de tous les coups possibles. Ensuite, attribuez un score minimax √† tous les n≈ìuds feuilles de l'arbre, i.e..les n≈ìuds avec un compteur √† z√©ro. Le score d√©pendra de l'issue repr√©sent√©e par le n≈ìud feuille: si le joueur qui maximise a gagn√© la partie, la feuille a un score de +1. De m√™me, si le joueur minimisant a gagn√© la partie, la feuille a un score de -1:
![](./images/minmax_nim_tree_leaves.png)

Les n≈ìuds feuilles dans les rang√©es marqu√©es Max ‚Äî Maximillian, le joueur qui maximise ‚Äî sont marqu√©s par +1, tandis que les n≈ìuds feuilles dans les rang√©es de Mindy sont marqu√©s par -1. Ensuite, laissez les scores minimax monter dans l'arbre. Consid√©rez un n≈ìud o√π tous les enfants ont re√ßu un score. Si le n≈ìud est sur une ligne Max, donnez-lui le score maximum de ses enfants. Sinon, donnez-lui le score minimum de ses enfants.
![](./images/minmax_nim_tree_all.png)

## Code python pour la version simple

Voici une version tr√®s simple de l'algorithme:

In [None]:
def minimax(state, max_turn):
    # renvoie 1 si Maximilien gagne la partie et -1 s'il perd
    if state == 0:
        return 1 if max_turn else -1
    
    # nouveaux etats possibles
    possible_new_states = [
        # your code
    ]
    
    # algorithem minmax
    # your code
    pass

In [None]:
minimax(6, True)

In [None]:
minimax(5, False)

In [None]:
minimax(4, False)

Pour trouver efficacement quel coup Maximilien doit jouer ensuite, vous pouvez faire les calculs en boucle :

In [None]:
state = 6
for take in (1, 2, 3):
    new_state = state - take
    score = minimax(new_state, max_turn=False)
    print(f"Move from {state} to {new_state}: {score}")

In [None]:
def best_move(state):
    for take in (1, 2, 3):
        new_state = state - take
        score = minimax(new_state, max_turn=False)
        if score > 0:
            break
    return score, new_state

In [None]:
best_move(6)

In [None]:
best_move(5)

## Refactoring

Les deux fonctions `minimax()` et `best_move()` contiennent une logique qui traite de l'algorithme minimax et une logique qui traite des r√®gles de Simple-Nim. Nous allons voir comment les s√©parer.

Nous commencons par les r√®gles de Simple-Nim:

In [None]:
def possible_new_states(state):
    return [state - take for take in (1, 2, 3) if take <= state]
    
def evaluate(state, is_maximizing):
    if state == 0:
        return 1 if is_maximizing else -1

On peut maintenant reprendre le code de l'algorithme minimax:

In [None]:
def minimax(state, is_maximizing):
    # your code
    pass

Remarque dans la premi√®re ligne, on utilise `:=` [Assignment Expressions](https://peps.python.org/pep-0572/)

Ensuite, observez que les blocs de l'instruction `if ‚Ä¶ else` sont assez similaires. Les seules diff√©rences entre les blocs sont la fonction, `max()` ou `min()`, utilis√©e pour trouver le meilleur score et la valeur pour `is_maximizing` dans les appels r√©cursifs √† `minimax()`. Ces deux √©l√©ments peuvent √™tre directement calcul√©s √† partir de la valeur actuelle de `is_maximizing`.

In [None]:
def minimax(state, is_maximizing):
    if (score := evaluate(state, is_maximizing)) is not None:
        return score

    return (max if is_maximizing else min)(
        minimax(new_state, is_maximizing=not is_maximizing)
        for new_state in possible_new_states(state)
    )

les r√®gles de Simple-Nim ne sont pas explicitement encod√©es dans l'algorithme `minimax`. Au lieu de cela, ils sont encapsul√©s dans `possible_new_states()` et `evaluate()`.

In [None]:
minimax(6, is_maximizing=True)

In [None]:
minimax(5, is_maximizing=False)

In [None]:
minimax(4, is_maximizing=False)

On peut maintenant modifier `best_move`:

In [None]:
def best_move(state):
    return max(
        (minimax(new_state, is_maximizing=False), new_state)
        for new_state in possible_new_states(state)
    )

Comme pr√©c√©demment, vous consid√©rez (et renvoyez) un tuple contenant le score et le meilleur nouvel √©tat. √âtant donn√© que les comparaisons, y compris `max()`, sont effectu√©es √©l√©ment par √©l√©ment dans les tuples, le score doit √™tre le premier √©l√©ment du tuple.

In [None]:
best_move(6)

## Variantes du jeu de Nim

Il est temps de regarder les r√®gles habituelles de Nim. Vous pouvez toujours reconna√Ætre le jeu, mais il laisse un peu plus de choix aux joueurs :

- Il y a plusieurs piles, avec un certain nombre de jetons dans chacune.
- Deux joueurs jouent √† tour de r√¥le.
- A son tour, un joueur retire autant de pions qu'il le souhaite, mais les pions doivent provenir de la m√™me pile.
- Le joueur qui prend le dernier compteur perd la partie.

Notez qu'il n'y a plus de restriction sur le nombre de marqueurs √† retirer par tour. Si une pile contient vingt marqueurs, alors le joueur actif peut tous les prendre.

Adaptez le code!

Nim est parfois qualifi√© de jeu [mis√®re](https://en.wikipedia.org/wiki/Mis%C3%A8re) car le but est d'√©viter de prendre le dernier contre. Une variante populaire de Nim modifie la condition de victoire. Dans cette variante, le joueur qui prend le dernier marqueur remporte la partie. Comment changeriez-vous votre code pour jouer √† cette version du jeu ?

Une autre variante de Nim commence avec tous les pions en une seule pile :

- Il y a plusieurs pions, tous commen√ßant par une seule pile.
- Deux joueurs jouent √† tour de r√¥le.
- √Ä son tour, un joueur divise une pile en deux, de sorte que les deux nouvelles piles aient des nombres de jetons diff√©rents.
- Le premier joueur qui ne peut diviser aucune pile perd la partie.

Dans cette variante, chaque mouvement cr√©e une nouvelle pile. Le jeu dure jusqu'√† ce que toutes les piles contiennent un ou deux jetons, car ces piles ne peuvent pas √™tre divis√©es.

## √âlagage alpha-b√™ta

Un d√©fi avec l'algorithme minimax est que les arbres de jeu peuvent √™tre √©normes.

Dans Simple-Nim, l'arbre de jeu se compose de nombreux √©tats de jeu r√©p√©t√©s. Par exemple, vous pouvez passer de six √† trois compteurs de quatre mani√®res diff√©rentes : 6-3, 6-4-3, 6-5-3 et 6-5-4-3. Par cons√©quent, les m√™mes √©tats de jeu sont calcul√©s √† plusieurs reprises par `minimax()`. Vous pouvez contrer cela en utilisant un `cache`:

Revenons maintenant √† l'exemple o√π c'est au tour de Maximilien avec six jetons sur la table. Si vous consid√©rez les branches de gauche √† droite et arr√™tez d'explorer les sous-arbres une fois que le score minimax d'un n≈ìud est d√©cid√©, vous vous retrouverez avec l'arbre suivant :
![](./images/minmax_nim_tree_alphabeta.png)

Vous avez besoin d'un crit√®re pour savoir quand vous pouvez arr√™ter d'explorer. Pour ce faire, vous allez ajouter deux param√®tres, alpha et beta¬†:

- alpha repr√©sentera le score minimum que le joueur maximisant est assur√©.
- beta repr√©sentera le score maximum que le joueur minimisant est assur√©.

Si la beta est inf√©rieure ou √©gale √† alpha, le joueur peut arr√™ter d'explorer cet arbre de jeu. La maximisation aura d√©j√† trouv√© une meilleure option que celle que le joueur pourrait trouver en explorant plus avant.

Pour impl√©menter cette id√©e, vous commencerez par remplacer votre compr√©hension par une boucle for explicite. Vous avez besoin de la boucle explicite pour pouvoir en sortir et √©laguer efficacement l'arbre...