Le but de cette page est de créer un IA capable de jouer au jeu de Nim en apprenant de ses erreurs. Ce sera l'occasion de mettre en pratique les différentes stratégies d'apprentissage simples vues par ailleurs.

Il y a plusieurs versions du jeu de nim (ou jeu des allumettes). Nous allons en présenter une plus particulèrement et en proposer d'autres en exercices en fin de page.

# 1. Présentation des règles et mise en place du jeu

Nous allons nous intéresser à une version très simple du jeu de nim (celle présentée dans la jeu Fort Boyard) :  
C'est un jeu à deux joueurs. On aligne un certain nombre d'allumettes et, à tour de rôle, chaque joueur doit prendre 1, 2 ou bien 3 allumettes. Le gagnant est celui qui prend la dernière allumette.

Pour pouvoir jouer, nous allons commencer par créer une fonction `jouer_une_partie` qui va prendre en entrée les deux joueurs ainsi que le nombre d'allumettes au départ et en sortie va nous donner une liste contenant en premier le numero du joueur gagnant et ensuite la liste des coups joués sous la forme `(nb_allumettes,numero du joueur, reponse du joueur)` (pour pouvoir l'exploiter plus tard quand nous allons entrainer notre IA).

Un joueur sera représenté par une simple fonction qui prend en entrée le nombre d'allumettes encore en jeu et renvoie en sortie le nombre d'allumettes qu'il souhaite prendre


In [None]:
NOMBRE_ALLUMETTES = 20

def jouer_une_partie(joueur0,joueur1,nb_allumettes = NOMBRE_ALLUMETTES):

    liste_coups_joués = []
    liste_joueurs = [joueur0,joueur1]
    numero_joueur_en_cours = 0

    while nb_allumettes > 0:
        print(f"Il reste {nb_allumettes} allumettes.")
        choix_joueur = liste_joueurs[numero_joueur_en_cours](nb_allumettes)     # On fait jouer le joueur en cours

        if 1<= choix_joueur <= 3:                                               # On vérifie que le choix est valide
            print(f"Le joueur {numero_joueur_en_cours} prend {choix_joueur} allumette(s)")
            liste_coups_joués.append((nb_allumettes,numero_joueur_en_cours,choix_joueur))
            nb_allumettes -= choix_joueur
            numero_joueur_en_cours = 1 - numero_joueur_en_cours                 # On passe du joueur 0 à 1 et inversement
        else:
            print("La valeur choisie n'est pas bonne, recommencez.")

    numero_joueur_en_cours = 1 - numero_joueur_en_cours 
    print(f"Le gagnant est le joueur {numero_joueur_en_cours}")
    return [numero_joueur_en_cours, liste_coups_joués]



Voici quelques exemples de joueurs pour pouvoir tester le jeu.

In [None]:
import random

def joueur_aleatoire(nb_allumettes):
    return random.randint(1,3)

def joueur_humain(nb_allumettes):
    choix_joueur = 0
    while not 1 <= choix_joueur <= 3 :
        choix_joueur = int(input("Choisir un nombre d'allumettes à retirer entre 1 et 3: "))
    return choix_joueur

Quelques exemples de commandes pour tester (enlever les commentaires pour tester avec un joueur humain)

In [None]:
jouer_une_partie(joueur_aleatoire,joueur_aleatoire)
#jouer_une_partie(joueur_humain,joueur_aleatoire)
#jouer_une_partie(joueur_humain,joueur_humain)

Il reste 20 allumettes.
Le joueur 0 prend 2 allumette(s)
Il reste 18 allumettes.
Le joueur 1 prend 1 allumette(s)
Il reste 17 allumettes.
Le joueur 0 prend 1 allumette(s)
Il reste 16 allumettes.
Le joueur 1 prend 1 allumette(s)
Il reste 15 allumettes.
Le joueur 0 prend 2 allumette(s)
Il reste 13 allumettes.
Le joueur 1 prend 3 allumette(s)
Il reste 10 allumettes.
Le joueur 0 prend 1 allumette(s)
Il reste 9 allumettes.
Le joueur 1 prend 3 allumette(s)
Il reste 6 allumettes.
Le joueur 0 prend 2 allumette(s)
Il reste 4 allumettes.
Le joueur 1 prend 3 allumette(s)
Il reste 1 allumettes.
Le joueur 0 prend 1 allumette(s)
Le gagnant est le joueur 0


[0,
 [(20, 0, 2),
  (18, 1, 1),
  (17, 0, 1),
  (16, 1, 1),
  (15, 0, 2),
  (13, 1, 3),
  (10, 0, 1),
  (9, 1, 3),
  (6, 0, 2),
  (4, 1, 3),
  (1, 0, 1)]]

# 2. Création d'une IA

Maintenant que l'environnement de jeu est créé, nous allons nous intéresser à la création d'une IA pour ce jeu.

Il existe une stratégie gagnante pour les jeux de nims c'est à dire qu'il existe une stratégie à suivre quand on est dans les bonnes conditions qui nous permettra de gagner à coup sûr. Ce n'est cependant pas le but ici de programmer une telle stratégie. Nous allons plutôt créer une IA qui apprend seule cette stratégie gagnante en jouant de nombreuses fois.

Nous avons plusieurs stratégies d'apprentissage pour notre IA. Voici les 3 principales que nous avons déjà croisées : 

* La stratégie d'apprentissage la plus simple est de tout simplement ne plus rejouer un coup qui nous a fait perdre. Elle sera très efficace ici pour trouver la stratégie gagnante. C'est la même stratégie utilisée pour l'hexapawn lorsqu'on retire la bille dans la boîte qui nous a fait perdre . (Lien à rajouter)  

* Une seconde stratégie consiste non pas à retirer un coup qui nous a fait perdre mais à valoriser un coup qui nous a fait gagner. Assez peu efficace ici mais intéressante à mettre en place pour s'entrainer. Elle sera plus utile pour le joueur qui n'a pas de stratégie gagnante (pour jouer davantage des coups qui pourrait éventuellement le faire gagner) ou des jeux avec possibilités de matchs nuls comme le morpion par exemple. (Lien à rajouter)  

* Une troisième possibilité est de mettre en place du Q-learning. On renvoie à la théorie et un ou des exemples ici (lien à rajouter)

Libre à vous de choisir quelle stratégie vous souhaitez travailler. 

Pour une IA de ce style, il y a deux fonctions principales à créer : Celle permettant de l'entrainer après une partie jouée et celle permettant de jouer c'est à dire donner le nombre d'allumettes à retirer. A vous de les compléter ci-dessous. On donne ensuite un exemple de programme permettant d'entrainer une telle IA

Remarques : 
- Libre à vous de modifier la présentation qui est faite ici pour utiliser une programmation orientée objet qui serait peut-être plus naturelle quand on y est habitué.
- L'entrainement est fait avec les joueurs toujours dans le même ordre et entraine une seule IA. Vous pouvez bien sûr modifier le programme pour rendre les parties plus aléatoires et aussi entrainer deux IA séparément (par exemple si vous avez implémenté deux stratégies d'IA différentes et voulez les entrainer ensemble).

In [None]:
def joueur_IA(nb_allumettes):
    """
    Fonction qui sera appelée lors d'une partie pour donner le nombre d'allumettes à retirer
    """
    pass
    


def entrainer_IA(gagnant,liste_coups_joués):
    """
    Fonction qui va entrainer l'IA après une partie jouée (même si elle n'a pas joué la partie).
    """
    pass

In [None]:
def entrainement(joueur0, joueur1, nb_entrainement):
    """
    Fait jouer les deux joueurs ensemble nb_entrainement fois et entraine l'IA en fin de chaque partie.
    Remarque : L'IA peut être entrainée même si elle ne fait pas partie des joueurs (elle apprend en regardant).
    """
    for compteur in range(nb_entrainement):
        print(f"--- Partie n°{compteur+1} ---")
        gagnant, liste_coups_joués = jouer_une_partie(joueur0,joueur1,NOMBRE_ALLUMETTES)
        entrainer_IA(gagnant,liste_coups_joués)

# 3. Prolongements possibles

Si vous souhaitez vous entrainer davantage, vous pouvez essayer de coder des IA pour d'autres jeux de nim. Par exemple :  

- Le jeu de nim de Marienbad : On dépose plusieurs tas d'allumettes (qui n'ont pas forcément le même nombre d'allumettes). Chaque joueur à tour de rôle peut prendre autant d'allumettes qu'il le souhaite mais uniquement dans un seul tas. Le gagnant est celui qui prend la dernière allumette. (On peut aussi faire la variante ou celui qui gagne est celui qui ne prend pas la dernière allumette).  

- Le jeu de nim de Fibonacci : On aligne un certain nombre d'allumettes. Le premier joueur peut prendre autant d'allumettes qu'il le souhaite mais pas toutes. Ensuite les joueurs peuvent prendre à tour de rôle un nombre d'allumettes compris entre 1 et le double de ce qu'a pris l'adversaire au tour précédent. Le gagnant est celui qui prend la dernière allumette.

# Corrections



L'IA avec la stratégie gagnante, pour pouvoir tester l'efficacité de notre entrainement.  
Elle consiste simplement à amener l'adversaire sur un multiple de 4. Si nous sommes sur un multiple de 4 alors on joue le moins possible pour gagner du temps et espérer que l'adversaire se trompe.

In [None]:
def joueur_parfait(nb_allumettes):
    reste = nb_allumettes%4 
    if reste >0 :
        return reste
    else :
        return 1

## Stratégie 1 : retirer les mauvais coups

L'idée de cette IA va être de retirer le dernier coup qui a fait perdre et le retirer des possibilités. Pour cela, on va stocker dans un tableau pour chaque valeur possible de nb_allumettes et chaque réponse possible (donc un tableau de dimension `(NOMBRE_ALLUMETTES+1) x 3`) un booléen (ou alors 0 ou 1) pour savoir si on peut jouer la valeur. Le tableau est initilaisé à True partout.  
L'entrainement va simplement consister à trouver le dernier choix qui nous a fait perdre et mettre False dans la case correspondante. Si tous les choix de ce nombre sont à False, on modifie à False le choix précédent aussi jusqu'à ce qu'il reste un choix possible qui ne fasse pas perdre dans cette partie.

Voici un exemple de correction :

In [None]:
import random

tableau_choix_valables = [[True]*3 for _ in range(NOMBRE_ALLUMETTES+1)]

def joueur_IA(nb_allumettes):
    """
    Fonction qui sera appelée lors d'une partie pour donner le nombre d'allumettes à retirer
    On regarde dans notre tableau_choix_valables, quelles sont les valeurs qui sont à True puis on en choisit une au hasard
    """
    liste_choix_possibles = []

    for choix in range(3):
        if tableau_choix_valables[nb_allumettes][choix] :
            liste_choix_possibles.append(choix+1)

    if liste_choix_possibles : 
        return random.choice(liste_choix_possibles)
    else : # Si aucun choix n'est valable alors on choisit au hasard
        return random.randint(1,3)
    


def entrainer_IA(gagnant,liste_coups_joués):
    """
    Fonction qui va entrainer l'IA après une partie jouée (même si elle n'a pas joué la partie).
    Le perdant est forcément l'avant dernier qui a joué. Donc on peut astucieusement récupérer ses coups en en prenant 1 sur 2 en partant de la fin
    """
    liste_coups_perdants = liste_coups_joués[-2::-2] # Attention : l'avant-dernier coup de la partie devient le premier (l'ordre est inversé)
    est_fini = False

    while liste_coups_perdants and not est_fini :
        (nb_allumettes,numero_joueur_en_cours,choix_joueur) = liste_coups_perdants.pop(0)   # On récupère le premier élément de la liste
        tableau_choix_valables[nb_allumettes][choix_joueur-1] = False                         # On retire le dernier coup qui nous a fait perdre

        if any(tableau_choix_valables[nb_allumettes]) :                                     # S'il y a d'autres coups jouables, alors on s'arrête la
            est_fini = True
                                                                                            # Sinon, on recommence avec le coup d'avant jusqu'à trouve un autre coup jouable ou bien qu'on ait revu tous les coups de la partie

    
def afficher_tableau(tableau):
    """
    Une fonction auxiliaire pour afficher proprement le tableau
    Pour réduire la taille, on met simplement1 pour True et 0 pour False
    """
    # Premiere ligne
    texte_ligne = "   "
    for n in range(NOMBRE_ALLUMETTES+1):
        texte_ligne += "| "+" "*(n<10)+str(n)+" "
    print(texte_ligne)
    for i in range(3):
        texte_ligne = " "+str(i+1)+" "
        for n in range(NOMBRE_ALLUMETTES+1):
            texte_ligne += "|  "+str(int(tableau[n][i])) + " "
        print(texte_ligne)

Il est temps d'entrainer notre IA :

In [None]:
entrainement(joueur_IA,joueur_IA,50)

afficher_tableau(tableau_choix_valables)

--- Partie n°1 ---
Il reste 20 allumettes.
Le joueur 0 prend 1 allumette(s)
Il reste 19 allumettes.
Le joueur 1 prend 3 allumette(s)
Il reste 16 allumettes.
Le joueur 0 prend 1 allumette(s)
Il reste 15 allumettes.
Le joueur 1 prend 3 allumette(s)
Il reste 12 allumettes.
Le joueur 0 prend 2 allumette(s)
Il reste 10 allumettes.
Le joueur 1 prend 2 allumette(s)
Il reste 8 allumettes.
Le joueur 0 prend 3 allumette(s)
Il reste 5 allumettes.
Le joueur 1 prend 1 allumette(s)
Il reste 4 allumettes.
Le joueur 0 prend 2 allumette(s)
Il reste 2 allumettes.
Le joueur 1 prend 2 allumette(s)
Le gagnant est le joueur 1
--- Partie n°2 ---
Il reste 20 allumettes.
Le joueur 0 prend 1 allumette(s)
Il reste 19 allumettes.
Le joueur 1 prend 2 allumette(s)
Il reste 17 allumettes.
Le joueur 0 prend 2 allumette(s)
Il reste 15 allumettes.
Le joueur 1 prend 2 allumette(s)
Il reste 13 allumettes.
Le joueur 0 prend 1 allumette(s)
Il reste 12 allumettes.
Le joueur 1 prend 1 allumette(s)
Il reste 11 allumettes.
Le 

Après 50 parties d'entrainement, vous pouvez essayer de le battre : 

In [None]:
# jouer_une_partie(joueur_humain,joueur_IA)

## Stratégie 3 : Q-Learning

Nous allons utiliser l'équation de Bellman pour remplir notre tableau de valeur au fur et à mesure des parties.  
$$Q_{t+1}(s_t,a_t) = (1-\alpha)Q_t(s_t,a_t) + \alpha R_{t+1}-\alpha\gamma. \underset{a}{max}\ Q_t(s_{t+1},a) $$

Le choix de la récompense $R_t$, et des coefficients $\alpha$ et $\gamma$ sont purement arbitraires. Nous allons prendre ici une récompense de 1 pour le dernier coup qui fait gagner, -1 pour celui qui fait perdre.  
Nous allons prendre aussi $\alpha = 0.9$ et $\gamma = 0.8$.

Remarque : Dans l'équation de Bellman, $\underset{a}{max}\ Q_t(s_{t+1},a) $ correspond ici au score que peut espérer l'adversaire c'est pour cela qu'il y a un moins devant dans la formule (alors que normalement c'est un plus pour un jeu à un seul joueur) pour valoriser les choix qui donne le moins d'avantages à l'adversaire.



In [None]:
import random

tableau_QL = [[0]*3 for _ in range(NOMBRE_ALLUMETTES+1)]
ALPHA = 0.9
GAMMA = 0.8

def joueur_IA(nb_allumettes):
    """
    Fonction qui sera appelée lors d'une partie pour donner le nombre d'allumettes à retirer
    On regarde dans notre tableau_QL quelle choix coorrespond à la valeur la plus haute. S'il y en a plusieurs, on garde la première.
    """
    valeur_max =-100000
    choix_max = -1

    for choix in range(3):
        if tableau_QL[nb_allumettes][choix] > valeur_max:
            valeur_max = tableau_QL[nb_allumettes][choix]
            choix_max = choix

    return choix_max + 1  
    


def entrainer_IA(gagnant,liste_coups_joués):
    """
    Fonction qui va entrainer l'IA après une partie jouée (même si elle n'a pas joué la partie).
    On propage l'information du jeu au fur et à mesure en partant du début
    """
    for i,(nb_allumettes,numero_joueur_en_cours,choix_joueur) in enumerate(liste_coups_joués) :
        if i == len(liste_coups_joués)-1 : # Si c'est le dernier coup, il est gagnant
            recompense = 1
        elif i == len(liste_coups_joués)-2 : # Si c'est l'avant-dernier coup, il est perdant
            recompense = -1
        else :
            recompense = 0
        
        # On utilise l'equation de Bellman
        tableau_QL[nb_allumettes][choix_joueur-1] = (1-ALPHA)*tableau_QL[nb_allumettes][choix_joueur-1] + ALPHA*(recompense - GAMMA*max(tableau_QL[max(nb_allumettes-choix_joueur,0)]))
                                                                                            

    
def afficher_tableau_QL(tableau):
    """
    Une fonction auxiliaire pour afficher proprement le tableau
    Pour réduire la taille, on met simplement1 pour True et 0 pour False
    """
    # Premiere ligne
    texte_ligne = "   "
    for n in range(NOMBRE_ALLUMETTES+1):
        texte_ligne += "|   "+" "*(n<10)+str(n)+"   "
    print(texte_ligne)
    for i in range(3):
        texte_ligne = " "+str(i+1)+" "
        for n in range(NOMBRE_ALLUMETTES+1):
            texte_ligne += f"|  {tableau[n][i]: .2f} "
        print(texte_ligne)

In [None]:
entrainement(joueur_IA,joueur_IA,100)

afficher_tableau_QL(tableau_QL)

--- Partie n°1 ---
Le gagnant est le joueur 0
--- Partie n°2 ---
Le gagnant est le joueur 1
--- Partie n°3 ---
Le gagnant est le joueur 1
--- Partie n°4 ---
Le gagnant est le joueur 1
--- Partie n°5 ---
Le gagnant est le joueur 0
--- Partie n°6 ---
Le gagnant est le joueur 1
--- Partie n°7 ---
Le gagnant est le joueur 0
--- Partie n°8 ---
Le gagnant est le joueur 0
--- Partie n°9 ---
Le gagnant est le joueur 0
--- Partie n°10 ---
Le gagnant est le joueur 1
--- Partie n°11 ---
Le gagnant est le joueur 0
--- Partie n°12 ---
Le gagnant est le joueur 1
--- Partie n°13 ---
Le gagnant est le joueur 1
--- Partie n°14 ---
Le gagnant est le joueur 0
--- Partie n°15 ---
Le gagnant est le joueur 1
--- Partie n°16 ---
Le gagnant est le joueur 1
--- Partie n°17 ---
Le gagnant est le joueur 0
--- Partie n°18 ---
Le gagnant est le joueur 1
--- Partie n°19 ---
Le gagnant est le joueur 1
--- Partie n°20 ---
Le gagnant est le joueur 0
--- Partie n°21 ---
Le gagnant est le joueur 0
--- Partie n°22 ---
Le

On constate qu'on retrouve bien la stratégie gagnante en choisissant les valeurs positives dans le tableau.