# <center> R1.13 introduction à Python <br> TP4 - Nim, Wythoff et IA </center>
<center> 2023/2024 - Thibault Godin </center>
<center> IUT de Vannes, BUT Informatique </center>

***

Dans ce TP, on va voir une méthode d'intelligence artificielle classique, **l'apprentissage par renforcement**


On va présenter cette notion à l'aide d'une activité proposée par des collègues de la (Maison des Mathématiques et de l'Informatique)[https://mmi-lyon.fr/] (MMI) et du réseau Informatique Débranchée sur le jeu de _Nim_, puis on essaiera de l'appliquer au jeu de Withoff vu en JAVA en R1.01



- https://mmi-lyon.fr/?site_ressource_peda=jeu-de-nim-et-ia-avec-python
- https://mmi-lyon.fr/?site_ressource_peda=jeu-de-nim-et-ia

In [1]:
import random
import time

import numpy as np


import matplotlib.pyplot as plt
%matplotlib inline
plt.rcParams['figure.figsize'] = (12, 12)


# Jeu de Nim


## Mise en place


Le jeu de Nim se joue à 2 joueurs selon les règles suivantes : 
- On commence la partie avec un tas de $n$ allumettes
- Les deux joueurs jouent alternativement
- Seulement 1, 2, ou 3 allumette(s) peuvent être retirée(s) par un joueur à chaque tour
- La personne qui tire la dernière alumettre a gagné (version normale, on peut aussi dire "la personne qui ne peut plus jouer a perdu")

>**_question 1_** <br>
jouer (en silence) une ou deux parties avec un voisin

>**_question 2_**<br> 
lire (en diagonale) à quoi ressemblent les [stratégies gagnantes](https://interstices.info/jeux-de-nim/) de ce jeu 

>**_question 3_**<br> 
visualiser et comprendre l'apprentissage par renforcement proposé pour le jeu de Nim sur https://projet.liris.cnrs.fr/~mam/machine/




--------------------------



## Niammi : Nim Artificial Intelligence Maison des Mathématiques et de l'Informatique

Voici un programme Python (implémenté par Olivier Druet de la MMI) permettant de jouer au jeu de Nim contre un ordinateur _qui apprend au fur et à mieux jouer_. 

>**_question 4_**<br> 
lire et comprendre

In [2]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
"""
Created on Fri Jan 21 10:32:50 2022

@author: druet
"""

import random
import time


################### le message de bienvenue et d'explication ##################

def welcome_message():
    print("""
----------------------------------------------------------------------------
                        Règles du jeu de Nim
----------------------------------------------------------------------------
Règles : 1 - L'utilisateur et l'ordinateur jouent à tour de rôle.
         2 - L'ordinateur commence.
         3 - Seulement 1 ou 2 bâtons peuvent être retirés à chaque coup.
         4 - Celui qui tire le dernier bâton a gagné.
         
----------------------------------------------------------------------------
                           Apprentissage
----------------------------------------------------------------------------                        
Suivant qu'il gagne ou perd, l'ordinateur reçoit une récompense ou une punition.
----------------------------------------------------------------------------
""")

#### Nous faisons commencer l'ordinateur parce que le premier joueur a une 
#### stratégie gagnante. Si le joueur commence et qu'il joue bien, la machine 
#### perdra quoiqu'elle fasse et n'apprendra rien. 

###############################################################################


################## définition et impression de la position de jeu #############

def printboard(n):
    board=[]
    for _ in range(n):
        board.append("/")
    print("\n----------------------------------------------------------------------------")
    print("      ",*board, sep="   ")
    print("----------------------------------------------------------------------------\n")
    print("Il reste " + str(n) + " allumettes.")
    
###############################################################################


################### initialisation de la machine ##############################

nombre_allumettes=8 ### vous pouvez changer le nombre d'allumettes de départ
board = [] ### le plateau de jeu
boulesjaunes = [] ### correspond au nombre de boules jaunes dans la case
boulesrouges = [] ### correspond au nombre de boules rouges dans la case
tirage = [] ### correspondra au tirage dans une partie
for _ in range(nombre_allumettes):
    boulesjaunes.append(2)
    boulesrouges.append(2)
    tirage.append(0)
#### Attention Python commence à 0 #####
boulesrouges[0]=0 #### il ne faut pas mettre de boules rouges dans la case 0, coup interdit


###############################################################################


#################### programme principal : jeu + renforcement #################
welcome_message()
uneautrepartie=True
compteur_partie=0
time.sleep(1)
print("La probabilité de gain de l'ordinateur à la première partie si le joueur joue optimalement est de 12,5 %")
time.sleep(1)
while uneautrepartie :
    player = "CMP"
    allumettes=nombre_allumettes
    tirage=[0,0,0,0,0,0,0,0]
    while allumettes>0:
        printboard(allumettes)  ### imprime la position de jeu
        time.sleep(1)
        if player=='CMP': ### c'est à l'ordinateur de jouer
            print("\nL'ordinateur choisit de retirer...")
            time.sleep(1)
            somme=boulesjaunes[allumettes-1]+boulesrouges[allumettes-1]
            boulehasard=random.randint(1,somme)##permet de tirer jaune ou rouge
            if boulehasard <= boulesjaunes[allumettes-1]: ##la machine a tiré jaune, i.e. elle enlève une allumette
                tirage[allumettes-1]=1
                allumettes=allumettes-1
                print("1 allumette.")
            else:
                tirage[allumettes-1]=2
                allumettes=allumettes-2
                print("2 allumettes.")
            if allumettes==0:
                winner='CMP'
            else:
                player='USER'  
        else: ### c'est au joueur de jouer
#### on demande au joueur ce qu'il souhaite jouer avec vérification que c'est un coup légal
            coup_joueur=0
            print("\n--À vous de jouer !--")
            while coup_joueur not in range(1, 3) or coup_joueur>allumettes:
                try:
                    coup_joueur = int(input("\nQuel est votre choix ?"))
                    if coup_joueur == 0:
                        print("\nVous devez enlever au moins une allumette !")
                    elif coup_joueur not in range(1, 3) or coup_joueur>allumettes:
                        print("\nVous ne pouvez pas enlever autant d'allumettes !")
                        coup_joueur = int(input("\nQuel est votre choix ?"))
                except Exception as e:
                    print("\nCela ne semble pas une réponse valide.\nError: " + str(e) + "\nRecommencez !")
##### fin du choix du joueur
            allumettes=allumettes-coup_joueur
            if allumettes==0:
                winner='USER'
            else:
                player='CMP' 
    compteur_partie+=1
##### fin de la partie ######
##### annonce des résultats #####
    if winner=='CMP':
        print("\n----------------------------------------------------------------------------")
        print("L'ordinateur a gagné, nous allons le récompenser.")
        print("----------------------------------------------------------------------------\n")
    else:
        print("\n----------------------------------------------------------------------------")
        print("Bravo ! Vous avez gagné ! Nous allons punir l'ordinateur.")
        print("----------------------------------------------------------------------------\n")
##### Apprentissage : récompense ou punition de l'ordinateur#####        
    if winner=='CMP': ###récompense
        for i in range(nombre_allumettes):
            if tirage[i]==1:
                boulesjaunes[i]=boulesjaunes[i]+1
            if tirage[i]==2:
                boulesrouges[i]=boulesrouges[i]+1
    else: ###punition
        for i in range(nombre_allumettes):
            if tirage[i]==1:
                boulesjaunes[i]=boulesjaunes[i]-1
            if tirage[i]==2:
                boulesrouges[i]=boulesrouges[i]-1
####### fin de la récompense ou de la punition #################
####### réinitialisation des verres vides ######################
    for i in range(nombre_allumettes):
        if (boulesjaunes[i]==0) and (boulesrouges[i]==0):
            boulesjaunes[i]=2
            boulesrouges[i]=2
######## impression de l'état des verres #######################
    time.sleep(1)
    for i in range(nombre_allumettes):
        print("Dans le verre " + str(i+1) +", il y a " + str(boulesjaunes[i]) + " boules jaunes et " + str(boulesrouges[i]) + " boules rouges.")
################################################################
############ calcul de la probabilité de gagner ################
    time.sleep(1)
    if (boulesjaunes[3]/(boulesjaunes[3]+boulesrouges[3]))>(boulesrouges[4]/(boulesjaunes[4]+boulesrouges[4])):
        proba=(boulesrouges[7]/(boulesjaunes[7]+boulesrouges[7]))*(boulesrouges[4]/(boulesjaunes[4]+boulesrouges[4]))*(boulesrouges[1]/(boulesjaunes[1]+boulesrouges[1]))
    else:
        proba=(boulesrouges[7]/(boulesjaunes[7]+boulesrouges[7]))*(boulesjaunes[3]/(boulesjaunes[3]+boulesrouges[3]))*(boulesrouges[1]/(boulesjaunes[1]+boulesrouges[1]))
    print("\n----------------------------------------------------------------------------")
    print("Vous avez joué "+ str(compteur_partie) +" parties.")
    print("----------------------------------------------------------------------------\n")
    print("\n----------------------------------------------------------------------------")
    print("La probabilité de gain de l'ordinateur à la prochaine partie si le joueur joue optimalement (en connaissant l'état des verres :-)) est de " + str(round(proba*100,2)) + "%")
    print("----------------------------------------------------------------------------\n")
################################################################
############ On continue ? ################    
    test=True
    while test:
        another_go = input("\nVoulez-vous rejouer ?[O/N]: ")
        if another_go in ("o","O"):
            uneautrepartie=True
            test=False
        elif another_go in ("n","N"):
            uneautrepartie=False
            test=False
        else:
            print("\nChoix invalide. Recommencez !")    
############################################            
            




 



----------------------------------------------------------------------------
                        Règles du jeu de Nim
----------------------------------------------------------------------------
Règles : 1 - L'utilisateur et l'ordinateur jouent à tour de rôle.
         2 - L'ordinateur commence.
         3 - Seulement 1 ou 2 bâtons peuvent être retirés à chaque coup.
         4 - Celui qui tire le dernier bâton a gagné.
         
----------------------------------------------------------------------------
                           Apprentissage
----------------------------------------------------------------------------                        
Suivant qu'il gagne ou perd, l'ordinateur reçoit une récompense ou une punition.
----------------------------------------------------------------------------

La probabilité de gain de l'ordinateur à la première partie si le joueur joue optimalement est de 12,5 %

----------------------------------------------------------------------------


KeyboardInterrupt: Interrupted by user

# Wythoff


plan conseillé : 

1. affichage du plateau
2. alternance des joueurs et propositions des coups admissibles
3. condition de victoire
4. jeu humain v. humain
5. stockage de stratégie
6. jeu humain v. ordinateur (aléatoire)
8. règle de l'apprentissage de l'ordinateur (en cas de victoire ou de défaite
9. entrainement de l'ordinateur contre l'humain
10. entrainement de l'ordinateur contre le hasard
11. entrainement de l'ordinateur contre l'ordinateur

Vous pouvez bien sûr recycler du code Java de R1.01, ainsi que le code de Nim proposé plus haut (essayez d'être aussi clair dans votre code).

Le jeu de Wythoff étant plus complexe que celui de Nim, on fera des fonctions !

Pensez à documenter, commenter et illustrer votre TP.

**bonus** Une fois la machine entrainée, retrouver les positions gagnante à l'aide de la stratégie obtenue ; ou analyser la qualité de l'entrainement en fonction des paramètres de renforcement.

In [3]:
"""
Initialisation des variables globales du programme
"""

CODE_PION = -1
CODE_VICTOIRE = 1
CH_VIDE = ' '
CH_PION = 'o'
CH_VICTOIRE = 'X'
CH_SEPARATEUR = '|'
TITRE = "JEU DE WYTHOFF"
ORDINATEUR = "l'ordinateur"
ORDINATEUR2 = "L'ordinateur"
TXT_TOUR = "\nTour de "
II_POINTS = " :"

"""
Fonction qui va créer le plateau
"""
def cree_plateau(cote):
    plateau = [[0] * cote for _ in range(cote)]
    pion = random.randint(1, cote - 2)
    plateau[cote - 1][0] = CODE_VICTOIRE
    
    if random.choice([True, False]):
        plateau[0][pion] = CODE_PION
    else:
        plateau[pion][cote - 1] = CODE_PION

    return plateau

"""
Fonction qui va afficher le plateau
"""
def affiche_plateau(plateau):
    print(CH_VIDE, end='')

    for i in range(len(plateau[0])):
        print(CH_VIDE, end='')
        print(num_ligne(i), end='')

    print()

    for i in range(len(plateau)):
        print(num_ligne(i), end='')

        for j in range(len(plateau[i])):
            print(CH_SEPARATEUR, end='')

            if plateau[i][j] == CODE_PION:
                print(CH_PION, end='')
            elif (plateau[i][j] == CODE_VICTOIRE):
                print(CH_VICTOIRE, end='')
            else:
                print(CH_VIDE, end='')

        print(CH_SEPARATEUR)

"""
Fonction qui renvoie le numéro d'une ligne dans le plateau
"""
def num_ligne(indice):
    return (indice + 1) % 10

"""
Fonction qui trouve les coordonnées du pion dans le plateau
"""
def coord_pion(plateau, objet):
    coordonnees = [0, 0]
    i = 0
    pas_trouve = True

    while i < len(plateau) and pas_trouve:
        j = 0

        while j < len(plateau[i]) and pas_trouve:
            if plateau[i][j] == objet:
                coordonnees[0] = j
                coordonnees[1] = i
                pas_trouve = False

            j += 1

        i += 1

    return coordonnees

"""
Fonction qui effectue le déplacement du pion dans le plateau
"""
def deplace_pion(plateau, x, y):
    depart = coord_pion(plateau, CODE_PION)
    plateau[depart[1]][depart[0]] = 0
    plateau[y][x] = CODE_PION

"""
Fonction qui vérifie si le déplacement qu'on souhaite faire est possible
"""
def deplacement_possible(plateau, x, y):
    depart = coord_pion(plateau, CODE_PION)
    res = 1

    if 0 <= y < len(plateau):
        if 0 <= x < len(plateau[y]):
            if x == depart[0] and y == depart[1]:
                res = 3
            else:
                if (x < depart[0] and y == depart[1]) or \
                    (x == depart[0] and y > depart[1]) or \
                    (x < depart[0] and (x - depart[0]) == (depart[1] - y)):
                    res = 0
                else:
                    res = 2

    return res

"""
Fonction qui permet au joueur de choisir le sens de son déplacement ainsi que la quantité de cases qu'il souhaite traverser
"""
def deplacement_simple(plateau):
    direction, nb_cases, x, y, valide = 0, 0, 0, 0, 1
    depart = coord_pion(plateau, CODE_PION)
    dir_valide = False

    print("Veuillez saisir le numéro du déplacement de votre choix.")
    print("1 : A gauche\n2 : En bas à gauche\n3 : En bas")

    while not dir_valide:
        direction = int(input("Déplacement choisi : "))
        dir_valide = direction in {1, 2, 3}

        if not dir_valide:
            print("Veuillez saisir le numéro d'une des trois directions proposées!")

    print("Veuillez saisir le nombre de cases à parcourir.")
    print("Saisissez '0' pour changer de direction.")

    while valide != 0:
        nb_cases = int(input("Nombre de cases : "))

        if nb_cases == 0:
            dir_valide = False
            valide = 0  # Pour sortir de la boucle interne
        else:
            if direction == 1:
                x = depart[0] - nb_cases
                y = depart[1]
            elif direction == 2:
                x = depart[0] - nb_cases
                y = depart[1] + nb_cases
            elif direction == 3:
                x = depart[0]
                y = depart[1] + nb_cases

            valide = deplacement_possible(plateau, x, y)

            if valide == 1:
                print("Vous sortez du plateau!")
            elif valide == 2:
                print("Le nombre de cases à parcourir doit être positif!")

    deplace_pion(plateau, x, y)

"""
Fonction effectuant une partie joueur contre joueur
"""
def partie1(plateau, joueur1, joueur2):
    joueur = False

    while plateau[len(plateau) - 1][0] != CODE_PION:
        joueur = not joueur
        affiche_plateau(plateau)
        print(TXT_TOUR, end='')

        if joueur:
            print(joueur1, end='')
        else:
            print(joueur2, end='')

        print(II_POINTS)
        deplacement_simple(plateau)
        affiche_plateau(plateau)

    return joueur

"""
Fonction qui effectue un coup au hasard
"""
def jouer_aleatoire (plateau) :
    x = random.randint(0, len(plateau) - 1)
    y = random.randint(0, len(plateau) - 1)
    while (deplacement_possible(plateau, x, y) != 0) :
        x = random.randint(0, len(plateau) - 1)
        y = random.randint(0, len(plateau) - 1)
    deplace_pion(plateau, x, y)

"""
Fonction qui effectue le déplacement de l'ordinateur selon les récompenses et punitions de celui-ci.
Celle-ci est utilisée avec les variables globales "recompenses" et "punitions"
"""
def deplacement_ordinateur (plateau) :
    x = 0
    y = 0
    changer = True;
    while ((deplacement_possible(plateau, x, y) != 0) or changer) :
        changer = True
        x = random.randint(0, len(plateau) - 1)
        y = random.randint(0, len(plateau) - 1)
        if (random.randint(0, recompenses[x, y] + punitions[x, y]) <= recompenses[x, y]) :
           changer = False
    deplace_pion(plateau, x, y)

"""
Fonction qui effectue le déplacement de l'ordinateur selon les récompenses et punitions de celui-ci.
Celle-ci est utilisée avec les variables globales "recompensesII" et "punitionsII" notamment dans le cadre où on a ordinateur contre ordinateur
"""
def deplacement_ordinateurII (plateau) :
    global recompensesII
    global punitionsII
    x = 0
    y = 0
    changer = True;
    while ((deplacement_possible(plateau, x, y) != 0) or changer) :
        changer = True
        x = random.randint(0, len(plateau) - 1)
        y = random.randint(0, len(plateau) - 1)
        if (random.randint(0, recompensesII[x, y] + punitionsII[x, y]) <= recompensesII[x, y]) :
           changer = False
    deplace_pion(plateau, x, y)

"""
Fonction qui effectue les différentes étapes du déplacement d'un ordinateur
"""
def ordinateur (plateau) :
    deplacement_ordinateur(plateau)
    coord = coord_pion(plateau, CODE_PION)
    coups[coord[0], coord[1]] = 1

"""
Fonction qui effectue ordinateur contre hasard
"""
def partie2 (plateau, taille, joueur1, joueur2, aPrint = True) : # Ordinateur contre hasard
    global punitions
    global recompenses
    global victoires
    global defaites
    global coups
    joueur = False
    coups = np.zeros((taille, taille))

    while plateau[len(plateau) - 1][0] != CODE_PION:
        joueur = not joueur
        

        if joueur:
            ordinateur(plateau)
        else:
            jouer_aleatoire(plateau)

    if (joueur) :
        recompenses += coups
        victoires += 1
        if aPrint :
            print("\n L'ordinateur a gagne.")
    else :
        if aPrint :
            print("\n Le hasard a gagne.")
        punitions += coups
        defaites += 1
    
"""
Fonction qui effectue ordinateur (entrainé) contre ordinateur (non entrainé)
"""
def partie3(plateau, taille, joueur1, joueur2) : # Ordinateur contre ordinateur
    global punitions
    global recompenses
    global victoires
    global defaites
    global coups
    global punitionsII
    global recompensesII
    joueur = False
    coups = np.zeros((taille, taille))


    
    while plateau[len(plateau) - 1][0] != CODE_PION:
        joueur = not joueur
        
        if joueur:
            ordinateur(plateau)
        else:
            deplacement_ordinateurII(plateau)
        
    if (joueur) :
        recompenses += coups
        victoires += 1
        print("\n L'ordinateur II a gagne.")
    else :
        print("\n L'ordinateur I a gagne.")
        punitions += coups
        defaites += 1

"""
Fonction qui effectue l'entrainement de l'ordinateur expert pour la fonction ordinateur_ordinateur()
"""
def ordinateur_hasard(taille):
    global victoires
    global defaites
    for i in range(0, 50) :
        plateau = cree_plateau(taille)
        gagnant = partie2(plateau, taille, "Ordinateur expert", "Hasard")
        print(victoires/(victoires + defaites))
    
    while ((victoires/(victoires + defaites)) < 0.75): # d'où l'entrainement peut prendre beaucoup de temps mais necessaire pour un bon entrainement de l'ordinateur non entrainé
        plateau = cree_plateau(taille)
        gagnant = partie2(plateau, taille, "Ordinateur expert", "Hasard")
        print(victoires/(victoires + defaites))

"""
Fonction qui effectue les différentes étapes de l'entrainement ordinateur (entrainé) contre ordinateur (non entrainé)
"""
def ordinateur_ordinateur(taille):
    global victoires
    global defaites
    global punitions
    global recompenses
    global punitionsII
    global recompensesII
    for i in range(0, 1000) :
        plateau = cree_plateau(taille)
        gagnant = partie2(plateau, taille, 'Ordinateur', 'Hasard', False)
    victoires = 0
    defaites = 0
    punitionsII = punitions + matriceVide # Stockage des punitions de l'ordinateur entrainé contre le hasard dans une autre variable afin de pouvoir modifier la variable "punitions"
    recompensesII = recompenses + matriceVide # Stockage des récompenses de l'ordinateur entrainé contre le hasard dans une autre variable afin de pouvoir modifier la variable "recompenses"
    punitions = np.zeros((taille, taille)) # Réinitialisation de la variable "recompenses" pour pouvoir la modifier de nouveau
    recompenses = np.zeros((taille, taille)) # Réinitialisation de la variable "punitions" pour pouvoir la modifier de nouveau

    print("\n Passons a l'entrainement du deuxieme ordinateur face au premier ordinateur")
    print("Il est nécessaire d'entrainer un peu le deuxieme ordinateur, qui est nouveau et dont les recompenses ainsi que les punitions n'existent pas encore, face a l'ordinateur entraine sans prendre en compte le pourcentage de victoire en premier lieu afin d'éviter que le programme se termine par trop de chance") 
    print("En effet, un gain chanceux du nouvel ordinateur terminerais instantanement le programme alors que son tableau des recompenses ne contient presque rien")

    for i in range(0, 50) :
        plateau = cree_plateau(taille)
        gagnant = partie3(plateau, taille, 'OrdinateurII', 'OrdinateurI')
        print("Pourcentage de chance que ordinateur II gagne face a ordinateur I : ", victoires/(victoires + defaites) * 100, "%")
    while ((victoires/(victoires + defaites))) < 0.5 :
        plateau = cree_plateau(taille)
        gagnant = partie3(plateau, taille, 'OrdinateurII', 'OrdinateurI')
        print("Pourcentage de chance que ordinateur II gagne face a ordinateur I : ", victoires/(victoires + defaites) * 100, "%")








"""
Appel des différentes fonctions afin d'effectuer le travail demandé
"""

tailleTab = int(input("Entrez la taille du tableau : "))
while (tailleTab <= 0) :
    tailleTab = int(input("Entrez une taille de tableau valide (>= 0) : "))
gamemode = int(input("Entrez votre mode de jeu, 1 pour joueur vs joueur, 2 pour ordinateur vs hasard et 3 pour ordinateur entraine vs ordinateur non entraine : "))

global coups
global recompenses
global punitions
global victoires
global defaites
global recompensesII
global punitionsII
global matriceVide
matriceVide =  np.zeros((tailleTab, tailleTab))
recompenses = np.zeros((tailleTab, tailleTab))
punitions = np.zeros((tailleTab, tailleTab))
victoires = 0
defaites = 0


if gamemode == 1 :

    nomJoueur1 = input("Joueur 1, entrez votre nom : ")
    nomJoueur2 = input("Joueur 2, entrez votre nom : ")
    plateau = cree_plateau(tailleTab)
    partie1(plateau, nomJoueur1, nomJoueur2)

elif gamemode == 2 :

    print("Nous allons entrainer un ordinateur par renforcement face au hasard")
    print("ATTENTION : Si l'objectif est trop grand, il est possible qu'il ne soit pas atteignable. Nottament pour des plateaus de petite taille. \n")
    pourcentageVictoire = int(input("Entrez la constante en pourcentage correspondant à l'objectif qu'on souhaite atteindre pour le pourcentage de chance que l'ordinateur gagne : "))
   
    print("\n Il est nécessaire d'entrainer un peu l'ordinateur face au hasard sans prendre en compte le pourcentage de victoire en premier lieu afin d'éviter que le programme se termine par trop de chance")
    print("\n L'entrainement initial est en cours... Celui-ci peut etre long et peut completer le programme directement (visible par le manque de progression du pourcentage) si on est trop chanceux.")
    print("Dans ce cas, il est recommende d'executer de nouveau le programme.")
    for i in range(0, 50) : # Nécessaire pour obtenir un nombre de parties initial différents du nombre de victoires (cas où toutes les premières parties sont des victoires donc arrêt anticipé)
        plateau = cree_plateau(tailleTab)
        gagnant = partie2(plateau, tailleTab, 'Ordinateur', 'Hasard', False)

    time.sleep(1)
    
    while ((victoires/(victoires + defaites)) < pourcentageVictoire / 100):
        plateau = cree_plateau(tailleTab)
        gagnant = partie2(plateau, tailleTab, 'Ordinateur', 'Hasard', True)
        print("Pourcentage de chance que l'ordinateur gagne : ", (victoires/(victoires + defaites)) * 100, "%")
    print(victoires, "victoires")
    print(defaites, "defaites")

elif gamemode == 3 :

    print("Nous allons entrainer un ordinateur par renforcement face au hasard. Celui-ci deviendra notre ordinateur I puis nous entrainerons un autre ordinateur (ordinateur II) contre l'ordinateur I \n")
    print("Nous nous arretons quand le pourcentage de chance que l'ordinateur II gagne est egal au pourcentage de chance que l'ordinateur I gagne \n")
    print("L'entrainement du premier ordinateur (ordinateur I) est en cours... Celui-ci peut etre long et peut completer le programme directement (visible par le manque de progression du pourcentage) si on est trop chanceux.")
    print("Dans ce cas, il est recommende d'executer de nouveau le programme.")
    time.sleep(1)

    plateau = cree_plateau(tailleTab)
    ordinateur_ordinateur(tailleTab)
    time.sleep(1)

    print("Les deux ordinateurs ont dorenavant autant de chance de gagner l'un que l'autre")
    print("nombre de victoires du deuxieme ordinateur : ", victoires)
    print("nombre de defaites du deuxieme ordinateur : ", defaites)
    
else :
    print("Vous n'avez pas choisi un mode de jeu existant")

Entrez la taille du tableau : 9
Entrez votre mode de jeu, 1 pour joueur vs joueur, 2 pour ordinateur vs hasard et 3 pour ordinateur entraine vs ordinateur non entraine : 3
Nous allons entrainer un ordinateur par renforcement face au hasard. Celui-ci deviendra notre ordinateur I puis nous entrainerons un autre ordinateur (ordinateur II) contre l'ordinateur I 

Nous nous arretons quand le pourcentage de chance que l'ordinateur II gagne est egal au pourcentage de chance que l'ordinateur I gagne 

L'entrainement du premier ordinateur (ordinateur I) est en cours... Celui-ci peut etre long et peut completer le programme directement (visible par le manque de progression du pourcentage) si on est trop chanceux.
Dans ce cas, il est recommende d'executer de nouveau le programme.

 Passons a l'entrainement du deuxieme ordinateur face au premier ordinateur
Il est nécessaire d'entrainer un peu le deuxieme ordinateur, qui est nouveau et dont les recompenses ainsi que les punitions n'existent pas enc


 L'ordinateur I a gagne.
Pourcentage de chance que ordinateur II gagne face a ordinateur I :  44.827586206896555 %

 L'ordinateur II a gagne.
Pourcentage de chance que ordinateur II gagne face a ordinateur I :  45.2991452991453 %

 L'ordinateur II a gagne.
Pourcentage de chance que ordinateur II gagne face a ordinateur I :  45.76271186440678 %

 L'ordinateur II a gagne.
Pourcentage de chance que ordinateur II gagne face a ordinateur I :  46.21848739495798 %

 L'ordinateur II a gagne.
Pourcentage de chance que ordinateur II gagne face a ordinateur I :  46.666666666666664 %

 L'ordinateur II a gagne.
Pourcentage de chance que ordinateur II gagne face a ordinateur I :  47.107438016528924 %

 L'ordinateur I a gagne.
Pourcentage de chance que ordinateur II gagne face a ordinateur I :  46.72131147540984 %

 L'ordinateur I a gagne.
Pourcentage de chance que ordinateur II gagne face a ordinateur I :  46.34146341463415 %

 L'ordinateur II a gagne.
Pourcentage de chance que ordinateur II gagne 

Les deux ordinateurs ont dorenavant autant de chance de gagner l'un que l'autre
nombre de victoires du deuxieme ordinateur :  95
nombre de defaites du deuxieme ordinateur :  95
