# Import des bibliothèques nécessaires

In [1]:
from Morpion import Morpion
from MorpionPlayer import MorpionPlayer
import random
import itertools

# Définition d'une partie

Ici nous allons définir une méthode permettant de simuler une partie de morpion. Cette fonction prend en entrée deux joueurs, et un paramètre booléen permettant de définir si nous souhaitons entraîner ou non les agents. Voici alors la définition de la fonction `play` 

In [2]:
def play(game, p1, p2, train=True):
    board = game.reset()
    players = [p1, p2]
    
    random.shuffle(players)
    p = 0
    
    while game.is_finished() is False:
        if players[p%2].is_human:
            game.display()
            
        action = players[p%2].play(game)
        sp = game.step(action, players[p%2].player)
        
        players[p%2].add_state(sp)
        p += 1
        
    game.give_reward(train = train)

Dans cette fonction, nous commençons par remettre à 0 le jeu avec un `game.reset()`. Ensuite, tant que le jeu n'est pas fini chaque joueur joue à tour de rôle. Une fois le jeu fini, nous attribuons les **récompenses** , et rétro-propageons les valeurs de la **fonction valeur** grâce à la fonction `give_reward()`

# Entraînement de deux agents

## Déclaration des agents

In [3]:
p1 = MorpionPlayer(is_human = False,
                   player = 1)

p2 = MorpionPlayer(is_human = False,
                   player = 2)

## Déclaration du jeu

In [4]:
game = Morpion(p1 = p1, p2 = p2)

## Entraînement

Pour l'entrainement des deux agents nous allons jouer 50000 parties, et mettre à jour la **fonction valeur** à la fin de chaque partie. De plus, nous baisserons la valeur de $\epsilon$ toutes les 1000 parties, afin que l'agent privilégie **l'exploitation** face à **l'exploration** au fil des parties jouées. 

In [5]:
for i in range(50000):
    if i%1000 == 0:
        p1.eps = max(p1.eps * 0.8, 0.05)
        p2.eps = max(p2.eps * 0.8, 0.05)
        print("Iteration {}".format(i))
        
    play(game, p1, p2)

Iteration 0
Iteration 1000
Iteration 2000
Iteration 3000
Iteration 4000
Iteration 5000
Iteration 6000
Iteration 7000
Iteration 8000
Iteration 9000
Iteration 10000
Iteration 11000
Iteration 12000
Iteration 13000
Iteration 14000
Iteration 15000
Iteration 16000
Iteration 17000
Iteration 18000
Iteration 19000
Iteration 20000
Iteration 21000
Iteration 22000
Iteration 23000
Iteration 24000
Iteration 25000
Iteration 26000
Iteration 27000
Iteration 28000
Iteration 29000
Iteration 30000
Iteration 31000
Iteration 32000
Iteration 33000
Iteration 34000
Iteration 35000
Iteration 36000
Iteration 37000
Iteration 38000
Iteration 39000
Iteration 40000
Iteration 41000
Iteration 42000
Iteration 43000
Iteration 44000
Iteration 45000
Iteration 46000
Iteration 47000
Iteration 48000
Iteration 49000


# Agent entraîné contre agent aléatoire

Dans cette section, nous allons voir comment notre agent entraîné se comporte face à un agent aléatoire (i.e. non entraîné). 

In [6]:
p1.reset_stat()
p2.reset_stat()

In [7]:
random_player = MorpionPlayer(is_human = False, player = 2)

In [8]:
game = Morpion(p1 = p1, p2 = random_player)

In [9]:
for _ in range(10000):
    play(game, p1, random_player, train = False)

In [10]:
print("p1 wins {}/10000".format(p1.win))
print("p1 did draw {}/10000".format(p1.draw))
print("p1 loses {}/10000".format(p1.lose))
print("p1 win rate: {}%".format(100 * p1.win / (p1.win + p1.lose + p1.draw)))

p1 wins 9121/10000
p1 did draw 735/10000
p1 loses 144/10000
p1 win rate: 91.21%


# Agent entraîné contre humain

Dans cette section, vous pouvez essayer de jouer contre l'agent entraîné à jouer au morpion. Pour cela, il vous suffira d'entrer le numéro de la colonne (entre 0 et 2), et le numéro de ligne (entre 0 et 2) où vous souhaitez placer votre symbole. 

In [11]:
human = MorpionPlayer(is_human = True, player = 2)
game = Morpion(p1 = p1, p2 = human)

In [16]:
try:
    while True:
        play(game, p1, human, train = False)
except KeyboardInterrupt:
    print("Partie interrompue")

[['-' '-' '-']
 ['-' '-' '-']
 ['-' '-' '-']]
Partie interrompue


Pour interrompre le noyau python, et arrêter la partie en cours, tapez deux fois sur la touche "i". 