# Projet Morpion

In [3]:
# Importation de notre classe Morpion depuis le fichier morpion.py
# Cette classe contient l'implémentation du jeu de base
from morpion import Morpion

# Matplotlib : bibliothèque de visualisation pour créer des graphiques
# Nous l'utiliserons pour visualiser l'apprentissage de l'IA
import matplotlib.pyplot as plt

# NumPy : bibliothèque pour le calcul scientifique
# Utilisée pour les opérations mathématiques et la manipulation de tableaux
import numpy as np

# Module random pour générer des nombres aléatoires
# Utilisé pour l'exploration dans l'algorithme de Q-Learning
import random

# IPython.display : module pour contrôler l'affichage dans Jupyter
# clear_output permet d'effacer la sortie précédente pour une meilleure visualisation
from IPython.display import clear_output

In [4]:
# Création d'une nouvelle instance du jeu
game = Morpion()

# L'IA (joueur 1) joue en position 1 (case en haut à gauche)
game.jouer_coup(1, 1)  # Placera un 'O'

# Le joueur humain (joueur 2) joue en position 2 (case en haut au milieu)
game.jouer_coup(2, 2)  # Placera un 'X'

# Affichage de l'état actuel du plateau
game.afficher_plateau()

In [6]:
def choisir_coup(coups_possibles, etat_actuel, etats_et_valeurs, epsilon=0.1):
    """
    Sélectionne le prochain coup en utilisant la stratégie epsilon-greedy du Q-Learning.

    Cette fonction implémente le compromis exploration/exploitation :
    - Exploration (probabilité epsilon) : choisit un coup au hasard pour découvrir de nouvelles stratégies
    - Exploitation (probabilité 1-epsilon) : choisit le coup avec la plus grande valeur connue

    Arguments:
    -----------
    coups_possibles : list
        Liste des coups qui peuvent être joués
    etat_actuel : list
        Vecteur représentant l'état actuel du jeu
    etats_et_valeurs : dict
        Dictionnaire contenant les valeurs associées à chaque état déjà rencontré
    epsilon : float, optionnel (défaut=0.1)
        Probabilité d'explorer (choisir un coup aléatoire)

    Retourne:
    -----------
    action : int
        Le coup choisi à jouer
    """    
    # Décision d'explorer ou d'exploiter
    # explore = 0 : on explore (probabilité epsilon)
    # explore = 1 : on exploite (probabilité 1-epsilon)
    explorer = np.random.choice([0, 1], p=[epsilon, 1 - epsilon])

    if explorer == 0:
        # EXPLORATION : On choisit un coup au hasard parmi les coups possibles
        action = np.random.choice(coups_possibles)

    else:
        # EXPLOITATION : On cherche le coup qui maximise la valeur selon l'expérience passée

        # Initialisation de la valeur maximale
        meilleure_valeur = -999

        # On évalue chaque coup possible
        for coup in coups_possibles:
            # Copie de l'état actuel pour simulation
            etat_test = etat_actuel.copy()
            # Ajout du coup potentiel à l'état
            etat_test.append(coup)

            # Vérification si cet état a déjà été rencontré
            if tuple(etat_test) in etats_et_valeurs.keys():
                # Si oui, on récupère sa valeur
                valeur = etats_et_valeurs[tuple(etat_test)]
            else:
                # Si non, on initialise sa valeur à 0
                valeur = 0

            # Si ce coup mène à une meilleure valeur que ce qu'on a trouvé jusqu'ici
            if valeur > meilleure_valeur:
                # On le garde comme meilleur coup
                action = coup
                meilleure_valeur = valeur

            # On retire le coup testé de l'état avant de tester le suivant
            etat_test.remove(coup)       

    return action