In [None]:
from outils import* # Lancer la cellule pour importer les outils nécessaires au notebook.
from complements import* # import de fonctions nécessaires au jeu

# <div style = "text-align : center;"><span style="border: 2px solid;padding:6px;color:dodgerblue;">L'algorithme MINIMAX avec ELAGAGE ALPHA - BETA</span></div> #

## <span style="text-decoration: underline;color:red;">I. Introduction :</span> ##
### <span style="text-decoration: underline;color:green;">1. Problématique</span> ###
● <i>Deep Blue</i> a battu <i>Gary Kasparov</i> avec une version améliorée du MiniMax.<br>
<br>
● Le principal défaut du MiniMax est de devoir <strong>visiter tous les noeuds de l'arbre</strong> (jusqu'à la profondeur choisie) pour remonter le score.<br>
Il existe cependant une façon d'<strong>élaguer certaines branches</strong>, afin de <strong>réduire le nombre de noeuds à visiter</strong>. <br>
Ce qui permet <strong>d'augmenter la profondeur</strong> d'exploration.<br>
<br>
Cette variante porte le nom <strong>d'élagage alpha-beta</strong>.<br>
![alt text](mes_images/bucheron.jpg)
### <span style="text-decoration: underline;color:green;">2. Principe :</span> ###
● Reprenons l'exploration initiale de l'arbre des scores déjà étudié pour l'algorithme du minimax :<br>
<br>
N°1 interroge N°2.<br>
&nbsp;&nbsp;&nbsp;&nbsp;N°2 interroge N°5.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;N°5 interroge sa première feuille qui renvoie la valeur $7$. N°5 actualise son score à $7$.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;N°5 interroge sa deuxième feuille qui renvoie $0$. N° 5 conserve son score de $7$ car $7 > 0$<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;N°5 remonte ce score à N°2.<br>
&nbsp;&nbsp;&nbsp;&nbsp;N°2 actualise son score qui passe à $7$.<br>
&nbsp;&nbsp;&nbsp;&nbsp;N°2 interroge N°6.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;N°6 interroge sa première feuille qui renvoie la valeur $8$. N°6 actualise son score qui passe à $8$.<br>
![alt text](mes_images/coupure_beta.png)<br>


In [None]:
qcm.coupure_beta()

● Poursuivons l'exploration de l'arbre après avoir interrompu N°6.<br>
<br>
&nbsp;&nbsp;&nbsp;&nbsp;N°2 remonte un score de 7 à N°1.<br>
N°1 actualise son score à 7.<br>
N°1 interroge N°3.<br>
&nbsp;&nbsp;&nbsp;&nbsp;N°3 interroge N°7.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;N°7 interroge sa première feuille qui renvoie la valeur $5$. N°7 actualise son score à $5$.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;N°7 interroge sa deuxième feuille qui renvoie $-3$. N°7 conserve son score de $5$ car $5 > -3$.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;N°7 remonte ce score à N°3.<br>
&nbsp;&nbsp;&nbsp;&nbsp;N°3 actualise son score qui passe à $5$.<br>
![alt text](mes_images/coupure_alpha.png)<br>


In [None]:
qcm.coupure_alpha()

● Terminons l'exploration de l'arbre après avoir interrompu N°3.<br>
<br>
&nbsp;&nbsp;&nbsp;&nbsp;N°3 remonte un score de $5$ à N°1.<br>
N°1 conerve son score à $7$ car $7 > 5$.<br>
N°1 interroge N°4.<br>
&nbsp;&nbsp;&nbsp;&nbsp;N°4 interroge N°9.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;N°9 interroge sa première feuille qui renvoie la valeur $-1$. N°9 actualise son score à $-1$.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;N°9 interroge sa deuxième feuille qui renvoie $2$. N°9 actualise son score à $2$ car $2 > -1$.<br>
&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;N°9 remonte ce score à N°4.<br>
&nbsp;&nbsp;&nbsp;&nbsp;N°4 actualise son score à $2$.<br>
![alt text](mes_images/coupure_alpha_2.png)<br>


In [None]:
qcm.coupure_alpha_2()

## <span style="text-decoration: underline;color:red;">III. Mise en oeuvre de l'élagage alpha - beta :</span> ##
### <span style="text-decoration: underline;color:green;">1. Principe:</span> ###
● Tout noeud dispose de deux paramètres <span style="font-family:Courier New;font-size: 100%;">alpha</span> et <span style="font-family:Courier New;font-size: 100%;">beta</span> initialisés à $-\infty$ et $+\infty$.<br>
<br>
● Un noeud <strong>attaquant</strong> actualise <strong>alpha</strong> et un noeud <strong>défenseur beta</strong>. <br>
<br>
● Un noeud père transmets toujours à ses fils <strong>ses propres paramètres alpha et beta</strong>.<br>
<br>
De telle sorte :<br>
&nbsp;&nbsp;&nbsp;&nbsp;→ qu'un noeud <strong>attaquant</strong> connait toujours le <strong>score maximum beta toléré par son père défenseur</strong><br>
&nbsp;&nbsp;&nbsp;&nbsp;→ qu'un noeud <strong>défenseur</strong> connait toujours le <strong>score minimal alpha toléré par son père attaquant</strong><br>


<div class="alert alert-block alert-info"><u><b>CONSEQUENCES :</u></b><br> Un noeud <strong>attaquant</strong> interrompt l'exploration de ses fils si l'un d'eux lui remonte un score <strong>supérieur ou égal à son paramètre beta</strong> (coupure beta).<br>Un noeud <strong>défenseur</strong> interrompt l'exploration de ses fils si l'un d'eux lui remonte un score <strong>inférieur ou égal à son paramètre alpha</strong> (coupure alpha).</div><br>

### <span style="text-decoration: underline;color:green;">2. Algorithme :</span> ###
Voici, dans le langage de la POO,  l'algorithme du minimax avec élagage alpha-beta qui permet de coder la méthode <span style="font-family:Courier New;font-size: 100%;">remonter&#95;score</span> depuis les noeuds enfants :<br>
<br>
<code>méthode remonter\_score :<br>&nbsp;&nbsp;&nbsp;&nbsp;si noeud est une feuille ou de profondeur maximale :<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;score\_noeud = son heuristique<br>&nbsp;&nbsp;&nbsp;&nbsp;sinon :<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;si noeud est attaquant: \# role : trouver son score et maximiser son attribut alpha<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;score\_noeud = - infini <br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;pour chaque fils:<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;noeud transmet à fils ses paramètres alpha et beta<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;score\_fils = fils.remonter\_score()<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;score\_noeud = max(score\_noeud, score\_fils)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;si score\_noeud >= self.beta : \# coupure beta<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;break \# inutile de poursuivre l'exploration<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.alpha = max(score\_noeud, self.alpha) \# attaquant actualise alpha<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;sinon: \# noeud est défenseur. role : trouver son score et minimmiser son attribut beta<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;score\_noeud = + infini <br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;pour chaque fils:<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;noeud transmet à fils ses paramètres alpha et beta<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;score\_fils = fils.remonter\_score()<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;score\_noeud = min(score\_noeud, score\_fils)<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;si score\_noeud <= self.alpha : \# coupure alpha<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;break \# inutile de poursuivre l'exploration<br>&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;self.beta = min(score\_noeud, self.beta) \# défenseur actualise beta<br>&nbsp;&nbsp;&nbsp;&nbsp;renvoyer score\_noeud<br></code>
## <span style="text-decoration: underline;color:red;">IV. Application au puissance 4 :</span> ##
### <span style="text-decoration: underline;color:green;">1. Les fonctions nécessaires :</span> ###
COPIER-COLLEZ le code des fonctions <span style="font-family:Courier New;font-size: 100%;">grille&#95;vierge, grille&#95;complete, hauteur, jouer</span> et <span style="font-family:Courier New;font-size: 100%;">heuristique</span> codées dans le notebook précédent.<br>


In [None]:
# Code des fonctions nécessaires au jeu

### <span style="text-decoration: underline;color:green;">2. Codage des noeuds via la classe <span style="font-family:Courier New;font-size: 100%;">AlphaBeta</span> :</span> ###
On conserve la même classe noeud que pour le Minimax. En rajoutant simplement :
- deux attributs <span style="font-family:Courier New;font-size: 100%;">alpha</span> et <span style="font-family:Courier New;font-size: 100%;">beta</span> initialisés à $-\infty$ et $+\infty$ par défaut

<strong>Seule la méthode</strong> <span style="font-family:Courier New;font-size: 100%;">remonter&#95;score</span> va changer, puisqu'elle utilise <span style="font-family:Courier New;font-size: 100%;">self.alpha</span> et <span style="font-family:Courier New;font-size: 100%;">self.beta</span>.<br>


In [None]:
class Noeud:

    def __init__(self, pion_ordi, lst_colonnes, attaquant = True , profondeur = 0, dernier_coup = None):
        self.pion_ordi = pion_ordi # fixé en début de partie. Permet de calculer l'heuristique
        self.colonnes = lst_colonnes # état du jeu
        self.attaquant = attaquant # la racine est un noeud attaquant par défaut. Ses fils défenseurs, etc.
        self.profondeur = profondeur
        self.dernier_coup = dernier_coup
        # attributs ajoutés :
        self.pion_humain = 3 - pion_ordi
        self.pion_a_placer = self.pion_ordi if self.attaquant else self.pion_humain
        self.fils = []
        self.alpha = -float("inf")
        self.beta = float("inf")

    def est_feuille(self, profondeur_max):
        '''renvoie True si la partie est finie ou si le noeud est de profondeur profondeur_max'''
        pass
        

    def creer_fils(self, x, y):
        '''Crée une instance fils en jouant en colonne x hauteur y EN LUI PASSANT SES PARAMETRES ALPHA BETA'''
        pass

    def remonter_score(self, profondeur_max):
        '''remonte les scores selon l'algorithme alpha - beta avec une profondeur_max d'exploration'''
        pass


    def meilleur_coup(self, profondeur_max):
        '''renvoie le tuple (x, y) correspondant aux coordonnées où doit jouer l'IA'''
        pass

### <span style="text-decoration: underline;color:green;">3. Les méthodes :</span> ###
Complétez toutes les méthodes.<br>
Seule la méthode <span style="font-family:Courier New;font-size: 100%;">remonter&#95;score</span> change!<br>
Notez que le gain de temps est net! On peut explorer jusqu'à 7 voire 8 à présent!<br>


In [None]:
lst_col = grille_vierge()
scores_attendus = [6, 0, 5] # pour des profondeurs de 5, 6, et 7. On obtient -2 à une profondeur de 8
for profondeur in range(5, 8):
    racine = Noeud(1, lst_col)
    assert racine.remonter_score(profondeur) == scores_attendus[profondeur-5], f'''erreur score à une profondeur de {scores_attendus[profondeur-5]}'''

In [None]:
solution.Noeud()   

## <span style="text-decoration: underline;color:red;">V. Match homme-IA:</span> ##
Vous pouvez relancer un match contre votre IA.<br>
Vous devriez noter une accélération du jeu, puisque les choix sont les mêmes, mais avec élagage.<br>
Vous pouvez passer la profondeur d'exploration à 6, 7 voire 8...<br>


In [None]:
# Match homme - IA :
def match(prof_max, affichage = 1): # affichage = 1 pour pion de couleur ou 2 pour croix et rond
    pion_ordi = int(input("Qui commence? (Ordi : 1, humain : 2) :"))
    pion_humain = 3 - pion_ordi
    tour_humain = True
    if pion_ordi == 1:
        tour_humain = False
    lst_col = grille_vierge()
    num_joueur = 1
    dic_joueurs = {pion_ordi : "Ordinateur", pion_humain : "Humain"}
    x = None
    while True:
        effacer()
        afficher(lst_col, affichage)
        if x is not None and num_joueur == pion_humain: # on affiche toujours ou vient de jouer Ordi
            print(dic_joueurs[pion_ordi], "a joué en colonne", x)
        if num_joueur == pion_humain: # on interroge humain 
            while True: # on demande un coup valide à l'humain
                x = input("En quelle colonne souhaitez-vous jouer?")
                if x == "q":# On quitte le jeu
                    return
                try: # On détecte les choix invalides (colonne complète, invalide ou erreur de saisie)
                    x = int(x)
                    y = hauteur(x, lst_col)
                    if y != -1:
                        break
                except:
                    print("choix invalide")
            # on actualise la grille :
            lst_col = jouer(x, y, pion_humain, lst_col)
            
        else:
            # ordi joue
            racine = Noeud(pion_ordi, lst_col) # la racine est un noeud attaquant par défaut
            x = racine.meilleur_coup(prof_max)
            y = hauteur(x, lst_col)
            lst_col = jouer(x, y, pion_ordi, lst_col)
        # vainqueur ou nulle?
        if abs(heuristique(lst_col, pion_ordi)) == float("inf"):
            effacer()
            afficher(lst_col, affichage)
            print(dic_joueurs[num_joueur], "gagne!")
            return
        if grille_complete(lst_col):
            effacer()
            afficher(lst_col, affichage)
            print("match nul!")
            return
        num_joueur = 3 - num_joueur
        
match(7) # match avec une profondeur max de 7

## <span style="text-decoration: underline;color:red;">VI. Améliorations... :</span> ##
<strong>FACULTATIF!</strong><br>
Si vous voulez améliorer votre IA...<br>
Cherchez meilleure heuristique...<br>
L'ordre d'exploration des fils peut-elle être changée pour améliorer l'élagage?...<br>
Peut-on mieux coder une grille?<br>
Explorez-toutes les pistes possibles!<br>


In [None]:
# IA amélioréé