# Jeux à 2 joueurs séquentiels


---

On se place dans le cadre suivant:
* jeux à somme nulle
* horizon borné
* sans hasard

### Représentation sous forme d'arbre

---
* Deux joueurs appelés Min et Max
* **sommets internes** (ou sommet décisionnel): états du jeu où les joueurs prennent une décision; les carrés rouges sont les états du joueur Max et les losanges bleus, ceux du joueur Min
* **sommets feuilles**: états de fin de jeu valués; cette valeur correspond à ce que gagne joueur Max, et ce que perd le joueur Min
* **arcs**: transitions entre états 


<center><img src='fig/arbre_exemple.png'  style="width: 1000px;"></center> 




* quel est le nombre de **stratégies** par joueur?

* quelle est l'issue du jeu si les joueurs jouent de manière "optimale"?

### Stratégies et valeurs

---

* $\Sigma_x$: ensemble de stratégies issues de l'état $x$ pour Max
* $T_x$: ensemble de stratégies issues de l'état $x$ pour Min 
* $v_{\sigma, \tau}(x)$: gain obtenu par Max en commençant dans l'état $x$ si les joueurs suivent les stratégies $\sigma \in \Sigma_x$ et $\tau\in T_x$


* on note $v_\max(x)$ le **meilleur gain que Max peut garantir** depuis l'état $x$
* on note $v_\min(x)$ le **meilleur gain que Min peut garantir** depuis l'état $x$

**Montrer que**: 
* $$v_\max(x) = \max_{\sigma \in \Sigma_x} \min_{\tau \in T_x}  v_{\sigma, \tau}(x)$$
* $$v_\min(x) = \min_{\tau \in T_x} \max_{\sigma \in \Sigma_x}  v_{\sigma, \tau}(x)$$
* $$v_\max(x) \leq v_\min(x) $$




**Autre interprétation** de $v_\max$ et $v_\min$:

* $v_\max$: Max choisit sa stratégie en premier, puis Min répond en connaissant la stratégie de Max
* $v_\min$: Min choisit sa stratégie en premier, puis Max répond en connaissant la stratégie de Min



### Stratégies et valeurs

---

<div class="alert-info">
Théorème
</div>

Pour tout état $x$ on a 

$$v_\max(x) =  
\left\{
\begin{array}{l}
\text{valeur de la feuille si }x\text{ est une feuille}\\
\max_{(x,y) \in A} v_\max(y) \text{ si } x \text{ est un sommet Max}\\
\min_{(x,y) \in A} v_\max(y) \text{ si } x \text{ est un sommet Min}
\end{array}
\right.
$$

**A démontrer**.


Par symétrie sur $v_\min(x)$, on a $v_\max(x) = v_\min(x)  $.

On note $v(x)$ cette valeur que l'on appelle la **valeur** de $x$.






<div class="alert-info">
Algorithme minimax
</div>

Calculer les valeurs en remontant depuis les feuilles.

**Remarques**:
* il s'agit d'un algorithme de type backward induction
* l'algorithme donne aussi des stratégies optimales




### Elagage $\alpha\beta$

---

Méthode d'exploration partielle de l'arbre pour calculer la valeur du jeu à la racine (type branch and bound).

<center><img src='fig/alpha_beta.png'  style="width: 1000px;"></center> 



### Jeux combinatoires

---

Les jeux combinatoires sont des jeux séquentiels à horizon fini dans lesquels il y a un perdant et un gagnant $\Leftrightarrow$ les valeurs des feuilles de l'arbre sont 0 ou 1.

On pourrait ajouter la possibilité d'un match nul.

* Max a une **stratégie gagnante depuis $x$** s'il peut garantir la valeur $1$.
* Min a une **stratégie gagnante depuis $x$** s'il peut garantir la valeur $0$.

**Théorème de Zermelo**: pour tout $x$, un et un seul des joueurs a une stratégie gagnante.

**Preuve**: 
Par le théorème précédent:
* Max a une stratégie gagnante depuis $x$ si et seulement si $v(x) = 1$
* Min a une stratégie gagnante depuis $x$ si et seulement si $v(x) = 0$
* les deux seules valeurs possibles pour $v(x)$ sont 0 et 1, d'où le résultat.

Théorème d'existence, non constructif.

### Classification des  jeux combinatoires

---

* **jeu combinatoire impartial**: les actions des joueurs dépendent uniquement de la position du jeu et pas du joueur (exemples après). 

* **jeu combinatoire partisan**: si ce n'est pas un jeu impartial (ex. jeu d'échec, dames...).

Dans la suite, on considère le cas des **jeux impartiaux**.


### Un premier exemple: jeu de Nim

---

* $n$ batonnets
* à tour de rôle, les joueurs enlèvent 1, 2 ou 3 batonnets
* celui qui enlève le dernier gagne

**Question**: dire qui (premier ou deuxième joueur) a une stratégie gagnante en fonction de $n$. Expliciter la stratégie gagnante.

### Une conséquence du théorème de Zermelo

---

* une **P-position**  est une position du jeu qui est gagnante pour le joueur **précédent** (celui qui a joué en dernier)

* une **S-position** est une position du jeu qui est gagnante pour le joueur **suivant** (celui qui va jouer)

<div class="alert-info">
Théorème
</div>

* les P-positions et S-positions partitionnent l'ensemble des positions;
* depuis une S-position non terminale, il existe une transition vers une P-position;
* depuis une P-position non terminale, toute transition mène vers une S-position;
* une stratégie gagnante depuis une S-position consiste à amener l'adversaire à une P-position;

**A démontrer.**


### Jeu des carrés de chocolat (chomp)

---

* tablette de chocolat rectangulaire constituée de $n\times m$ carrés de chocolat
* à tour de rôle, les joueurs choisissent un carré de chocolat restant, et on enlève alors tous les carrés qui sont "au-dessus" et "à droite" de celui-ci
* le joueur qui prend le carré "en bas à gauche" perd

<div class="alert-info">
Théorème
</div>

la position initiale est une S-position.


**Preuve (vol de stratégie)**: par l'absurde, supposons que ce soit une P-position. Alors la position que l'on obtient en retirant le carré en haut à droite est une S-position. Il existe donc une stratégie pour le 2ème joueur qui amène vers une P-position. Mais le premier joueur aurait pu amener le 2ème joueur vers cette P-position au premier coup. Cela contredit le fait que la position initiale est une P-position.

Donner la stratégie gagnante de J1 dans les cas suivants:
* tablette de taille $1\times n$
* tablette de taille $2\times n$
* tablette de taille $n\times n$


### Jeu de Nim général

---

* $k$ tas contenant respectivement $n_1$, $n_2$, ... $n_k$ batonnets
* à tour de rôle, les joueurs enlèvent autant de batonnets qu'ils veulent, et au moins un, dans un seul tas
* le gagnant est celui qui enlève le dernier batonnet du dernier tas


**Question**: dire qui (premier ou deuxième joueur) a une stratégie gagnante quand $k$ vaut 1, 2 ou 3, en fonction de la taille des tas. Expliciter la stratégie gagnante.

### Caractérisation des P-positions

---


<div class="alert-info">
Théorème
</div>

Soit $X$ un ensemble de positions du jeu; $X$ est l'ensemble des P-positions si et seulement si:
* $X$ contient toutes les P-positions terminales et aucune S-position terminale
* depuis une position en dehors de $X$ non terminale, il existe une transition vers $X$;
* depuis une position de $X$ non terminale, toute transition mène vers une position en dehors de $X$;

**A démontrer.**


Déterminer les P-positions et S-positions du jeu de Nim à $n$ batonnets dans lequel on peut retirer de 1 à k batonnets à chaque tour.

### Retour sur le jeu de Nim général

---

<div class="alert-info">
Théorème
</div>

Les P-positions du jeu de Nim général $(n_1, n_2, \dots , n_k)$ sont celles pour lesquelles
$$n_1 \oplus n_2 \oplus \dots \oplus n_k = 0 $$
où $a \oplus b$ est la somme XOR des nombres écrits en binaire. Cette somme s'appelle **nim-somme**.



<div class="alert-info">
Etapes de preuve
</div>
La position $(0, 0, \dots, 0)$ est une P-position, et:

1. si la position du jeu a une nim-somme nulle, alors n'importe quelle action amène à une nim-somme non nulle;

2. si la position du jeu a une nim-somme non nulle, alors il existe une action qui amène à une nim-somme nulle;


### Preuve des nim-sommes

---

1. Soit $(n_1, n_2, \dots , n_k)$ une position du jeu telle que 
$$n_1 \oplus n_2 \oplus \dots \oplus n_k = 0 $$
et soit $i$ le tas choisi pour retirer des batonnets et $m_i < n_i$ la nouvelle valeur du tas, alors:
$$n_1 \oplus  \dots n_{i-1} \oplus m_i \oplus n_{i+1}\oplus \dots \oplus n_k =  n_1 \oplus  \dots n_{i-1} \oplus m_i \oplus (n_i \oplus n_i) \oplus n_{i+1}\oplus \dots \oplus n_k = (m_i \oplus n_i) > 0 $$




2. Soit $(n_1, n_2, \dots , n_k)$ une position du jeu telle que 
$$s := n_1 \oplus n_2 \oplus \dots \oplus n_k  > 0 $$
et soit $i$ un tas tel que $s \oplus n_i < n_i$ (existe toujours). Alors on change $n_i$ en $m_i = s \oplus n_i$, si bien que 
$$s \oplus n_i \oplus m_i =  s  \oplus n_i \oplus s  \oplus n_i = 0 $$

**Exemple**: choisir trois valeurs, par exemple $(3,4,5)$.

### Jeu impartial en version normale

---

Un jeu impartial est dit **normal** si le premier joueur qui ne peut plus jouer perd.

* équivalent au fait que les positions terminales (feuilles) sont des P-positions
* dans le cas où les positions terminales sont des des S-positions, on parle de version **misère** du jeu.

Dans la suite, on considère des jeux impartiaux en version normale.

### Fonction de Sprague-Grundy d'un graphe acyclique $G = (X, A)$

---
C'est la fonction $g$ à valeurs entières positives définie sur $X$ par la formule suivante:
$$g(x) = \min\{n \geq 0 : n \neq g(y),  \forall y \in N^+(x)\} $$
ou de manière équivalente par:
$$g(x) = \text{mex}(g(N^+(x))) $$
où la fonction mex est la "minimum excluded value":
$$\text{mex}(\{0,1,2,6 \}) = 3 $$





Calculer la fonction de Sprague-Grundy:
* dans le graphe du jeu de nim général à 1 tas
* dans le graphe du jeu de nim dans lequel on peut retirer 1,3 ou 4 batonnets.

<div class="alert-info">
Propriété
</div>

Les P-positions d'un jeu en version normale coincident avec les sommets du graphe ayant une valeur de Sprague-Grundy égale à 0.


### Somme de jeux impartiaux

--- 

Soit $G_1$ et $G_2$ deux jeux impartiaux. Leur somme, notée $G_1 + G_2$ est le jeu dans lequel, à chaque tour, le joueur joue soit dans $G_1$ soit dans $G_2$.

Le graphe associé a $G_1+G_2$ est le produit des graphes associés à $G_1$ et $G_2$.

**Exemple**: le jeu de Nim général à $k$ tas est la somme de $k$ jeux de Nim généraux à 1 tas.


<div class="alert-info">
Théorème de Sprague-Grundy (admis)
</div>

Considérons la somme de jeux $G_1 + \dots + G_n$. Alors la valeur de Sprague-Grundy $g$ de la position $(x_1, \dots, x_n)$ est 

$$g(x_1, \dots, x_n) = g_1(x_1) \oplus \dots \oplus g_n(x_n) $$

