## Jeux séquentiels à 1 joueur

### Horizon fini, sans hasard

---

Représentation sous forme d'arbre:
* **sommets internes** (ou sommet décisionnel): états du jeu où le joueur prend une décision
* **sommets feuilles**: états de fin de jeu
* **arcs**: transitions entre états, avec récompense $r_{x,y}$ pour l'arc $(x,y)$



<center><img src='fig/tree_simple.png'  style="width: 1000px;"></center> 


### Stratégie

---

**Stratégie**: choix (déterministe) d'une transition pour chaque sommet décisionnel. La valeur de la stratégie est la valeur de la feuille reliée à la racine par cette stratégie.

**Questions**:
* dans l'exemple, quelle est la valeur de la stratégie qui choisit toujours la transition vers le haut?
* dans l'exemple, combien y a-t'il de stratégies différentes?
* et combien de stratégies dans le jeu de Sokoban à $n$ positions, un joueur et 5 caisses à déplacer?


<center><img src='fig/tree_simple.png'  style="width: 1000px;"></center> 



### Stratégie optimale

---

Une stratégie est **optimale** si sa valeur est maximale parmi l'ensemble des stratégies.





La **valeur d'un sommet** $x$, notée $v(x)$, est la valeur d'une stratégie optimale dans le **sous-jeu** défini par le sous-arbre issu de $x$. Alors:

$$v(x) = 
\left\{
\begin{array}{l}
0 \text{ si }x\text{ est une feuille}\\
\max_{(x,y) \in A}(r_{x,y} + v(y)) \text{ sinon}
\end{array}
\right.
$$

**Questions**: 

* preuve?

* que peut-on dire des stratégies aléatoires?



### Algorithme backward induction de calcul des valeurs

---

**Principe**: on calcule récursivement les valeurs depuis les feuilles, ainsi que les stratégies optimales associées.

<center><img src='fig/tree_simple_resolu.png'  style="width: 1000px;"></center> 


### Horizon fini, avec hasard

---

**Exemple**: on lance un dé, si on fait 1 ou 2, on ne gagne rien (on perd tous les points cumulés) et le jeu s'arrête, si on fait 3 ou 4 on gagne 1 point, si on fait 5 ou 6, on gagne 2 points. Si on fait 5 ou 6, on peut relancer le dé, et cela au plus deux fois. Calculer alors l'espérance de gain maximale que l'on peut obtenir.

Trois types de sommets:
* sommets feuilles
* sommets décisionnels
* sommets hasard

Calcul récursif de la valeur d'un sommet:

$$v(x) = 
\left\{
\begin{array}{l}
0 \text{ si }x\text{ est une feuille}\\
\max_{(x,y) \in A}(r_{x,y} + v(y)) \text{ si c'est un sommet décisionnel}\\
\sum_{(x,y) \in A} P_{xy}(r_{x,y} + v(y)) \text{ si c'est un sommet hasard}
\end{array}
\right.
$$



### Exercice

---

On considère un jeu dans lequel une urne contient des boules blanches et des boules noires. A chaque étape, et tant qu'il reste des boules dans l'urne, le joueur choisit soit de poursuivre soit d’arrêter le jeu. S’il décide de continuer alors on tire une boule au hasard uniformément. Si c’est une boule noire le joueur perd 1 point, et si c’est une boule blanche le joueur gagne 1 point. Quand le joueur s'arrête, éventuellement parce qu'il n'y a plus de boules dans l'urne, il gagne le nombre de points qu'il a cumulés au cours de la partie. Le joueur connaît le nombre de boules blanches et de boules noires au début du jeu.

* Proposer une modélisation du jeu (définir les états, les transitions et leurs récompenses).
* Donner les relations permettant de calculer la valeur des états.
* Combien le joueur peut-il espérer gagner au mieux s'il y a, au début, 2 boules blanches et 3 boules noires? 

### Autre exercice: le problème de la location de logement

---

Connu sous le nom *problème du secrétaire*:

https://fr.wikipedia.org/wiki/Probl%C3%A8me_du_secr%C3%A9taire


* on visite au plus $n$ logements à louer dans un ordre aléatoire
* la visite permet de savoir si le logement est mieux que ceux visités avant
* juste après la visite, on accepte ou non la location, et la décision est irrévocable
* si on a rejeté les $n-1$ premiers logements, alors on accepte le $n$-ème
* **objectif**: maximiser la probabilité de choisir le meilleur logement
* Définir les états, calculer la valeur de ces états, et donner une stratégie optimale.
* Indication: commencer par traiter les cas $n=1,2,3$.

**Modélisation**:
* états: $(i, b)$ avec $1\leq i \leq n$ et $b \in \{0,1\}$
    * $b$ vaut 1 si le $i$-ème logement est meilleur que tous les précédents, et 0 sinon

<center><img src='fig/secretary_pb.png'></center> 

<center><img src='fig/secretary_pb.png'></center> 

**Calcul de la valeur**:

$$
\left\{
\begin{array}{ll}
v(i,0) & = \frac{i}{i+1} v(i+1, 0) + \frac{1}{i+1} v(i+1, 1) \\
v(i,1) & = \max[\frac in,  v(i,0)] \\
v(n,1) & = 1 \\
v(n,0) & = 0
\end{array}
\right.
$$

In [1]:
n = 50
v0, v1 = [0]*n, [0]*n
v1[-1] = 1
for i in range(n-2, -1, -1):
    v0[i] = (i+1)/(i+2)*v0[i+1] + 1/(i+2)*v1[i+1]
    v1[i] = max((i+1)/n, v0[i])
print(v1)

[0.37427501364792026, 0.37427501364792026, 0.37427501364792026, 0.37427501364792026, 0.37427501364792026, 0.3742750136479202, 0.37427501364792026, 0.37427501364792026, 0.37427501364792026, 0.37427501364792026, 0.37427501364792026, 0.3742750136479203, 0.3742750136479203, 0.3742750136479203, 0.3742750136479203, 0.3742750136479203, 0.3742750136479203, 0.3742750136479203, 0.38, 0.4, 0.42, 0.44, 0.46, 0.48, 0.5, 0.52, 0.54, 0.56, 0.58, 0.6, 0.62, 0.64, 0.66, 0.68, 0.7, 0.72, 0.74, 0.76, 0.78, 0.8, 0.82, 0.84, 0.86, 0.88, 0.9, 0.92, 0.94, 0.96, 0.98, 1]


### Exercice 

---

On considère un jeu où un joueur tire à pile ou face avec une pièce qui a une probabilité $p$ de tomber sur face. Si le joueur obtient pile, il ajoute 1 point à son score. Le joueur décide de continuer ou de s'arrêter avant chaque lancer de pièce. Si le joueur s'arrête, il gagne autant d'argent que de points accumulés. Si la pièce tombe sur face le jeu s'arrête et le joueur perd alors tous les points accumulés, c'est-à-dire qu'il ne gagne rien. 

* Modéliser ce jeu
* Ecrire les équations d'optimalité
* Montrer que la stratégie à seuil suivante est optimale: "si le joueur a plus de $\frac{1-p}{p}$ points, alors il s'arrête, sinon il continue".


### Horizon infini avec hasard: Processus de décision Markovien (MDP pour faire court)

---

C'est un processus de récompense Markovien avec un agent qui va contrôler certaines transitions afin de maximiser le gain total:

* ensemble fini d'états $\mathcal{S} = \mathcal{S}_r \cup \mathcal{S}_d$
    * $\mathcal{S}_r$ est l'ensemble des **états aléatoires** (peut contenir des puits)
    * $\mathcal{S}_d$ est l'ensemble des **états décisionnels**
* probabilités de transition pour tout état aléatoire $s \in \mathcal{S}_r$ et tout $s' \in \mathcal{S}_r \cup \mathcal{S}_d$:
$$P_{ss'} = \mathbb{P}[S_{t+1} = s' | S_t = s] $$
* **pour tout état décisionnel $s \in \mathcal{S}_d$, on note $\mathcal{A}(s) \subseteq \mathcal{S}$ l'ensemble des actions d'un agent qui sont les transitions possibles depuis l'état $s$**
* fonction de récompense $r_{ss'}$ pour toute transition $s \rightarrow s'$
* facteur de discount $\gamma \in [0,1]$
* **objectif: stratégie qui maximise le gain discounté en espérance (la valeur)**



### Exemple de la machine à café 

---

<center><img src='fig/machine_cafe.png'  style="width: 1000px;"></center> 


* Etats décisionnels: *Neuve* et *Abimée*
* Etats aléatoires: *N,ent*, *N,pas* et *A,pas*
* Puits: *Cassée*
* discount $\gamma = 1$ (graphe stopping)

### Stratégie Markovienne déterministe $\pi$

---

Choix d'une transition pour chaque état décisionnel

$$ \forall s \in \mathcal{S}_d, \pi(s) \in A(s) $$


* dépend uniquement de l'état (stratégie Markovienne)
* ne varie pas au cours du temps (stratégie stationnaire)


La stratégie $\pi$ étant fixée, la suite des état $(S_t)_{t \geq 0}$ induit un processus de récompense Markovien, où les probabilités de transition sont:

$$P^\pi_{ss'} = 
\left\{
\begin{array}{ll}
P_{ss'} & \text{ si }s \in \mathcal{S}_r\\
1 & \text{ si }s \in \mathcal{S}_d \text{ et } s' = \pi(s) \\
0 & \text{ sinon}
\end{array}
\right.
$$



### Valeur d'une stratégie

---

Pour tout état décisionnel $s$, la valeur $v_\pi$ de la stratégie $\pi$ est caractérisée par la relation linéaire suivante:



$$v_\pi(s) = 
\left\{
\begin{array}{ll}
\sum_{s' \in \mathcal{S}}P_{ss'}(r_{ss'} + \gamma v_\pi(s')) & \text{ si }s \in \mathcal{S}_r\\
r_{s,\pi(s)} + \gamma v_\pi(\pi(s)) & \text{ si }s \in \mathcal{S}_d 
\end{array}
\right.
$$


Qui s'écrit matriciellement:

$$v_\pi = R^\pi + \gamma P^\pi v_\pi$$




### Valeurs des stratégies Markoviennes déterministes de la machine à café

---

<center><img src='fig/machine_cafe.png'  style="width: 1000px;"></center> 

Calculer la valeur de la stratégie déterministe où l'on entretient toujours la machine à café.



|  | E,E  | P,E  | E,P  | P,P 
|:--- |:---:|:---:|:---:|:---:
|**Neuve**  |  40 | 50  | 22.5 | 23.3|
|*N,ent*  |  38 | 47.5  | 20.5 | 21.2|
|*N,pas*  |  36 | 45  | 17.9 | 18.3|
|**Abimée**  |  40 | 50  | 16.7 | 16.7|
|*A,pas*  |  28 | 35  | 11.6 | 11.6|





### Valeur optimale

---

La valeur optimale $v^*$ est définie par
$$v^*(s) = \max_\pi v_\pi(s), \forall s \in \mathcal{S}_d $$


<div class="alert-info">
Propriétés
</div>

* il existe une stratégie **déterministe optimale** $\pi^*$ telle que: $v_{\pi^*} = v^*  $
* en particulier elle est optimale pour tout état initial $s \in \mathcal{S}_d$
* (admis) cette stratégie est meilleure que n'importe quelle stratégie non Markovienne et/ou aléatoire

<div class="alert-info">
Résoudre un MDP:
</div>

* calculer la valeur optimale
* ou une stratégie optimale
* passer de l'un à l'autre est "facile"

### Equation d'optimalité de Bellman 
---

Pour tout état $s \in \mathcal{S}_d$, la valeur optimale est caractérisée par les équations de Bellman

$$v^*(s) = 
\left\{
\begin{array}{ll}
\sum_{s' \in \mathcal{S}}P_{ss'}(r_{ss'} + \gamma v^*(s')) & \text{ si }s \in \mathcal{S}_r\\
\displaystyle \max_{s' \in A(s)} (r_{ss'} + \gamma v^*(s')) & \text{ si }s \in \mathcal{S}_d 
\end{array}
\right.
$$



* généralise la caractérisation de la valeur dans le cas acyclique.
* équations non linéaires à cause de la fonction max

**Exercice**: écrire les équations d'optimalité dans l'exemple de la machine à café.



### Calcul d'une politique optimale à partir de la valeur optimale $v^*$

---

Une stratégie optimale est telle que pour chaque état décisionnel $s \in \mathcal{S}_d$ on choisit une action qui maximise

$$
\max_{s' \in A(s)} (r_{ss'} + \gamma v^*(s'))
$$



En effet, la valeur de cette stratégie est alors $v^*$.

### Algorithmes de résolution des MDP

---

<div class="alert-info">
    
avec connaissance du modèle (programmation dynamique)
</div>

* forme close de la solution (cas rare)
* itération de valeur
* programmation linéaire
* itération de stratégie
    
    
<div class="alert-info">
    
    
sans connaissance du modèle
</div>

* itération de stratégie avec estimation par Monte Carlo
* extension de TD(0) au cadre décisionnel: SARSA, q-learning
    



### Itération de valeur

---

Equation d'optimalité de Bellman:

$$v^*(s) = 
\left\{
\begin{array}{ll}
\sum_{s' \in \mathcal{S}}P_{ss'}(r_{ss'} + \gamma v^*(s')) & \text{ si }s \in \mathcal{S}_r\\
\displaystyle \max_{s' \in A(s)} (r_{ss'} + \gamma v^*(s')) & \text{ si }s \in \mathcal{S}_d 
\end{array}
\right.
$$

Soit $f: \mathbb{R}^{\mathcal{S}} \rightarrow \mathbb{R}^{\mathcal{S}} $ définie par

$$f(w)(s) = 
\left\{
\begin{array}{ll}
\sum_{s' \in \mathcal{S}}P_{ss'}(r_{ss'} + \gamma w(s')) & \text{ si }s \in \mathcal{S}_r\\
\displaystyle \max_{s' \in A(s)} (r_{ss'} + \gamma w(s')) & \text{ si }s \in \mathcal{S}_d 
\end{array}
\right.
$$

Qui s'écrit sous forme matricielle:

$$ f(w) = \max_{\pi \text{ déterministe}}   R^\pi + \gamma P^\pi w $$

**Propriétés admises**:

* $f$ est une fonction contractante si $\gamma < 1$:
$$\|f(w_1) - f(w_2) \|_\infty \leq \gamma \|w_1 - w_2 \|_\infty $$
* la valeur optimale $v^*$ est l'unique **point fixe** de $f$;
* alors toute suite $(w_k)_k$ définie par $w_{k+1} = f(w_k)$ converge vers $v^*$ (algorithme d'itération de valeur);



### Résolution par programmation linéaire

---
Equation d'optimalité de Bellman:
$$v^*(s) = 
\left\{
\begin{array}{ll}
\sum_{s' \in \mathcal{S}}P_{ss'}(r_{ss'} + \gamma v^*(s')) & \text{ si }s \in \mathcal{S}_r\\
\displaystyle \max_{s' \in A(s)} (r_{ss'} + \gamma v^*(s')) & \text{ si }s \in \mathcal{S}_d 
\end{array}
\right.
$$

**Remarque**: le calcul de la fonction $\max(x,y)$ peut se faire par programmation linéaire:

$$
\begin{array}{l}
\min z\\
z \geq x\\
z \geq y
\end{array}
$$

La valeur optimale est alors la valeur du programme linéaire suivant:

$$
\begin{array}{ll}
\min \sum_{s \in \mathcal{S}} w(s)&\\
w(s) = \sum_{s' \in \mathcal{S}}P_{ss'}(r_{ss'} + \gamma w(s')) & \forall s \in \mathcal{S}_r\\
\displaystyle w(s) \geq r_{ss'} + \gamma w(s') & \forall s \in \mathcal{S}_d , \forall s' \in A(s)
\end{array}
$$


**Exercice**: Ecrire le programme linéaire pour l'exemple de la machine à café.

La preuve repose sur la propriété suivante: si $w \geq f(w)$ alors $w \geq v^*$.


### Propriété des valeurs

---

Si $w \geq f(w)$ alors $w \geq v^*$.




<div class="alert-info">
    
   preuve
</div>

Supposons $w \geq f(w)$, il suffit de montrer $w \geq v_\pi$ pour toute stratégie déterministe $\pi$. Soit $\bar{\pi}$ une telle stratégie.

On a 

$$v_\bar\pi = R^\bar\pi + \gamma P^\bar\pi v_\bar\pi$$

Alors

$$
\begin{array}{ll}
w & \geq \displaystyle \max_{\pi \text{ déterministe}}   R^\pi + \gamma P^\pi w \\
& \geq R^\bar\pi + \gamma P^\bar\pi w\\
& \geq R^\bar\pi + \gamma P^\bar\pi (R^\bar\pi + \gamma P^\bar\pi w)\\
& \geq R^\bar\pi + \gamma P^\bar\pi R^\bar\pi + \gamma^2 (P^\bar\pi)^2 R^\bar\pi + \dots + \gamma^n (P^\bar\pi)^n w\\
\end{array}
$$

La dernière quantité tend vers $v_\bar\pi$.

### Itération de stratégie

---


Soit $\pi$ une stratégie déterministe.
* on calcule $v_\pi$
* si $v_\pi = f(v_\pi)$ alors $v_\pi$ est la valeur optimale et $\pi$ est une stratégie optimale

* sinon calculer $\pi \leftarrow \text{ greedy}(v_\pi)$ et on recommence
    * une stratégie **greedy par rapport à $v_\pi$**  est une stratégie qui  maximise

$$ \max_{\bar \pi \text{ déterministe}}   R^{\bar \pi} + \gamma P^{\bar \pi} v_\pi $$

**Exercice**: tester sur l'exemple de la machine à café.


### Preuve de convergence de l'itération de stratégie

    
---

Soit $\pi'$ la stratégie obtenue après itération de la stratégie $\pi$ non optimale:

* alors $v_{\pi'} > v_\pi$ 
* le nombre de stratégies étant fini, cet algo termine sur une stratégie $\pi^*$ telle que $v_{\pi^*}$ satisfait l'équation d'optimalité.


<div class="alert-info">
Preuve de $v_{\pi'} > v_\pi$ 
</div>

On considère la suite de stratégies non stationnaires $(\pi_i)_{i \geq 0}$ où $\pi_i$ est la stratégie $\pi'$ jusqu'au temps $t=i-1$ puis la stratégie $\pi$.

* $\pi_0 = \pi$
* $\pi_\infty = \pi'$

et soit $v_i$ les valeurs associées.



On a:

$$v_{i+1} =  R^{\pi'} + \gamma P^{\pi'} v_i$$

### Preuve de convergence de l'itération de stratégie (suite)

    
---



Par construction, $v_1 = f(v_\pi)$, et:

$$
\begin{array}{ll}
f(v_\pi) & \displaystyle = \max_{\bar\pi \text{ déterministe}}   R^\bar\pi + \gamma P^\bar\pi v_\pi \\
& \geq R^{\pi} + \gamma P^{\pi} v_\pi\\
& = v_\pi \\
\end{array}
$$

L'inégalité est stricte car sinon $\pi$ serait optimal donc

$$v_1 > v_0 $$



On montre **par récurrence** $v_i > v_0$ pour tout $i \geq 1$:

* vrai pour $i=1$
* si vrai jusqu'à $i$, alors

$$
\begin{array}{ll}
v_{i+1} & \displaystyle = R^{\pi'} + \gamma P^{\pi'} v_i \\
& > R^{\pi'} + \gamma P^{\pi'} v_0\\
& = v_1 \\
& > v_0
\end{array}
$$
