# Théorie algorithmique des jeux et apprentissage stochastique

## Cours d'introduction

## 1. Organisation du cours
---

* Espace du cours sur [Moodle](https://moodle.uvsq.fr/moodle2021/course/view.php?id=3956). Vérifiez votre accès à cet espace.
    * supports de cours
    * informations diverses
    * liens de visioconférence pour les TDs à distance
* [Emploi du temps](https://edt.uvsq.fr/cal?vt=month&dt=2020-10-01&et=module&fid0=MYAMI211%20-%20Th%C3%A9orie%20algorithmique%20des%20jeux%20et%20apprentissage%20par%20renforcement):
    * mercredi 8:00
    * créneaux de 1:20, attention aux changements d'horaires par rapport à 2019 - 2020
    * selon les semaines, 1 ou 2 créneaux, et en présence ou à distance. **Bien vérifier l'emploi du temps** à chaque fois.
    * cours du mercredi 28 octobre déplacé au jeudi 12 novembre (vrai aussi pour le cours de classification et réseau de neurones)
* Evaluation:
    * 50% examen
    * 50% lecture d'article avec développement d'un programme lié à l'article (en binôme)




**Cours à distance**

---
* Vous pouvez utiliser le chat pour parler du cours entre vous.
* Pour me poser une question: 
    * lever la main (fonctionnalité présente dans la fenêtre des participants) ce qui me permet d'être averti
    * posez votre question via chat ou micro selon ce qui paraît le plus adapté
    * le reste du temps, vos micros doivent être éteints
    


## 2. Quelques définitions
---

**Théorie des jeux**

Ensemble de théories mathématiques qui *modélisent* des situations où des agents (ou joueurs) sont en interaction et prennent des décisions. Chaque agent est supposé *rationnel* et souhaite optimiser son gain.

**Stratégie optimale**
* 1 joueur: solution d'un problème d'optimisation classique
* $>$ 1 joueur: solution de plusieurs problèmes d'optimisation imbriqués. Notion d'*équilibre* à définir. 

**Théorie algorithmique des jeux**

Algorithmes pour calculer ces équilibres, et questions liées à la complexité de ces calculs.


**Apprentissage par renforcement**

Algorithmes de calcul de stratégie qui s'appliquent dans un modèle donné où les joueurs optimisent leur gain au cours du temps ([vidéo d'un jeu à 2 joueurs](https://www.youtube.com/channel/UCbfYPyITQ-7l4upoX8nvctg)). Dans ce cours, nous verrons le cadre à 1 joueur (optimisation), et vous verrez la suite au semestre 2 (cours "Intelligence Artificielle et Jeux").




**Exemples de jeux (1): Morpion**

---
![test](images/morpion.png)


* 2 joueurs
* jeu séquentiel (chacun joue à tour de rôle)
* information complète
* 9 coups possibles au plus (**horizon fini**)
* petite taille: arbre de tous les coups possibles réalisable
* un vainqueur et un perdant (ou match nul pour les deux): jeu à *somme nulle*

**Exemples de jeux (2): Gomoku**

---
Pareil que le morpion mais il faut aligner 5 pions sur un plateau $19\times19$
![test](images/gomoku.png)

Mêmes caractéristiques que le morpion excepté que l'on ne peut pas dessiner l'arbre de tous les coups possibles.

**Exemples de jeux (3): jeu d'échec, jeu de dames**

---
![](images/echec.jpeg)

Mêmes caractéristiques que Gomoku.

Classe des jeux combinatoires (partisans ou impartiaux).

**Exemples de jeux (4): jeu de l'oie**

---
![test](images/oie.jpeg)

* hasard complet
* pas de stratégie, on peut anticiper ce qui va se passer en moyenne


**Exemples de jeux (5): pierre feuille ciseau**

---
![test](images/pfc.jpeg)

* "petit" jeu
* 2 joueurs *en simultané*
* utilisation de stratégies aléatoires

**Exemples de jeux (6): jeux de carte type tarot, belote, etc...**

---
![test](images/tarot.jpeg)

* joueurs en équipe (ou coalition)
* information cachée (ou imparfaite)

**Exemples de jeux (7): jeu de congestion**

---
![test](images/bouchon.jpeg)

Chaque "joueur" choisit un itinéraire.

* ce n'est pas un jeu à somme nulle
* objectifs des joueurs inconnus des autres (information incomplète)
* chaque joueur a une influence négligeable sur la congestion

**Pourquoi s'intéresse-t'on aux jeux?**

---

* modélisation naturelle de systèmes
    * écologiques
    * économiques
* extension du cadre de la recherche opérationnelle (optimisation) aux systèmes multi-agents
* cadre simple pour tester des intelligence artificielles

In [None]:
from random import *

g = 0

for i in range(1, 20):
    r = randint(0, 2)
    if r == 0:
        g += 15
    elif r == 1:
        g += 10
    else:
        g += 5
    r = randint(0, 1)
    if r == 0:
        g += 18
    else:
        g += 2

    print(g, i, g / i)

            


In [None]:

def td_0(v, a):
    r = randint(0, 2)
    if r == 0:
        g = 15
    elif r == 1:
        g = 10
    else:
        g = 5
    x = v[0] + a * (g + v[1] - v[0])
    
    r = randint(0, 1)
    if r == 0:
        g = 18
    else:
        g = 2
    y = v[1] + a*(g + 0 - v[1])
    return x, y
    
v = (0, 0)

for i in range(1, 1000):
    v = td_0(v, 0.05)
    print(i, v)
    
    
    

In [5]:
def f(v):
    w = list(v)
    w[0] = v[1] / 2 + v[2] / 2
    w[1] = v[0] / 2
    w[2] = v[0] / 3 + v[3] / 3
    w[3] = v[2] / 2 + 0.5
    return w

v = [0]*4
for i in range(1,20):
    v = f(v)
    print("étape", i, v)

    
print("cible", 2/11, 1/11, 3/11, 7/11)


étape 1 [0.0, 0.0, 0.0, 0.5]
étape 2 [0.0, 0.0, 0.16666666666666666, 0.5]
étape 3 [0.08333333333333333, 0.0, 0.16666666666666666, 0.5833333333333334]
étape 4 [0.08333333333333333, 0.041666666666666664, 0.2222222222222222, 0.5833333333333334]
étape 5 [0.13194444444444445, 0.041666666666666664, 0.2222222222222222, 0.6111111111111112]
étape 6 [0.13194444444444445, 0.06597222222222222, 0.2476851851851852, 0.6111111111111112]
étape 7 [0.15682870370370372, 0.06597222222222222, 0.2476851851851852, 0.6238425925925926]
étape 8 [0.15682870370370372, 0.07841435185185186, 0.26022376543209874, 0.6238425925925926]
étape 9 [0.1693190586419753, 0.07841435185185186, 0.26022376543209874, 0.6301118827160493]
étape 10 [0.1693190586419753, 0.08465952932098765, 0.26647698045267487, 0.6301118827160493]
étape 11 [0.17556825488683125, 0.08465952932098765, 0.26647698045267487, 0.6332384902263375]
étape 12 [0.17556825488683125, 0.08778412744341563, 0.26960224837105623, 0.6332384902263375]
étape 13 [0.17869318790