# Introduction à l'apprentissage par renforcement
# TP 1 - les manchots multi-bras

Etudiant·e : AJOUTER VOTRE NOM ICI

1/4 de la note finale est liée à la mise en forme : 

* pensez à nettoyer les outputs inutiles (installation, messages de débuggage, ...)
* soignez vos figures : les axes sont-ils faciles à comprendre ? L'échelle est adaptée ? 
* commentez vos résultats : vous attendiez-vous à les avoir ? Est-ce étonnant ? Faites le lien avec la théorie.

Ce TP reprend l'exemple d'un médecin et de ses vaccins. Vous allez comparer plusieurs stratégies et trouver celle optimale.
Un TP se fait en groupe de 2 à 4. Aucun groupe de plus de 4 personnes. 

Vous allez rendre le TP dans une archive ZIP. L'archive ZIP contient ce notebook au format `ipynb`, mais aussi exporté en PDF & HTML. 
L'archive ZIP doit aussi contenir un fichier txt appelé `groupe.txt` sous le format:

```
Nom1, Prenom1, Email1, NumEtudiant1
Nom2, Prenom2, Email2, NumEtudiant2
Nom3, Prenom3, Email3, NumEtudiant3
Nom4, Prenom4, Email4, NumEtudiant4
```

Un script vient extraire vos réponses : ne changez pas l'ordre des cellules et soyez sûrs que les graphes sont bien présents dans la version notebook soumise. 

In [None]:
! pip install matplotlib tqdm numpy ipympl opencv-python
!jupyter labextension install @jupyter-widgets/jupyterlab-manager
!jupyter labextension install jupyter-matplotlib

In [2]:
%load_ext autoreload
%autoreload 2
%matplotlib inline 

import math
import torch
import numpy as np
from tqdm.auto import trange, tqdm
import matplotlib.pyplot as plt
from matplotlib.animation import FuncAnimation
import matplotlib.animation as animation
from matplotlib.backends.backend_agg import FigureCanvasAgg as FigureCanvas
import cv2
from IPython.display import display, clear_output

torch.random.manual_seed(1)

K = 5 # num arms

# Définition des vaccins

In [None]:
class ArmBernoulli:
    def __init__(self, p: float):
        """
        Vaccine treatment following a Bernoulli law
        Args:
             p (float): mean parameter
             random_state (int): seed to make experiments reproducible
        """
        self.mean = p
        self.variance = p * (1. - p)

    def sample(self):
        return torch.rand(1) < self.mean
    
    def __repr__(self):
        return f'<ArmBernoulli p={self.mean}' 

def generate_arms(num_arms: int):
    means = torch.rand(K)
    MAB = [ArmBernoulli(m) for m in means]
    assert(MAB[0].mean == means[0])
    return MAB

MAB = generate_arms(K)

# I. Cas classique des bandits manchots 

## I.a. Solution Gloutonne

Le médecin fonctionne sur deux phases :

1. Pendant l'exploration, N patients reçoivent une dose d'un vaccin choisi aléatoirement.
2. Pendant l'exploitation, le vaccin procurant le meilleur taux d'immunisation est choisi pour les M patients suivants.

**1. Implémentez l'algorithme du médecin avec N = 50 et M = 500. Trouvez-vous le meilleur vaccin ? Quel regret obtenez sur l'ensemble des patients ? Faites le test pour 10 valeurs moyennes de MAB**

**2. Tracez le regret et la récompense de votre algorithme pour différentes valeurs de N allant de 5 à 400**

## I.b. Borne inférieure de Lai & Robbins [Lai et Robbins, 1985]

Pour un modèle de manchot de Bernoulli (équivalent au problème étudié), la borne inférieure de Lai et Robbins [Lai et Robbins, 1985] stipule que :

$$\lim \inf_{T\rightarrow \infty} \frac{R_T}{\log T} \geq \sum_{a:\mu_a \lt \mu^*} \frac{\mu^∗−\mu_a}{kl(\mu_a, \mu^*)}  :=C(\mu)$$
 
 avec $kl(x, y) = x \log(x/y) + (1 − x) \log((1 − x)/(1 − y))$ et  $R_T$ la récompense obtenue sur $T$ patients. En autres termes, cela signifie que la machine optimale est jouée exponentiellement plus souvent que les autres machines

**3. Tracez cette borne au-dessus du graphique précédent**

## I.c. Upper Confidence Bounds

**4. Implémentez l'algorithme décrit en cours. Visualisez l'évolution de l'index de chaque machine à l'aide de Matplotlib.**

**5. Ajoutez un coefficient de votre choix devant le biais pour équilibrer exploration et exploitation et réduire le regret. Représentez sur un même graphique les performances d'UCB avec l'algorithme glouton et la borne inférieure**

# Echantillonnage de Thomson

**6. Implémentez l'algorithme. Visualisez chaque étape avec un [graphique en violon](https://en.wikipedia.org/wiki/Violin_plot)**

**7. Comparez son regret avec les graphiques précédents**

# Conclusion

**8. Comparez ce qu'il se passe avec un grand nombre de vaccins disponibles (K=100). Faites le lien avec la [malédiction de la dimension](https://fr.wikipedia.org/wiki/Fl%C3%A9au_de_la_dimension).**

# BONUS

Maintenant, on suppose que l'on peut proposer au patient un mélange des vaccins, c'est-à-dire que l'action choisie est donc une combinaison linéaire des vaccins.

**9. Implémenter l'algorithme Lin UCB tel que décrit dans ce document.**

https://www.yoanrussac.com/en/talk/talk1-ens/intro_linear_bandits.pdf