# Apprentissage par renforcement

« L’apprentissage par renforcement (en anglais, reinforcement learning, ou RL) est la branche de l’apprentissage automatique qui consiste à apprendre comment un agent doit se comporter dans un environnement de manière à maximiser une récompense. Naturellement, l’apprentissage par renforcement profond restreint la méthode d’apprentissage à l’apprentissage profond. »

Eugene Charniak, *Introduction au Deep Learning*, p. 105 ([« Introduction au Deep Learning, Eugene Charniak, Editions Dunod »](https://www.dunod.com/sciences-techniques/introduction-au-deep-learning))

Dans le cadre de ce *notebook*, nous allons nous intéresser à un problème classique de l'apprentissage par renforcement : le *FrozenLake*.

## Le problème du *FrozenLake*

### Présetation du contexte

Le *FrozenLake* est un environnement de type *gridworld* où l'objectif est de trouver un chemin sûr à travers une surface gelée, en évitant les cases *Hole* (H) et en atteignant la case *Goal* (G).

L'environnement est représenté par une grille de 4x4 cases, où chaque case peut être soit :
- S (Start) : le point de départ ;
- F (Frozen) : une case sûre ;
- H (Hole) : une case dangereuse ;
- G (Goal) : la case d'arrivée (*i.e* la case à atteindre).

L'agent peut se déplacer dans les quatre directions (haut, bas, gauche, droite) et l'objectif est d'atteindre la case *Goal* en évitant les cases *Hole*. L'agent reçoit une récompense de 1 lorsqu'il atteint la case *Goal* et une récompense de 0 dans tous les autres cas.

La figure ci-dessous illustre un exemple de *FrozenLake* :

<p align="center">
  <img src="https://raw.githubusercontent.com/auduvignac/Deep-learning/refs/heads/main/Projet/figures/Reinforcement_learning/frozen_lake.png" alt="Frozen Lake"
  width="40%" height="40%"/>
</p>

### Idées intuitives

#### Valeur d'un état (*State Value* : $V(s)$)

Pour résoudre ce problème, l'agent doit apprendre à naviguer dans l'environnement en prenant des décisions qui maximisent la récompense totale. Pour ce faire, il doit apprendre une politique qui lui permet de choisir la meilleure action à prendre dans chaque état.

L'apprentissage par renforcement est basé sur le concept de *reward* (récompense) qui est une mesure de la qualité de l'action prise par l'agent. L'objectif de l'agent est de maximiser la récompense totale qu'il reçoit.

En vue de décrire le problème, posons les éléments suivants :
- s (*state*) : l'état actuel de l'agent ;
- a (*action*) : l'action prise par l'agent ;
- r (*reward*) la récompense reçue par l'agent ;
- s' (*next state*) l'état suivant de l'agent.

**L'objectif de l'agent est de maximiser la récompense totale qu'il reçoit en prenant des actions qui maximisent la récompense à chaque étape.**

Pour quantitifier la valeur d'un état à un instant donné, définissons la fonction de valeur d'état $V(s)$ **qui représente la récompense totale que l'agent peut s'attendre à recevoir à partir de l'état $s$**.

**Exemple concret :**

- L’état G (*Goal*) a $V(G) = 1$ car c’est l’objectif ;
- Un état très proche du but aura une valeur $V(s)$ élevée ;
- Un état près d’un trou (*Hole*) aura une $V(s)$ faible car le risque est élevé ;
- Un état éloigné du but aura une $V(s)$ proche de 0 car il est incertain d’atteindre l’objectif.

#### Fonction de valeur d'action (*Action Value* : $Q(s, a)$)

La fonction $Q(s, a)$ permet de quantitifier la valeur d'aller vers le haut, le bas, à droite ou à gauche depuis un état donné. En d'autres termes, **il s'agit de la récompense attendue à une état $s$ donné et que l’action a est choisie.**

#### Exemple concret

La calcul de $V$ et $Q$ nécessite de parcourir l'ensemble des états $s$ et de recalculer $V(s)$.

Le mode de programmation de ce jeu induit qu’une action, par exemple aller à gauche nous conduit avec une égale probabilité dans chacun des états adjacents, à l’exception de l’exact opposé (ici, aller à droite) : le terrain est donc très glissant. Si une action aboutissait à nous faire sortir du lac, elle nous laisserait au lieu de cela à l’emplacement de départ.

L'environnement du *Frozen Lake* est stochastique, c'est-à-dire que l'agent ne peut pas prédire exactement le prochain état. Par conséquent, il doit apprendre à partir de l'expérience en explorant l'environnement. En effet, **si l'agent décide d'aller à gauche, il est possible qu'il dévie avec une probabilité définie**, en l'occurrence $\frac{1}{3}$, puisqu'il y a trois directions possibles :

- Action réussie (vers la gauche) : état 0 avec une probabilité de $\frac{1}{3}$ ;
- Glissade vers une autre direction (vers le bas) : état 5 avec une probabilité de $\frac{1}{3}$ ;
- Bloqué par le bord du lac (rester sur place) : état 1 avec une probabilité de $\frac{1}{3}$.

La figure ci-dessous illustre les états possibles pour l'état 1 :

<p align="center">
  <img src="https://raw.githubusercontent.com/auduvignac/Deep-learning/refs/heads/main/Projet/figures/Reinforcement_learning/frozen_lake_exemple_state_1.png" alt="Frozen Lake"
  width="40%" height="40%"/>
</p>




il est nécessaire de calculer $Q(1, a)$ pour chacune des quatre actions puis d'affecter à $V(1)$ le maximum des quatre valeurs $Q$.



Nous allons donc calculer $Q(1, a)$ pour chacune des actions possibles :

1. Déplacement vers la gauche.
$$
\begin{align*}
Q(1, g) &= \frac{1}{3} \times (0 + 0.9 ∗ 0) + \frac{1}{3} ∗ (0 + 0.9 ∗ 0) + \frac{1}{3} ∗ (0 + 0.9 ∗ 0)
        &= 
\end{align*}
$$


## Annexes

## Annexe 1 : Génération des images d'illustration du *FrozenLake*

Le code ci-dessous permet de générer l'image qui met en évidence l'état 1 et ses transitions possibles lorsqu'on tente de se déplacer vers la gauche..

In [None]:
import matplotlib.pyplot as plt
import matplotlib.patches as patches
import requests
from PIL import Image
from io import BytesIO

# URL de l'image sur GitHub
image_url = "https://raw.githubusercontent.com/auduvignac/Deep-learning/refs/heads/main/Projet/figures/Reinforcement_learning/frozen_lake.png"

# Charger l'image depuis l'URL
response = requests.get(image_url)
img = Image.open(BytesIO(response.content))

# Définir la taille de la figure
fig, ax = plt.subplots(figsize=(6,6))

# Afficher l'image en arrière-plan
ax.imshow(img)

# Définir la grille (4x4) et les coordonnées des cases
grid_size = 4
cell_size = img.size[0] / grid_size  # Assumer une image carrée

# États concernés
state_0 = (0, 0)  # Ligne 0, colonne 0 (indexation à partir de 0)
state_1 = (0, 1)  # Ligne 0, colonne 1
state_2 = (0, 2)  # Ligne 0, colonne 0
state_5 = (1, 1)  # Ligne 1, colonne 1

# Ajouter des annotations pour les états accessibles
state_positions = {state_1: "État 1", state_0: "État 0", state_5: "État 5"}
for (row, col), label in state_positions.items():
    x, y = col * cell_size, row * cell_size
    ax.add_patch(patches.Rectangle((x, y), cell_size, cell_size, fill=False, edgecolor="yellow", linewidth=3))
    ax.text(x + cell_size / 2, y + cell_size / 2, label, fontsize=12, color="black", ha="center", va="center", bbox=dict(facecolor="white", alpha=0.7))

# Ajouter les probabilités de transition
arrow_params = dict(facecolor="blue", edgecolor="blue", arrowstyle="->", linewidth=2, alpha=0.8)

# De État 1 vers État 0 (probabilité 0.33)
ax.annotate("", xy=(state_0[1] * cell_size + cell_size / 2, state_0[0] * cell_size + cell_size / 2),
             xytext=(state_1[1] * cell_size + cell_size / 2, state_1[0] * cell_size + cell_size / 2),
             arrowprops=arrow_params)
ax.text((state_0[1] + state_1[1]) / 2 * cell_size, (state_0[0] + state_1[0]) / 2 * cell_size,
        "0.33", fontsize=12, color="blue", ha="center", bbox=dict(facecolor="white", alpha=0.7))

# De État 1 vers État 5 (probabilité 0.33)
ax.annotate("", xy=(state_5[1] * cell_size + cell_size / 2, state_5[0] * cell_size + cell_size / 2),
             xytext=(state_1[1] * cell_size + cell_size / 2, state_1[0] * cell_size + cell_size / 2),
             arrowprops=arrow_params)
ax.text((state_5[1] + state_1[1]) / 2 * cell_size, (state_5[0] + state_1[0]) / 2 * cell_size,
        "0.33", fontsize=12, color="blue", ha="center", bbox=dict(facecolor="white", alpha=0.7))

# De État 1 vers lui-même (bord bloqué) (probabilité 0.33)
ax.text(state_1[1] * cell_size + cell_size / 2, state_1[0] * cell_size - 10,
        "0.33 (reste sur place)", fontsize=12, color="blue", ha="center", bbox=dict(facecolor="white", alpha=0.7))

# De État 1 vers État 2 (probabilité 0.33)
ax.annotate("", xy=(state_2[1] * cell_size + cell_size / 2, state_2[0] * cell_size + cell_size / 2),
             xytext=(state_1[1] * cell_size + cell_size / 2, state_1[0] * cell_size + cell_size / 2),
             arrowprops=arrow_params)
ax.text((state_2[1] + state_1[1]) / 2 * cell_size, (state_5[0] + state_1[0]) / 2 * cell_size,
        "0.33", fontsize=12, color="blue", ha="center", bbox=dict(facecolor="white", alpha=0.7))

# Masquer les axes
ax.set_xticks([])
ax.set_yticks([])
ax.set_frame_on(False)

# Sauvegarder et afficher l'image annotée
plt.savefig("frozen_lake_annotated.png", dpi=300)
plt.show()