![](https://uploads-ssl.webflow.com/62233c592d2a1e009d42f46c/6414802c0a2bea367cbc795b_logo-jedha-square.svg)

# Comprendre l'apprentissage par renforcement 🧠🧠

L'apprentissage par renforcement est une sous-section de l'apprentissage automatique qui se concentre sur l'apprentissage par l'expérience plutôt que sur l'apprentissage à partir d'un ensemble de données précédemment donné. Il se ramifie en de nombreux types de problèmes différents pour lesquels l'apprenant (souvent appelé agent) n'est pas explicitement informé de ce qu'il doit faire, mais découvre quelles actions rapportent le plus de récompense en réaction à l'environnement dans lequel il évolue. Pour imaginer une idée générale, pensez à vous-même apprendre à jouer à un jeu vidéo par essais et erreurs.

Avant de commencer, introduisons le vocabulaire suivant qui sera utilisé tout au long de la conférence :

- **environnement** : une situation qui produit des observations composées de :
    - **état** : une mesure de ce qui se passe dans l'environnement (position sur une carte, température d'un moteur, position d'un jeu d'échecs etc...)
    - **récompense** : une métrique instantanée donnée pour atteindre un état spécifique
    - **statut** : dans les situations où l'expérience peut se terminer (jeu d'arcade), donne le statut de fin
- **agent** : l'apprenant en interaction avec l'environnement
- **politique** : l'ensemble des règles qui déterminent les actions que l'agent entreprendra compte tenu d'un certain état de l'environnement

Gardez-les à l'esprit au fur et à mesure que nous avançons dans le cours.

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span><strong>Qu'allez-vous apprendre dans ce cours ? 🧐🧐 </strong></span></h2>

Le cours couvrira différents ensembles de problèmes et de solutions en passant progressivement du plus simple au plus général.


- Introduction générale
- Bandit manchot : environnement à un seul état
- Processus de décision de Markov finis : environnement à états multiples
- Programmation dynamique : Parfaite connaissance de l'environnement
- Méthodes de Monte Carlo : apprendre de l'expérience
- Apprentissage par Différence Temporelle : Apprentissage par l'expérience à partir d'estimations
- Résumé


<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span><strong>General Introduction 🧸 </strong></span></h2>

L'idée d'apprendre en interagissant avec l'environnement afin d'atteindre un objectif spécifique est une façon très intuitive pour nous de penser à l'apprentissage. Lorsque les enfants regardent autour d'eux, commencent à bouger leurs bras et leurs jambes, essaient de se déplacer dans leur environnement, ils n'ont pas d'enseignant explicite, mais ils ont une perception de l'environnement qui les entoure, et ils peuvent également éprouver du plaisir et de la douleur comme des conséquences de leurs actions

L'apprentissage par renforcement est basé sur ce principe qu'un apprenant (un ensemble spécifique de règles pour décider quelle action choisir lorsqu'il est confronté à une certaine situation/état de l'environnement) doit optimiser une certaine quantité qui mesure le niveau de satisfaction qui découle de la prise de ces différentes actions.

Ces dernières années, les progrès réalisés dans la construction de matériel avec plus de puissance de calcul ont permis de porter l'apprentissage par renforcement à un tout autre niveau grâce à l'apprentissage par renforcement profond. Pour ne citer qu'un exemple remarquable, l'algorithme alpha go de DeepMind est désormais capable de surpasser les meilleurs champions humains au jeu de go, ce qui était auparavant considéré comme impossible en raison de la nature ouverte du jeu et du nombre énorme de configurations possibles. .

Voici divers exemples de situations qui pourraient être traitées par l'apprentissage par renforcement :

- Un **joueur humain** au casino essaie de maximiser son gain en jouant aux machines à sous
- Une **vache nouveau-née** a du mal à se lever, quelques minutes plus tard elle court dans le champ
- Vous êtes sur le point de **cuisiner un repas à la maison**. Même cette entreprise apparemment insignifiante se révèle être une série complexe de décisions impliquant les ingrédients et les outils disponibles dans votre cuisine, examinant votre niveau de motivation et votre faim. Marcher jusqu'au réfrigérateur, l'ouvrir, choisir des ingrédients, les atteindre et les saisir, couper, allumer la cuisinière, ramasser une poêle à frire...
- Un **robot d'exploration** sur le sol de Mars qui doit choisir entre explorer plus de terrain, prendre des photos ou retourner à la base pour se recharger.

Ces situations impliquent divers aspects essentiels des problèmes d'apprentissage par renforcement tels que :

- Observabilité de l'environnement
- Incertitude sur le retour positif ou négatif de certaines actions
- Interaction entre un agent décisionnel et son environnement

Au cours de ce premier cours, nous nous concentrerons sur la présentation du contexte théorique dont vous aurez besoin pour comprendre l'apprentissage par renforcement, avant de passer à la mise en œuvre.

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span><strong>Bandit machot : environnement à un seul état 🪙
 </strong></span></h2>

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong>Problème stationnaire </strong></span></h3>

L'aspect le plus important de l'apprentissage par renforcement qui le distingue des autres formes d'apprentissage automatique est qu'il utilise des informations d'entrainement qui évaluent les actions entreprises, plutôt que d'instruire les actions correctes. C'est pourquoi nous avons besoin de la recherche par essai-erreur pour un plan d'action optimal.

Pour ce premier exemple, nous définissons une situation où l'environnement contient un seul état (on parle de cadre *non associatif*), et à chaque pas de temps nous avons un ensemble de $n$ actions qui s'offrent à nous avec une certaine récompense.

Le **problème du bandit manchot** (appelé par analogie avec le jeu de machines à sous), correspond à une situation où vous avez $n$ options d'actions à entreprendre, après chaque action, vous recevez une récompense tirée d'une distribution de probabilité stationnaire (ce qui signifie que la distribution ne change pas dans le temps) qui dépend de l'action sélectionnée. Votre objectif est de **maximiser le montant total de récompense** que vous obtenez après avoir joué 1000 fois par exemple.

Chaque action a une récompense attendue (la vraie moyenne de la distribution de probabilité inconnue sous-jacente) que nous appellerons **la valeur** de cette action. Nous ne connaissons pas les valeurs des n actions différentes, cependant nous pouvons calculer des estimations.




<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong>Actions gloutonnes </strong></span></h3>

A chaque pas de temps, on peut choisir l'action pour laquelle on a la valeur estimée la plus élevée, c'est ce qu'on appelle l' **action gloutonne** . Choisir une action gourmande s'appelle **exploiter** , car vous exploitez les connaissances actuelles que vous avez du problème pour éclairer vos décisions. Si, à la place, vous choisissez une autre action, vous **explorez** , ce qui vous permet d'obtenir de meilleures estimations des valeurs associées aux actions.

Le compromis entre **l'exploitation et l'exploration** est le suivant : l'exploitation vous amène à maximiser la récompense que vous pouvez obtenir immédiatement, tandis que l'exploration peut découvrir de meilleures actions qui rapporteraient plus de récompenses à long terme.

Concrètement si vous avez deux machines à sous différentes $A$, et $B$. $A$ a une distribution de récompense uniforme sur l'intervalle $[1,2]$, et $B$ a une distribution de récompense uniforme sur l'intervalle $[0,10]$. Vous pouvez commencer par établir deux estimations pour les valeurs de jouer $A$ et $B$ égal à zéro. Disons qu'on commence par jouer $A$ and $B$ une fois chacun, on obtient $1.5$ en jouant $A$, et $0.2$ en jouant $B$. Cela nous amène à la conclusion que l'action gloutonne  est de jouer $A$, ce qui semble mieux à court terme. Jouer $A$ de manière répétée nous conduira à avoir des estimations de plus en plus précises de la valeur de jouer $A$ lequel est $1.5$. Cependant, nous n'obtenons pas la meilleure récompense possible à long terme car la valeur de $B$ est $5$, ce qui signifie que nous aurions dû jouer $B$ tout le long. Si nous avions exploré de temps en temps au lieu d'exploiter tout le temps, nous aurions réalisé que la valeur de $B$ était en fait supérieur à celui de $A$, ce qui aurait produit des récompenses plus élevés à long terme.

Nous explorerons quelques solutions simples pour équilibrer l'exploration et l'exploitation.



<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong>Valeurs d'actions </strong></span></h3>

Nous définissons l' estimation de la valeur d'action de l'action $a \in \mathcal{A}$ where $\mathcal{A}$ est l'ensemble de toutes les actions possibles:

$$
Q_t(a)=\frac{R_1 + R_2 + \dots + R_{N_t(a)}}{N_t(a)}
$$

Où $R_i$ est la récompense reçue au $i^{ème}$ timestep lorsque nous réalisons l'action $a$, et $N_t(a)$ est le nombre total de fois que nous avons sélectionné une action $a$.

Ce n'est rien de plus que d'estimer que la valeur de l'action $a$ est la récompense moyenne obtenue en choisissant une action $a$. Assez simple, n'est-ce pas ?

Nous pouvons commencer par établir une valeur initiale pour $Q_0(a)$ comme $0$ quand $N_t(a)=0$, et as $N_t(a) \rightarrow \infty$ alors $Q_t(a) \rightarrow q(a)$ a vraie valeur d'action de l'actionun $a$ grâce à la loi des grands nombres. C'est ce qu'on appelle la méthode *sample-average*.

La règle de sélection d'action la plus simple consiste à toujours choisir l'une des actions gloutonne, qui vérifie :


$$
Q(A_t^*)=\max_a Q_t(a)
$$

$$
A_t^* = \argmax_a Q_t(a)
$$



<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> $\epsilon-greedy$ </strong></span></h3>

Afin d'équilibrer l'exploitation et l'exploration, nous pouvons choisir ce que nous appelons politique $\epsilon-greedy$  qui donnent une probabilité de $1-\epsilon$ pour sélectionner des actions gloutonnes et une faible probabilité $\epsilon$ pour sélectionner l'une des autres actions disponibles comme aléatoire. L'avantage de telles méthodes est que $N_t(a) \rightarrow \infty$ pour toutes les actions $a\in A$, ce qui garantit que l'estimation de toutes les valeurs d'action deviendra arbitrairement précise avec suffisamment d'essais.


La figure suivante montre l'évolution des récompenses et la proportion d'actions optimales prises au fil du temps en utilisant différentes stratégies de sélection d'action.

![multi-arm-bandit-decision](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/multi-arm-bandit.png)

La mise en œuvre de l'évaluation des estimations de la valeur d'une action peut se faire de manière incrémentale, cette règle de mise à jour est un paradigme très courant dans l'apprentissage par renforcement qui peut s'écrire de manière très générale comme :

$$
NewEstimate \leftarrow OldEstimate + StepSize [Target - OldEstimate]
$$

Ce qui devrait vous rappeler un peu la logique descente/montée du gradient. Dans le cas de notre méthode de moyenne d'échantillon de bandit manchot :


$$
\begin{align*}
Q_{k+1} & = \frac{1}{k} \sum_{i=1}{k}{R_i} \\
& = \frac{1}{k} ( R_k + \sum_{i=1}{k-1}{R_i} ) \\
& = \frac{1}{k} ( R_k + (k-1)Q_k + Q_k - Q_k ) \\
& = \frac{1}{k} ( R_k + kQ_k - Q_k ) \\
& = Q_k + \frac{1}{k} (R_k - Q_k)
\end{align*}
$$

Où $k$ représente le $k^{ème}$ timestep où nous avons choisi l'action a. Notez que la taille de pas que nous utilisons ici pour incrémenter la valeur de l'estimation varie dans le temps. Dans les notations plus générales du problème d'apprentissage par renforcement, nous désignerons généralement la taille du pas par $\alpha$, ou $\alpha_t$ si la taille du pas dépend du temps.


<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Problème non stationnaire
 </strong></span></h3>

Et si la vraie valeur des actions variait dans le temps ? Alors, l'approche précédente de moyenne d'échantillon ne fonctionnerait pas car le poids des nouvelles valeurs de la récompense diminuerait avec le temps, donnant l'inertie de l'estimation qui n'est pas adaptée à un problème non stationnaire.

Une approche courante pour les problèmes non stationnaires consiste à configurer la règle de mise à jour suivante :

$$
Q_{k+1}=Q_k + \alpha [R_k - Q_k]
$$

Avec une constante $\alpha \in ]0,1]$

$$
\begin{align*}
Q_{k+1}& = Q_k + \alpha [R_k - Q_k] \\
& = \alpha R_k + (1-\alpha) Q_k \\
& = \alpha R_k + (1-\alpha) [\alpha R_{k-1} + (1-\alpha) Q_{k-1}] \\
& = \alpha R_k + (1-\alpha)\alpha R_{k-1} + (1-\alpha)^2 Q_{k-1} \\
& = \alpha R_k + (1-\alpha)\alpha R_{k-1} + (1-\alpha)^2 \alpha R_{k-2} + \dots + (1-\alpha)^{k-1}\alpha R_1 + (1-\alpha)^{k}Q_1 \\
& = (1-\alpha)^{k}Q_1 + \alpha \sum_{i=1}^{k}{(1-\alpha)^{k-i}R_i}
\end{align*}
$$

Il s'agit d'une moyenne pondérée des récompenses au fil du temps, où les récompenses passées reçoivent une importance décroissante de manière exponentielle au fil du temps.



<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Perspective sur l'exemple non associatif (bandits manchots contextuels)
 </strong></span></h3>

Le problème classique du bandit manchot est non associatif, c'est-à-dire que l'environnement auquel vous êtes confronté a un seul état (même si les valeurs des différentes actions peuvent changer). Cet exemple ne cadre pas nécessairement bien avec le problème général d'apprentissage par renforcement pour lequel l'environnement fournit différents états.

Vous pourriez imaginer une situation où vous avez deux problèmes différents de bandit multi-bras, et à chaque fois que vous passez de l'un à l'autre vous obtenez un signal, par exemple vert pour l'un et rouge pour l'autre, cette perception de l'environnement s'appelle l' **état** , noté généralements $s\in \mathcal{S}$, où $\mathcal{S}$ est l'ensemble des états possibles.

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span><strong>Processus de décision de Markov finis : environnement à états multiples ⛓️
 </strong></span></h2>

Maintenant que vous comprenez certains des enjeux du problème d'apprentissage par renforcement, essayons de définir un cadre plus général pour formaliser le problème d'un **agent** interagissant avec un **environnement** pour atteindre un **but** .

La figure suivante donne une illustration simple de la façon dont nous pouvons visualiser une telle situation :

![environment-agent](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/environment_agent_interface.png)

A chaque pas de temps, l'agent reçoit un signal de l'environnement sous la forme d'un état $S_t \in \mathcal{S}$ avec une récompense $R_t$, puis choisit une action $A_t \in \mathcal{A}(S_t)$ ce qui donne un nouvel état $S_{t+1}$ et une nouvelle récompense $R_{t+1} \in \mathcal{R} \subset \mathbb{R}$. 

A chaque pas de temps, l'agent implémente un mapping de l'état à la probabilité de sélectionner chaque action possible, ce mappage est appelé une **politique** et est noté\pi_t $\pi_t$, où $\pi_t(a|s)$ iest la probabilité de choisir une action $A_t=a$ connaissant $S_t=s$.

Les méthodes d'apprentissage par renforcement décrivent comment l'agent met à jour sa politique afin de maximiser ses récompenses sur le long terme.

Cette représentation peut être utilisée pour représenter un grand nombre de situations d'apprentissage différentes. Attention cependant que la frontière entre l'agent et l'environnement n'est pas nécessairement dessinée comme la limite du "corps physique" de l'agent, en pratique l'agent encapsule tout ce qui peut être arbitrairement influencé par l'agent, tout ce sur quoi l'agent n'a pas un contrôle absolu et complet est l'environnement. Cette limite n'a rien à voir avec la quantité de connaissances que l'agent possède sur l'environnement, par exemple même si vous savez exactement comment fonctionne un jeu de Rubik's cube, vous ne pourrez peut-être toujours pas le résoudre.

Dans ce qui suit, nous définissons la récompense cumulée $G_t$ comme la somme escomptée des récompenses à partir du pas de temps $t$ :

$$
G_t = \sum_{k=0}^{T-t-1}{\gamma^{k}R_{t+k+1}}
$$

Y compris le cas où $T=\infty$ pour les **tâches continues** et éventuellement $\gamma=1$ pour certains cas de **tâches épisodiques** .

- **Tâches épisodiques** : Tâches qui peuvent se terminer et être répétées à partir de zéro, comme un jeu d'arcade.
- **Tâches continues** : Suivi des réglages d'un moteur pour une machine de fabrication qui ne s'arrête pas.

En pratique, des parallèles étroits peuvent être établis entre les tâches continues et épisodiques, nous utiliserons donc les mêmes notations pour les deux types de problèmes.


<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> La propriété de Markov
 </strong></span></h3>

Dans le cadre de l'apprentissage par renforcement, l'agent fonde sa décision sur l'état fourni par l'environnement, qui est l'ensemble des informations auxquelles l'agent peut accéder à un pas de temps donné. La propriété de Markov indique que le signal d'état actuel contient toutes les informations pertinentes dont l'agent a besoin pour décider de l'action à entreprendre, quels que soient les états antérieurs que l'agent a connus dans le passé.

Formellement parlant, la propriété de Markov peut s'écrire comme suit :

$$
\mathbb{P}(R_{t+1}=r, S_{t+1}=s'|S_0,A_0,R_1,\dots,R_{t-1},S_{t-1},A_{t-1},S_t,A_t) = \mathbb{P}(R_{t+1}=r, S_{t+1}=s'|S_t,A_t)
$$

Si un environnement a la propriété de Markov, la récompense attendue et l'état suivant sont entièrement donnés par l'état actuel et l'action actuelle.


<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Processus de décision de Markov
</strong></span></h3>

Toute tâche d'apprentissage par renforcement qui a la propriété de Markov est un processus de décision de Markov ou MDP. Un processus de décision de Markov fini est un processus de décision de Markov avec un état et un espace d'action finis.

Étant donné n'importe quel état et action $s$ and $a$ dans l'ensemble d'état\mathcal $\mathcal{S}$ et ensemble d'actions $\mathcal{A}(s)$, la probabilité de chaque paire suivante d'état et de récompense $s'$ and $r$ is:

$$
p(s',r|s,a)=\mathbb{P}(S_{t+1}=s',R_{t+1}=r|S_t=s,A_t=a)
$$

Ces quantités définissent complètement la dynamique d'un MDP fini.

On peut alors définir la récompense cumulée espérée :


$$
r(s,a) = \mathbb{E}(R_{t+1}|S_t=s,A_t=a)=\sum_{r\in \mathcal{R}}{r}\sum_{s'\in \mathcal{S}}{p(s',r|s,a)}
$$

La probabilité de transition d'état :


$$
p(s'|s,a) = \mathbb{P}(S_{t+1}|S_t=s,A_t=a)=\sum_{r\in \mathcal{R}}{p(s',r|s,a)}
$$


<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Fonctions de valeur
</strong></span></h3>

Dans l'apprentissage par renforcement, nous essayons souvent d'évaluer des **fonctions état-valeur** , qui estiment à quel point il est bon pour l'agent d'être dans un état donné, ou des fonctions **état-action valeur** qui estiment à quel point il est bon d'effectuer une action donnée tout en étant dans un état donné. Évidemment, les récompenses futures auxquelles un agent peut s'attendre dépendent des différentes actions qu'il va choisir, donc les fonctions d'état-valeur et les fonctions d'état-valeur d'action sont définies par rapport à une politique donnée \$\pi$ qui mappe la propriété de chaque action en fonction d'un certain état.

Formellement, nous définissons la fonction état-valeur par rapport à la politique $\pi$ à partir d'un état $s$ comme $v_{\pi}(s)$:

$$
v_{\pi}(s) = \mathbb{E}_{\pi}(G_t|S_t=s) = \mathbb{E}(\sum_{k=0}^{T-t-1}{\gamma^k R_{t+k+1}} | S_t=s)
$$

où $\mathbb{E}_{\pi()}$ est la valeur attendue d'une variable aléatoire étant donné que l'agent suit la politique $\pi$.

De même, nous définissons la fonction action-valeur pour la politique $\pi$, $q_{\pi}(s,a)$ de choisir l'action $a$ dans létat $s$:

$$
q_{\pi}(s,a)=\mathbb{E}_{\pi}(G_t | S_t=s, A_t=a) = \mathbb{E}(\sum_{k=0}^{T-t-1}{\gamma^k R_{t+k+1}} | S_t=s, A_t=a)
$$

En pratique, nous pouvons estimer les deux fonctions de valeur à partir de l'expérience en enregistrant les récompenses cumulées moyens obtenus après avoir été dans chaque état et pris toutes les mesures possibles (puisque la moyenne obtenue à partir de l'expérience pour une variable aléatoire converge vers sa valeur attendue compte tenu d'un nombre suffisant d'essais) ces méthodes de simulation sont appelées **méthodes de Monte Carlo** .

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Équation de Bellman
</strong></span></h3>

L'équation de Bellman, fondamentale pour l'apprentissage par renforcement, donne l'expression de la fonction valeur  $v_{\pi}$ en fonction de ses états futurs possibles. Il est au cœur du calcul, de l'approximation et de l'apprentissage de $v_\pi$

$$
\begin{align*}
v_{\pi}(s)& = \mathbb{E}_{\pi}(G_t|S_t=s)\\
& = \mathbb{E}_{\pi}(\sum_{k=0}^{T-t-1}{\gamma^k R_{t+k+1}} | S_t=s)\\
& = \mathbb{E}_{\pi}(R_{k+1} + \gamma\sum_{k=0}^{T-t-1}{\gamma^k R_{t+k+2}} | S_t=s) \\
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s'\in\mathcal{S},r\in\mathcal{R}}{{p(s',r|s,a)}}[r + \gamma\mathbb{E}_{\pi}(\sum_{k=0}^{T-t-1}{\gamma^k R_{t+k+2}} | S_{t+1}=s')]\\
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s'\in\mathcal{S},r\in\mathcal{R}}{p(s',r|s,a)}[r + \gamma v_{\pi}(s')]
\end{align*}
$$

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Fonction de valeur optimale
</strong></span></h3>

En pratique, nous souhaitons trouver la fonction de valeur optimale, ce qui signifie en réalité trouver l'une des politiques de choix des actions dans un état donné qui maximise la récompense cumulée attendue à partir d'un état de départ donné. On définit la fonction **état-valeur optimale** $v_*$ as:

$$
v_*(s)=\max_{\pi}{v_{\pi}(s)} \; \forall s \in \mathcal{S}
$$

La politique optimale vous donne également la **fonction de valeur état-action** optimale * $q_*$ comme étant:

$$
q_*(s,a) = \max_{\pi}{q_{\pi}(s,a)} \; \forall s \in \mathcal{S}, \forall a in \mathcal{A}(s)
$$

Ainsi, nous pouvons écrire la fonction de valeur état-action optimale en termes de valeur attendue de prendre $a$ et suivant la politique optimale par la suite:

$$
q_*(s,a) = \mathbb{E}(R_{t+1} + \gamma v_*(S_{t+1})|S_{t}=s, A_t = a)
$$



<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Approximation
</strong></span></h3>

Bien que dans la plupart des cas, lorsque l'espace d'états et l'espace d'action sont finis, il est possible de **trouver exactement la solution à partir de l'équation de Bellman** et de trouver la **politique optimale** et les fonctions de valeur. Cependant, en pratique, la solution analytique peut être très difficile à calculer exactement à cause des contraintes de puissance de calcul. Un jeu comme les échecs représente un très petit sous-ensemble de la complexité de l'expérience humaine, et bien que nous ayons une connaissance complète du fonctionnement de l'environnement (les règles du jeu), le nombre d'états et de mouvements possibles nécessiterait trop de puissance de calcul pour le ordinateur pour en déduire la politique optimale.

Notre cadrage du problème d'apprentissage par renforcement nous oblige à nous contenter de l'approximation, mais nous avons de grandes opportunités pour faire des approximations utiles de la politique optimale ! Et c'est exactement là que toute la datascience que nous avons apprise jusqu'à présent entre en jeu !


<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Exemple : robot de recyclage
</strong></span></h3>

Imaginez un robot dont le but est de ramasser des canettes vides dans un environnement de bureau. Le processus de décision concernant la recherche de canettes vides dans le bureau est contrôlé par un agent d'apprentissage par renforcement. L'état indique le niveau de la batterie du robot qui peut être faible ou élevé. Nous définissons l'espace d'action du robot comme étant :

$$
\begin{align*}
\mathcal{A}(low)&=\{search,wait,recharge\}\\
\mathcal{A}(high)&=\{search,wait\}
\end{align*}
$$

Les différentes probabilités de transition d'état et les récompenses de transition d'état sont données par le tableau suivant :


![robottable](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/rcycling-robot-table.png)

Nous pouvons également tracer un diagramme pour les probabilités de transition d'état et les récompenses, représentant ainsi le problème du robot de recyclage comme un processus de décision de markov fini :

![robotschema](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/recycling-robot-schema.png)

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span><strong>Programmation dynamique : Parfaite connaissance de l'environnement 🏃‍♀️
 </strong></span></h2>
 
 La programmation dynamique représente une collection d'algorithmes pour approximer les solutions optimales pour les problèmes d'apprentissage par renforcement étant donné un modèle parfait de l'environnement. L'hypothèse d'un modèle parfait de l'environnement et la grande puissance de calcul nécessaire à la programmation dynamique rendent ces algorithmes d'une utilité limitée dans les applications concrètes, bien qu'ils soient encore très importants d'un point de vue théorique.

Supposez que nous avons un modèle parfait de l'environnement signifie que nous connaissons toutes les probabilités :

$$
p(s',r|s,a) \: \forall s,s' \in \mathcal{S} \: \forall a \in \mathcal{A}(s) \: \forall r \in \mathcal{R}
$$

On suppose aussi que le MDP est fini

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Policy evaluation
</strong></span></h3>

Afin de pouvoir trouver une politique optimale, nous devons pouvoir l'évaluer par des techniques d'approximation. Pour ce faire, nous pouvons utiliser la règle de mise à jour de l'équation de Bellman :

$$
\begin{align*}
v_{k+1}(s)& = \mathbb{E}_{\pi}(R_{t+1} + \gamma v_k(S_{t+1})|S_t=s)\\
& = \sum_{a\in \mathcal{A}}\pi(a|s)\sum_{s'\in\mathcal{S},r\in\mathcal{R}}{p(s',r|s,a)}[r + \gamma v_{k}(s')]
\end{align*}
$$

Cette séquence de fonctions de valeur converge vers la fonction état-valeur $v_{\pi}$

L'algorithme d'approximation de la fonction valeur peut s'écrire comme suit :

![policy_eval](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/policy_eval.png)



<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Amélioration de la politique
</strong></span></h3>


La raison de vouloir évaluer les politiques est de pouvoir trouver de meilleures politiques ! Considérons que nous avons évalué la fonction de valeur $v_{\pi}$ pour une politique $\pi$.

Pour un état donné $s$ nous aimerions savoir si nous devrions changer la politique $\pi$ choisir de manière déterministe une action alternative $a \neq \pi(s)$, puis recommencez à vous comporter conformément à la politique $\pi$. Ce nouveau comportement conduit à la valeur state-action:

$$
\begin{align*}
q_{\pi}(s,a) & = \mathbb{E}_{\pi}(R_{t+1} + \gamma v_{\pi}(S_{t+1}| S_t=s, A_t=a))\\
& = \sum_{s'\in \mathcal{S},r\in \mathcal{R}}{p(s',r|s,a)(r+\gamma v_{\pi}(s'))}
\end{align*}
$$

Si la valeur que nous obtenons est supérieure à $v_{\pi}(s)$ alors il vaudrait mieux choisir l'action $a$ à chaque fois que nous sommes dans l'état s, ce qui signifierait que la nouvelle politique est globalement meilleure que la politique actuelle pour tous les états $s\in \mathcal{S}$. Cette affirmation est en fait un cas particulier du **théorème d'amélioration de la politique**:

Soient $\pi$ et $\pi'$ deux politiques différentes telles que pour tout $s\in \mathcal{S}$:

$$
q_{\pi}(s, \pi'(s)) \geq v_{\pi}(s)
$$

Alors la politique $\pi'$ doit être aussi bon ou meilleur que $\pi$ :

$$
v_{\pi'} \geq v_{\pi}
$$

Si la première inégalité est stricte alors la seconde l'est aussi !

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Policy Iteration
</strong></span></h3>

Cette amélioration de la politique nous aide à mettre en place un algorithme qui peut alterner entre l'évaluation de la politique et les étapes d'amélioration de la politique afin de créer des politiques progressivement meilleures. Voici l'algorithme en pseudo code :

![policy_improvement](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/policy_improvement.png)

L'idée est assez simple, on choisit une politique initiale, puis on l'évalue, ensuite on essaie pour chaque état disponible si on peut trouver une autre action qui donnerait un meilleur rendement que la politique actuelle, on met à jour la politique en conséquence et on continue jusqu'à ce qu'un la politique optimale est trouvée !

Comme vous pouvez déjà l'anticiper, ce processus nécessite beaucoup de puissance de calcul et souffre également de la malédiction de la dimensionnalité (la quantité de calcul n'augmente pas de manière linéaire dans la taille de l'espace d'états ni dans la taille de l'espace d'action).


<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Programmation dynamique asynchrone
</strong></span></h3>

L'idée de la programmation dynamique asynchrone est d'éviter d'avoir à balayer tous les états possibles à chaque itération de l'algorithme d'itération de la politique, cela évite de se retrouver bloqué dans des calculs insolubles. Pour de tels algorithmes, les valeurs de certains états peuvent être sauvegardées plusieurs fois avant que d'autres états ne soient sauvegardés une seule fois.

Une façon d'y parvenir est d'alterner l'amélioration des politiques pour un état et l'évaluation.

Ce type de technique permet d'entremêler l'algorithme d'amélioration de la politique avec l'interaction en temps réel de l'agent avec l'environnement. Nous sauvegardons les états au fur et à mesure que l'agent les visite, ce qui nous permet également de nous concentrer davantage sur les états que l'agent est le plus susceptible de visiter.


<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Generalized policy iteration
</strong></span></h3>

Nous appelons **itération de politique généralisée** tout algorithme qui fait interagir les processus d'évaluation et d'amélioration des politiques. Cela décrit bien ce qui se passe lorsque l'on essaie de résoudre des problèmes d'apprentissage par renforcement.


<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Exemple : Gridworld
</strong></span></h3>

Gridworld est un exemple typique de problèmes d'apprentissage par renforcement, l'agent commence à une position aléatoire sur une grille et son objectif est d'atteindre le carré gris en aussi peu de mouvements que possible. Pour chaque état, les actions possibles sont, gauche, droite, haut et bas qui amènent de manière déterministe l'agent à atteindre la case suivante dans la direction indiquée (sauf lorsqu'il heurte un mur, auquel cas l'agent restera sur la case qu'il c'était avant). 


La récompense obtenue à chaque transition d'état est $-1$. Nous avons donc une parfaite connaissance de l'environnement, ce qui crée une application parfaite pour la programmation dynamique !

![gridworld](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/gridworld.png)

La figure ci-dessous montre l'algorithme d'évaluation de la politique en jeu lorsqu'il est appliqué à la politique uniforme (toutes les actions sont équiprobables), les figures de droite montrent l'évolution de la politique gourmande correspondant aux valeurs mises à jour données par l'algorithme d'évaluation de la politique.

![gridworld-eval-policy](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/gridword-policy_eval.png)

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span><strong>Méthodes de Monte Carlo : apprendre de l'expérience ⚗️ </strong></span></h2>
 
Ici on ne suppose pas une connaissance parfaite de l'environnement, il suffit que l'agent expérimente des interactions avec l'environnement.

Il est possible d'apprendre de l'expérience **réelle** , ce qui signifie que nous pouvons confronter notre agent à l'environnement. Ou apprendre de l'expérience **simulée** , ce qui signifie que nous aurions besoin d'un modèle de l'environnement, bien que la distribution de probabilité complète ne soit pas nécessaire dans la pratique.

La principale caractéristique des méthodes de Monte Carlo est de résoudre le problème d'apprentissage par renforcement en faisant la moyenne des récompenses cumulées d'échantillons. Les valeurs et les changements de politique ne se produisent qu'à la fin de chaque épisode, ce qui nécessite de supposer que la tâche est épisodique et que chaque épisode se termine, quelles que soient les actions entreprises.



<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Monte Carlo policy evaluation
</strong></span></h3>

Nous présentons ici l'algorithme de prédiction de Monte Carlo qui permet d'évaluer une politique :

![mc-pred](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/montecarlo-prediction.png)

L'idée est que nous exécutons l'expérience en utilisant la politique pour évaluer et stocker la valeur de récompense obtenu après la première occurrence de chaque état rencontré, puis nous calculons la moyenne de ces récompenses qui devraient converger vers la valeur réelle de chaque état pour cet politique spécifique.



<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Monte Carlo policy evaluation
</strong></span></h3>

### Exemple : Blackjack

Le but du jeu de casino populaire du blackjack est d'obtenir des cartes dont la somme des valeurs numériques est la plus grande possible **sans dépasser 21**. Toutes les cartes faciales comptent pour 10, et un as peut compter soit pour 1, soit pour 11. Nous considérons la version en où chaque joueur affronte indépendamment le croupier. Le jeu commence avec deux cartes distribuées au croupier et au joueur. L'une des cartes du croupier est face visible et l'autre face cachée. Si le joueur a 21 immédiatement (un as et une carte 10), cela s'appelle un naturel. Il gagne alors à moins que le croupier ait également un naturel, auquel cas le jeu est un match nul. Si le joueur n'a pas de naturel, alors il peut demander des cartes supplémentaires, une par une (hits), jusqu'à ce qu'il s'arrête (sticks) ou dépasse 21 (goes bust). S'il fait faillite, il perd; s'il colle, alors c'est au tour du croupier. Le croupier frappe ou colle selon une stratégie fixe sans choix : il colle sur n'importe quelle somme de 17 ou plus, et frappe autrement. Si le croupier fait faillite, alors le joueur gagne ; sinon, le résultat - victoire, défaite ou match nul - est déterminé par la somme finale qui est la plus proche de 21.


Nous pouvons exécuter un nombre infini de tours de jeu avec une politique donnée (l'état étant le nombre de points en main) pour évaluer la valeur de chaque état même si nous ne savons rien des probabilités de transition d'état ni des probabilités de récompenses possibles donnée par l'environnement.



<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Monte Carlo Control
</strong></span></h3>

L'idée du **contrôle de Monte Carlo** consiste à utiliser l'approximation de Monte Carlo pour les paires d'action d'état afin de choisir la politique optimale pour le problème à résoudre. Il y a généralement deux manières de procéder, la première consiste à prendre au hasard un état initial (appelé Exploring Starts), ce qui est assez peu pratique dans une situation où nous apprenons de l'expérience réelle que nous ne pouvons pas nécessairement simuler arbitrairement. L'autre technique, que nous verrons plus en détail, est le contrôle Monte Carlo sans débuts d'exploration, ce qui signifie que nous devons inclure certaines propriétés non gourmandes dans notre politique afin de garantir l'exploration à chaque épisode.

La figure ci-dessous représente l'algorithme de contrôle Monte Carlo sans explorer les départs en pseudo code :

![mccwoes](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/montecarlo-control-woexploringstart.png)

Nous utilisons l'évaluation de Monte Carlo pour chaque paire d'action d'état apparaissant dans l'épisode, ce qui nous aide à créer une estimation de la fonction de valeur d'action d'état pour cette paire d'action d'état. Ensuite, pour chaque état de l'épisode, nous modifions la politique pour choisir avec une probabilité élevée l'action menant à la récompense la plus élevée, et attribuons de faibles probabilités aux actions sous-optimales (dans l'exemple ici, nous avons choisi une polique $\epsilon-greedy$).

Notez que cette stratégie est appelée *on-policy* car nous sommes en mesure de générer de nouveaux épisodes après avoir changé la politique utilisée pour choisir les actions des états, cependant si nous n'avons accès qu'aux épisodes produits à l'aide d'une autre politique $\mu \neq \pi$, $\mu$ étant la politique à partir des observations, et $\pi$ la politique que nous souhaitons évaluer, alors il est possible d'évaluer $\pi$ toujours en utilisant une évaluation hors politique via un échantillonnage d'importance. Cette technique compare la probabilité de connaître des trajectoires d'épisodes entre les deux politiques différentes et l'utilise pour calculer la valeur de la politique non observée.

L'un des principaux inconvénients des méthodes de Monte Carlo est qu'elles doivent attendre la fin d'un épisode pour commencer à faire des estimations de la fonction de valeur d'état, ou des fonctions de valeur d'état d'action, et finalement trouver des politiques optimales, qui si vous pensez à la le cas d'un jeu d'échecs, ou d'un jeu de go, ou de jouer à super mario bros sur un super nintendo peut nécessiter beaucoup de puissance de calcul et de temps d'attente. L'ensemble des techniques que nous allons explorer maintenant s'affranchit de cette contrainte et représente ce qui a fait le plus grand bond en avant de l'apprentissage par renforcement ces dernières années.

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span><strong>Apprentissage par Différence Temporelle : Apprendre par l'expérience à partir d'estimations ⏰
 </strong></span></h2>

L'apprentissage par différence temporelle nous permet d'apprendre de l'expérience sans la nécessité d'un modèle de l'environnement (qui jusqu'à présent est identique à l'approche de Monte Carlo), cependant, ce nouvel ensemble de techniques nous permet d'apprendre des estimations pour nos fonctions de valeur basées sur d'autres estimations ( nous appelons généralement cela bootstrap, le lien avec l'échantillonnage bootstrap est qu'en statistique, l'échantillon d'origine est déjà une estimation de la population globale, tirer de nouveaux échantillons à partir de là est également appelé bootstrap)

L'apprentissage par différence temporelle nous permet de faire des estimations et des mises à jour après chaque pas de temps de l'expérience, et non à la fin de chaque épisode.

Mise à jour de Monte Carlo pour les estimations de retour (la cible est le retour de l'épisode après l'état $S_t$):

$$
V(S_t)\leftarrow V(S_t) + \alpha [G_t - V(S_t)]
$$

Apprentissage par différence temporelle (la cible est $R_{t+1} + \gamma V(S_{t})$):

$$
V(S_t) \leftarrow V(S_t) + \alpha [R_{t+1} + \gamma V(S_{t+1}) - V(S_t)]
$$

Les mises à jour de la différence temporelle sont inspirées directement de l'équation de Bellman que nous avons apprise auparavant.



<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> TD policy evaluation
</strong></span></h3>

Une illustration en pseudo-code de l'évaluation de la politique de différence temporelle pourrait s'écrire comme suit :


![TDeval](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/TDeval.png)

Avec cette logique, toutes les valeurs d'état sont initialisées, puis la mise à jour de chaque valeur d'état est mise à jour à l'aide de la récompense observée et de l'estimation actuelle de la valeur d'état de l'état suivant obtenu après avoir choisi l'actionununde la politique. Cette technique s'adapte bien aux problèmes avec de longs épisodes ou des tâches continues car nous n'avons pas besoin d'attendre les résultats finaux réels pour commencer à faire des estimations.


<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> TD policy improvement
</strong></span></h3>

Désormais, afin d'améliorer nos politiques, nous devons nous concentrer sur les paires d'actions d'État et sur la manière dont elles passent l'une à l'autre au lieu de nous concentrer uniquement sur les États.

Nous proposons cette illustration de pseudo-code pour l'amélioration des politiques à l'aide de la méthode des différences temporelles :


![TDimprove](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/TDpolicyimprovement.png)

Les valeurs d'état-action sont mises à jour à l'aide d'estimations d'autres valeurs d'état-action. Il s'agit d'une application sur politique car nous avons besoin de la politique progressivement améliorée pour pouvoir interagir avec l'environnement afin d'observer les états et les récompenses ultérieurs après chaque étape de l'expérience. Cette technique est souvent appelée SARSA car nous avons besoin du quintuple des événements $(S_t, A_t, R_{t+1}, S_{t+1}, A_{t+1})$ se produire afin de mettre à jour la valeur de la paire d'états d'action $S_t, A_t$. 

Cet algorithme exige également que nous laissions une certaine marge d'exploration dans le choix de notre politique, sinon la politique restera bloquée dans la première trajectoire plutôt bonne qu'elle a trouvée, c'est pourquoi l'algorithme suggère que nous utilisions des politiques $\epsilon-greedy$.

<h3 style="text-align: left; color:#20a08d; font-size: 20px"><span><strong> Q-Learning (off-policy TD-learning)
</strong></span></h3>

Q learning est l'une des avancées majeures de l'apprentissage par renforcement. Il se base sur la formule de mise à jour suivante :

$$
Q(S_t,A_t) \leftarrow Q(S_t,A_t) + \alpha [R_{t+1} + \gamma \max_{a\in \mathcal{A}(S_t)}Q(S_{t+1},a) - Q(S_t,A_t)]
$$

Dans ce cas, la fonction de valeur d'action apprise se rapproche directement de la fonction de valeur d'action optimale (et donc de la politique optimale) pour le problème à résoudre, indépendamment de la politique réelle suivie pour la prise de décision.

La principale différence avec la méthode d'amélioration de la politique précédente est qu'au lieu de nous baser sur la prochaine fonction de valeur d'état-action choisie par la politique actuelle afin de mettre à jour notre estimation, nous utilisons l'estimation de la fonction de valeur d'état-action pour le meilleur prochain coup possible (notez qu'il s'agit toujours d'une estimation). Nous mettons donc à jour les estimations de la valeur d'action en fonction d'une politique différente de celle utilisée pour exécuter l'expérience.

Ceci est illustré dans l'algorithme de pseudo-code suivant :

![qlearning](https://full-stack-assets.s3.eu-west-3.amazonaws.com/images/LEAD/Reinforcement-Learning/qlearning.png)

Le Q-learning est généralement ce que nous allons utiliser dans la pratique pour un certain nombre de raisons :

- Nous n'avons pas besoin d'un modèle de l'environnement
- Nous n'avons pas besoin que la politique utilisée dans l'expérience converge vers la politique optimale pour obtenir la fonction de valeur d'action optimale
- Nous n'avons pas besoin d'attendre la fin d'un épisode complet pour mettre à jour les fonctions de valeur

Bien sûr, il y a quelques inconvénients au Q-learning, le principal étant que les rendements estimés peuvent être largement surestimés (car nous utilisons les mêmes valeurs pour sélectionner et évaluer les actions, ce qui conduit l'algorithme à sélectionner les actions les mieux notées), mais certaines techniques existent pour compenser cela comme le double Q-learning, qui tente de découpler l'évaluation de la sélection d'action afin de réduire ce risque.

<h2 style="text-align: left; color:#20a08d; font-size: 25px"><span><strong>Résumé
 </strong></span></h2>

Nous avons couvert pas mal de théorie, et il est temps de faire un petit résumé de tout ce que nous avons appris jusqu'à présent :

L'apprentissage par renforcement se concentre sur l'optimisation d'une certaine valeur d'objectif pour un agent interagissant avec un environnement .

De nombreuses situations correspondent à cette définition, et diverses techniques aident dans différents cas :

- L'environnement est composé d'un seul état avec des récompenses inconnues : problème de bandit
- L'environnement peut être composé de plusieurs états, dont on a une parfaite connaissance (on connaît toutes les probabilités de transition d'état en fonction des actions et des récompenses correspondantes)
- Nous n'avons peut-être aucune connaissance de l'environnement, ce qui signifie que nous ne savons pas comment nos actions peuvent ou non influencer l'état de l'environnement

Dans toutes ces différentes situations, nous nous concentrons sur certaines valeurs et fonctions clés qui décrivent le comportement et les objectifs de l'agent :

- La **politique** est la façon dont l'agent choisit ses actions en fonction de l' état actuel de l'environnement
- La **fonction de valeur** d'état donne le retour attendu de l'agent suivant une certaine politique connaissant un certain état
- La **fonction de valeur d'état-action** donne le retour attendu de l'agent suivant une certaine politique lors du choix d'une certaine action compte tenu de l'état de l'environnement
Tout au long du cours, nous nous sommes concentrés sur les processus de décision de Markov finis, qui sont des expériences aléatoires avec des états consécutifs de l'environnement qui obligent l'agent à choisir des actions afin de passer d'un état à l'autre, avec des espaces d'action et d'état finis (qui peuvent cependant être énorme, pensez go game). Nous avons ensuite étudié différentes approches afin d'évaluer les politiques dans différents cas, et de trouver des politiques optimales grâce à des algorithmes d'amélioration/contrôle.

- **Programmation dynamique** : qui demande une parfaite connaissance de l'environnement (les probabilités d'état-transition)
- **Méthodes de Monte Carlo** : qui nous permettent d'apprendre de l'expérience, mais demandent la réalisation de chaque expérience afin d'avoir des retours réels au travail avec
- **Apprentissage par différence temporelle** : qui sont les plus couramment utilisés dans la pratique car ils nous permettent d'apprendre de l'expérience sans avoir à attendre que les rendements réels soient calculés, mais peuvent fonctionner directement à partir d'estimations de fonctions de valeur.

## Ressources 📚📚

* [The reference book for all things reinforcement learning (from which the figures were taken)](https://full-stack-assets.s3.eu-west-3.amazonaws.com/references/reinforcement_learning/SuttonBartoIPRLBook2ndEd.pdf)
* [The Deepmind (alpha go creators) reinforcement learning lectures](https://www.deepmind.com/learning-resources/reinforcement-learning-lecture-series-2021)
* [Easy to follow didactic videos on reinforcement learning](https://www.youtube.com/watch?v=nyjbcRQ-uQ8&list=PLZbbT5o_s2xoWNVdDudn51XM8lOuZ_Njv)