# Apprentissage par différence temporelle (TD) dans l'apprentissage par renforcement

L'apprentissage par différence temporelle (TD) est une approche sans modèle dans l'apprentissage par renforcement qui combine des idées issues des méthodes de Monte Carlo et de la programmation dynamique. Elle permet aux agents d'apprendre directement à partir de l'expérience brute sans avoir besoin d'un modèle de la dynamique de l'environnement.

## Prédiction TD

Les méthodes de prédiction TD sont utilisées pour estimer la fonction de valeur $V(s)$ pour une politique donnée $\pi$. La principale caractéristique des méthodes TD est qu'elles mettent à jour la valeur d'un état en fonction de la valeur estimée de l'état suivant, plutôt que d'attendre le résultat final.

### Règle de mise à jour TD(0) :
---

>$$V(s) \leftarrow V(s) + \alpha [R_{t+1} + \gamma V(S_{t+1}) - V(s)]$$

Où :
- $V(s)$ est la valeur actuelle de l'état $s$
- $\alpha$ est le taux d'apprentissage
- $R_{t+1}$ est la récompense reçue après la transition de l'état $s$ à l'état $S_{t+1}$
- $\gamma$ est le facteur d'actualisation

---

### Avantages de TD :
- Les méthodes TD sont sans modèle, ce qui signifie qu'elles ne nécessitent pas de connaissance des fonctions de transition et de récompense du MDP.
- Les méthodes TD peuvent apprendre à partir d'épisodes incomplets, contrairement aux méthodes de Monte Carlo, qui nécessitent des épisodes complets.
- Les méthodes TD développent une estimation basée sur une estimation, ce qui leur permet d'apprendre avant de connaître le résultat final.

## Contrôle TD

Les méthodes de contrôle TD étendent la prédiction TD pour apprendre des politiques optimales. Elles utilisent des fonctions de valeur pour améliorer la politique de manière itérative.

### Politique de mise à jour et politique de comportement :
- **Politique de mise à jour** : la politique utilisée pour mettre à jour la fonction de valeur.
- **Politique de comportement** : la politique utilisée pour générer le comportement (actions) de l'agent.

### Sur politique vs. Hors politique :
- **Sur politique** : l'agent suit une politique unique pour mettre à jour la fonction de valeur et générer le comportement.
- **Hors politique** : l'agent utilise des politiques différentes pour mettre à jour la fonction de valeur et générer le comportement.

### Exemple sur politique : SARSA
SARSA (État-Action-Récompense-État-Action) est un algorithme de contrôle TD sur politique. Il met à jour la valeur Q en fonction de l'action réellement effectuée par la politique actuelle.

### Exemple hors politique : Q-Learning
Q-Learning est un algorithme de contrôle TD hors politique. Il met à jour la valeur Q en fonction de la valeur Q maximale possible de l'état suivant, indépendamment de l'action entreprise par la politique actuelle.

## SARSA

SARSA est un algorithme de contrôle TD sur politique qui met à jour la fonction de valeur d'action en fonction de la politique actuelle.

### Règle de mise à jour SARSA :
---

>$$Q(s, a) \leftarrow Q(s, a) + \alpha [R_{t+1} + \gamma Q(S_{t+1}, A_{t+1}) - Q(s, a)]$$

Où :
- $Q(s, a)$ est la valeur actuelle de l'action $a$ dans l'état $s$
- $\alpha$ est le taux d'apprentissage
- $R_{t+1}$ est la récompense reçue après avoir effectué l'action $a$ dans l'état $s$
- $\gamma$ est le facteur d'actualisation
- $S_{t+1}$ est l'état suivant
- $A_{t+1}$ est la prochaine action effectuée par la politique actuelle

## Q-Learning

Q-Learning est un algorithme de contrôle TD hors politique qui met à jour la fonction de valeur d'action en fonction de la valeur Q maximale possible de l'état suivant.

### Règle de mise à jour de l'apprentissage Q :
---

>$$Q(s, a) \leftarrow Q(s, a) + \alpha [R_{t+1} + \gamma \max_{a'} Q(S_{t+1}, a') - Q(s, a)]$$

Où :
- $Q(s, a)$ est la valeur actuelle de l'action $a$ dans l'état $s$
- $\alpha$ est le taux d'apprentissage
- $R_{t+1}$ est la récompense reçue après avoir effectué l'action $a$ dans l'état $s$
- $\gamma$ est le facteur d'actualisation
- $S_{t+1}$ est l'état suivant
- $\max_{a'} Q(S_{t+1}, a')$ est la valeur Q maximale de l'état suivant sur toutes les actions possibles

## Exemple d'implémentation de SARSA et Q-Learning en Python

Vous trouverez ci-dessous un exemple d'implémentation des algorithmes SARSA et Q-Learning en Python.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from collections import defaultdict

# Définir l'environnement et la politique
states = [0, 1, 2, 3, 4]
actions = ['a', 'b']

# Simuler un environnement
def generate_episode(policy):
    episode = []
    state = np.random.choice(states)
    while state != 4:  # Terminal state
        action = policy[state]
        next_state = np.random.choice(states)
        reward = np.random.randn()  # Random reward
        episode.append((state, action, reward))
        state = next_state
    return episode

# La politique cupide d'Epsilon
def epsilon_greedy_policy(Q, state, epsilon=0.1):
    if np.random.rand() < epsilon:
        return np.random.choice(actions)
    else:
        return actions[np.argmax(Q[state])]

# Algorithme SARSA
def sarsa(episodes, alpha=0.1, gamma=0.9, epsilon=0.1):
    Q = defaultdict(lambda: np.zeros(len(actions)))
    for _ in range(episodes):
        state = np.random.choice(states)
        action = epsilon_greedy_policy(Q, state, epsilon)
        while state != 4:  # Terminal state
            next_state = np.random.choice(states)
            reward = np.random.randn()  # Random reward
            next_action = epsilon_greedy_policy(Q, next_state, epsilon)
            Q[state][actions.index(action)] += alpha * (reward + gamma * Q[next_state][actions.index(next_action)] - Q[state][actions.index(action)])
            state, action = next_state, next_action
    return Q

# Exécutez SARSA
Q_sarsa = sarsa(episodes=1000)

print("Estimated Q-Values (SARSA):")
for state, values in Q_sarsa.items():
    for action, value in zip(actions, values):
        print(f"Q({state}, {action}) = {value:.2f}")


Estimated Q-Values (SARSA):
Q(4, a) = 0.00
Q(4, b) = 0.00
Q(3, a) = -0.05
Q(3, b) = -0.35
Q(0, a) = -0.26
Q(0, b) = 0.17
Q(1, a) = -0.08
Q(1, b) = -0.04
Q(2, a) = -0.15
Q(2, b) = -0.27


In [2]:
# Algorithme Q-Learning
def q_learning(episodes, alpha=0.1, gamma=0.9, epsilon=0.1):
    Q = defaultdict(lambda: np.zeros(len(actions)))
    for _ in range(episodes):
        state = np.random.choice(states)
        while state != 4:  # Terminal state
            action = epsilon_greedy_policy(Q, state, epsilon)
            next_state = np.random.choice(states)
            reward = np.random.randn()  # Random reward
            best_next_action = np.argmax(Q[next_state])
            Q[state][actions.index(action)] += alpha * (reward + gamma * Q[next_state][best_next_action] - Q[state][actions.index(action)])
            state = next_state
    return Q

# Exécutez Q-Learning
Q_q_learning = q_learning(episodes=1000)

print("Estimated Q-Values (Q-Learning):")
for state, values in Q_q_learning.items():
    for action, value in zip(actions, values):
        print(f"Q({state}, {action}) = {value:.2f}")


Estimated Q-Values (Q-Learning):
Q(0, a) = 0.05
Q(0, b) = 0.19
Q(4, a) = 0.00
Q(4, b) = 0.00
Q(2, a) = -0.12
Q(2, b) = 0.12
Q(3, a) = -0.03
Q(3, b) = -0.14
Q(1, a) = -0.19
Q(1, b) = 0.23


## Explication de l'implémentation de l'apprentissage par différence temporelle

### SARSA
- **Initialisation** : nous initialisons les valeurs Q pour toutes les paires état-action.
- **Générer des épisodes** : l'agent suit une politique epsilon-greedy pour générer des épisodes.
- **Mettre à jour les valeurs Q** : les valeurs Q sont mises à jour en fonction de l'action réelle entreprise par la politique.

### Apprentissage Q
- **Initialisation** : nous initialisons les valeurs Q pour toutes les paires état-action.
- **Générer des épisodes** : l'agent suit une politique epsilon-greedy pour générer des épisodes.
- **Mettre à jour les valeurs Q** : les valeurs Q sont mises à jour en fonction de la valeur Q maximale de l'état suivant, indépendamment de l'action entreprise par la politique.

Les valeurs Q estimées fournissent le rendement attendu pour chaque paire état-action dans le cadre de la politique donnée. L'algorithme SARSA met à jour les valeurs Q en fonction de l'action réellement entreprise par la politique, tandis que l'algorithme Q-Learning met à jour les valeurs Q en fonction de la valeur Q maximale possible de l'état suivant.