# Méthodes de Monte Carlo dans l'apprentissage par renforcement

Les méthodes de Monte Carlo sont une classe d'algorithmes qui s'appuient sur un échantillonnage aléatoire répété pour obtenir des résultats numériques. Dans le contexte de l'apprentissage par renforcement, les méthodes de Monte Carlo sont utilisées pour estimer la valeur des états ou des paires état-action en fonction des épisodes observés.

## Prédiction de Monte Carlo

Les méthodes de prédiction de Monte Carlo sont utilisées pour estimer la fonction de valeur \( V(s) \) pour une politique donnée $\pi$ en fonction du rendement moyen de plusieurs épisodes. La valeur d'un état est mise à jour en faisant la moyenne des rendements observés après avoir visité cet état.

### Processus :
1. **Générer des épisodes** : exécuter la politique $\pi$ pour générer plusieurs épisodes.
2. **Calculer les rendements** : pour chaque état de chaque épisode, calculer le rendement (récompense cumulée) de cet état jusqu'à la fin de l'épisode.
3. **Mettre à jour la fonction de valeur** : faire la moyenne des rendements de chaque état sur plusieurs épisodes pour estimer la fonction de valeur.

### Méthodes :
- **Every-Visit** : met à jour la fonction de valeur en utilisant la moyenne de tous les rendements observés à chaque fois qu'un état est visité.
- **First-Visit** : met à jour la fonction de valeur en utilisant la moyenne des rendements observés uniquement la première fois qu'un état est visité dans chaque épisode.

### Équation :
---

- ​​**Chaque visite** :
>$$V(s) \approx \frac{1}{N(s)} \sum_{i=1}^{N(s)} G_i(s)$$

- **Première visite** :
>$$V(s) \approx \frac{1}{N_{\text{first}}(s)} \sum_{i=1}^{N_{\text{first}}(s)} G_i(s)$$

Où :
- $N(s)$ est le nombre de fois que l'état $s$ a été visité
- $N_{\text{first}}(s)$ est le nombre de fois que l'état $s$ a été visité pour la première fois dans chaque épisode, et $G_i(s)$ est le retour observé de l'état $s$ dans le $i$-ième épisode.

## Contrôle Monte Carlo

Les méthodes de contrôle Monte Carlo sont utilisées pour trouver la politique optimale $pi^*$ en apprenant à partir des épisodes générés par la politique actuelle. Il existe deux approches principales : l'apprentissage sur politique et l'apprentissage hors politique.

### Contrôle Monte Carlo sur politique

Les méthodes sur politique mettent à jour la politique en fonction des actions entreprises par la politique actuelle. La politique est améliorée de manière itérative à l'aide de la fonction de valeur d'action estimée $Q(s, a)$.

### Contrôle Monte Carlo hors politique

Les méthodes hors politique apprennent la valeur de la politique optimale $\pi^*$ tout en suivant une politique de comportement différente $\mu$. Cette approche utilise l'échantillonnage d'importance pour corriger la différence entre la politique de comportement et la politique cible.

## Apprentissage hors politique et sur politique

### Apprentissage sur politique
Dans l'apprentissage sur politique, la politique utilisée pour générer les épisodes est la même que la politique en cours d'amélioration. La fonction de valeur d'action $Q(s, a)$ est mise à jour à l'aide des retours observés à partir des épisodes générés par la politique actuelle.

### Apprentissage hors politique
Dans l'apprentissage hors politique, la politique de comportement $\mu$ est différente de la politique cible $\pi$. La fonction de valeur d'action $Q(s, a)$ est mise à jour à l'aide de l'échantillonnage d'importance pour corriger la différence entre la politique de comportement et la politique cible.

### Échantillonnage d'importance
L'échantillonnage d'importance est utilisé pour peser les retours observés à partir de la politique de comportement \( \mu \) afin d'estimer les retours de la politique cible \( \pi \).

### Équation :
---

>$$Q(s, a) \leftarrow Q(s, a) + \alpha \cdot \frac{\pi(a|s)}{\mu(a|s)} \left( G - Q(s, a) \right)$$

Où :
- $G$ est le retour observé à partir de l'épisode 
- $\alpha$ est le taux d'apprentissage.

## Politique Epsilon-Greedy

La politique epsilon-greedy est une méthode permettant d'équilibrer l'exploration et l'exploitation. Elle garantit que l'agent explore l'environnement en choisissant des actions aléatoires avec une probabilité $\epsilon$ et exploite les actions les plus connues avec une probabilité $1 - \epsilon$.

### Algorithme de la politique Epsilon-Greedy

1. **Initialisation** : définissez $\epsilon$ (taux d'exploration).
2. **Sélection d'action** :
- Avec une probabilité $\epsilon$, choisissez une action aléatoire.
- Avec une probabilité $1 - \epsilon$, choisissez l'action qui maximise la valeur estimée.

## Algorithme de Monte Carlo

L'algorithme de Monte Carlo consiste à générer des épisodes, à calculer les rendements et à mettre à jour les estimations de valeur en fonction des moyennes empiriques.

### Pseudo-code :

1. Initialiser la fonction de valeur $V(s)$ de manière arbitraire
2. Pour chaque épisode :
- Générer l'épisode en utilisant la politique $\pi$
- Calculer le rendement $G$ à partir de l'état $s$
- Mettre à jour $V(s)$ en utilisant la moyenne empirique des rendements

### Algorithme de contrôle de Monte Carlo (sur politique) :

1. Initialiser $Q(s, a)$ arbitrairement et $\pi$ pour qu'il soit epsilon-greedy
2. Pour chaque épisode :
- Générer l'épisode en utilisant la politique $\pi$
- Pour chaque paire état-action $(s, a)$ dans l'épisode :
- Calculer le rendement $G$ à partir de $(s, a)$
- Mettre à jour $Q(s, a)$ en utilisant la moyenne empirique des rendements
- Mettre à jour la politique $\pi$ pour qu'elle soit gourmande par rapport à $Q$

## Exemple d'implémentation de méthodes de Monte Carlo en Python

Vous trouverez ci-dessous un exemple d'implémentation de méthodes de prédiction et de contrôle de Monte Carlo en Python.

In [1]:
import numpy as np
from collections import defaultdict

# Définir l'environnement et la politique
states = [0, 1, 2, 3, 4]
actions = ['a', 'b']
policy = {s: np.random.choice(actions) for s in states}

# Simuler un environnement
def generate_episode(policy):
    episode = []
    state = np.random.choice(states)
    while state != 4:  # Terminal state
        action = policy[state]
        next_state = np.random.choice(states)
        reward = np.random.randn()  # Random reward
        episode.append((state, action, reward))
        state = next_state
    return episode

# Prédiction de Monte Carlo (première visite)
def monte_carlo_prediction_first_visit(policy, episodes, gamma=0.9):
    V = defaultdict(float)
    returns = defaultdict(list)
    for _ in range(episodes):
        episode = generate_episode(policy)
        G = 0
        visited = set()
        for t in reversed(range(len(episode))):
            state, _, reward = episode[t]
            G = gamma * G + reward
            if state not in visited:
                visited.add(state)
                returns[state].append(G)
                V[state] = np.mean(returns[state])
    return V

# Prédiction de la course de Monte Carlo (première visite)
value_function = monte_carlo_prediction_first_visit(policy, episodes=1000)

print("Estimated State-Value Function:")
for state, value in value_function.items():
    print(f"V({state}) = {value:.2f}")


Estimated State-Value Function:
V(3) = -0.03
V(1) = 0.11
V(2) = 0.11
V(0) = 0.01


In [2]:
# Contrôle de Monte-Carlo (sur politique, à chaque visite)
def monte_carlo_control_on_policy(episodes, gamma=0.9, epsilon=0.1):
    Q = defaultdict(lambda: np.zeros(len(actions)))
    policy = {s: np.random.choice(actions) for s in states}

    def epsilon_greedy_policy(state):
        if np.random.rand() < epsilon:
            return np.random.choice(actions)
        else:
            return actions[np.argmax(Q[state])]

    for _ in range(episodes):
        episode = []
        state = np.random.choice(states)
        while state != 4:  # Terminal state
            action = epsilon_greedy_policy(state)
            next_state = np.random.choice(states)
            reward = np.random.randn()  # Random reward
            episode.append((state, action, reward))
            state = next_state

        G = 0
        for t in reversed(range(len(episode))):
            state, action, reward = episode[t]
            G = gamma * G + reward
            if (state, action) not in [(x[0], x[1]) for x in episode[:t]]:
                Q[state][actions.index(action)] += (G - Q[state][actions.index(action)]) / len(episode)
                policy[state] = actions[np.argmax(Q[state])]
                
    return policy, Q

# Exécuter le contrôle Monte Carlo (selon la politique, à chaque visite)
optimal_policy, action_value_function = monte_carlo_control_on_policy(episodes=1000)

print("\nOptimal Policy:")
for state, action in optimal_policy.items():
    print(f"State {state}: {action}")

print("\nEstimated Action-Value Function:")
for state, values in action_value_function.items():
    for action, value in zip(actions, values):
        print(f"Q({state}, {action}) = {value:.2f}")



Optimal Policy:
State 0: a
State 1: b
State 2: b
State 3: a
State 4: b

Estimated Action-Value Function:
Q(2, a) = -0.50
Q(2, b) = -0.06
Q(0, a) = 0.12
Q(0, b) = -1.13
Q(1, a) = -2.84
Q(1, b) = 0.33
Q(3, a) = -0.33
Q(3, b) = -0.80


La fonction valeur-état estimée fournit le rendement attendu pour chaque état dans le cadre de la politique donnée. La politique optimale montre la meilleure action à entreprendre dans chaque état en fonction de la fonction valeur-action apprise.