# CartPole Challenge: Résolution par réseaux de neurones et algorithmes génétiques

Enseignant : Sébastien HERBRETEAU.

## Chargement des bibliothèques

In [None]:
# pip install pygame
# pip install gymnasium

In [None]:
import pygame
import gymnasium as gym
import numpy as np
import random

## Description du CartPole Challenge

Le *CartPole Challenge* est un problème classique de **reinforcement learning**, souvent utilisé pour tester des algorithmes d’apprentissage et de décision. Nous allons utiliser la version du CartPole de Gymnasium qui est un fork de la bibliothèque Gym d’OpenAI. La documentation officielle est accessible à l'adresse suivante https://gymnasium.farama.org/environments/classic_control/cart_pole/.

![Alt text](cart_pole.gif)

#### Description du système

Le système est composé de :

 - un chariot (cart) qui se déplace horizontalement sur un rail,

 - une perche (pole) articulée sur le chariot, libre de pivoter dans un plan vertical.

La perche est initialement légèrement inclinée, et instable par nature : sans action, elle tombe rapidement. 

Pour créer un tel environnement grâce à la bibliothèque `gym`, on utilise la commande suivante :

In [None]:
env = gym.make("CartPole-v1")

#### Objectif

Le but du *CartPole Challenge* est de maintenir la perche en équilibre vertical le plus longtemps possible en appliquant des forces sur le chariot.

À chaque instant, l’agent peut :

 - pousser le chariot vers la **gauche**,

 - ou pousser le chariot vers la **droite**.

Ces actions influencent indirectement l’angle de la perche via la dynamique du système.

#### État du système

L’état du système est décrit à chaque instant par un vecteur de dimension 4 dont les valeurs sont renseignées dans le tableau suivant :

| Num | Observation              | Valeur Min                     | Valeur Max                    |
|-----|--------------------------|-------------------------|------------------------|
| 0   |  Position du chariot           | -4.8                    | 4.8                    |
| 1   | Vitesse du chariot            | -Inf                    | Inf                    |
| 2   | Angle de la perche               | ~ -0.418 rad (-24°)     | ~ 0.418 rad (24°)      |
| 3   | Vitesse angulaire de la perche  | -Inf                    | Inf                    |

Pour initialiser le système, on utilise la commande suivante : 

In [None]:
state, info = env.reset()

Pour afficher l'état initial, on exécute:

In [None]:
print(state)

**Question:** Dessiner approximativement l'état initial de votre système, en indiquant la direction vers laquelle le chariot se dirige.

#### Actions

Comme précédemment mentionné, l'agent peut interagir avec le système à chaque instant de deux manières :
 - en exerçant une force sur le chariot vers la **gauche**,

 - ou en exerçant une force sur le chariot vers la **droite**.

Pour exercer une force sur le chariot vers la **gauche**, on exécute la commande suitante : 

In [None]:
newstate, reward, done, truncated, info = env.step(0)

In [None]:
print(newstate)

Pour exercer une force sur le chariot vers la **droite**, on exécute la commande suitante : 

In [None]:
newstate, reward, done, truncated, info = env.step(1)

In [None]:
print(newstate)

**Note :** Uniquement deux actions sont possibles à chaque instant décrites mathématiquement par l'ensemble $\mathcal{A} = \{0, 1\}$. 

#### Épisodes et terminaison

On rappelle que l'objectif pour l'agent est d'enchaîner des actions sur le système de manière à ce que la perche reste en équilibre vertical sur le chariot le plus longtemps possible. Une suite d'actions sur le système qui conduit finalement à la chute de la perche constitue ce qu'on appelle un **épisode**. Dans ce challenge, on considère qu'un épisode se termine si l’une des conditions suivantes est remplie pour l'état du système :
- l’angle du pendule dépasse ±0.209 rad.
- la position du chariot dépasse ±2.4 (le centre du chariot atteint le bord de l’affichage).

La variable `done` vaut `True` si l'état courant est un état final, `False` sinon.

On considère également que l'épisode se termine si le nombre d'actions effectuées sur le système sans que le pendule ne tombe dépasse 500 (dans ce cas, on peut considérer que la stratégie de l'agent est optimale).

La variable `truncated` vaut `True` si l'épisode a duré plus de 500 actions, `False` sinon.

#### Stratégie

Dans ce TP, on va mettre en place plusieurs stratégies et les évaluer pour essayer de résoudre le *CartPole Challenge*. 

De manière informelle, une **stratégie** est un *plan d'actions*, prévu à l'avance, qui indique que faire en fonction de l'état courant du système (et éventuellement des états précédents). 

Pour évaluer quantitativement la performance d'une stratégie, il suffit d'estimer la durée moyenne (comprise entre 0 et 500) pour laquelle le système reste en équilibre en suivant cette stratégie. En pratique, on lance par exemple 1000 épisodes indépendants en suivant toujours la même stratégie. Pour chaque épisode, on compte le nombre d'actions effectuées sur le système avant terminaison puis on calcule la moyenne.

## Mise en place de stratégies simples

### Stratégie 1 :

On met en place la stratégie suivante :

In [None]:
def take_action_strategy1(state):
    return 0 if random.random() < 0.5 else 1

Puis on lance un épisode en suivant cette stratégie :

In [None]:
state, info = env.reset()
done, truncated = False, False

while not done and not truncated: # tant que l'épisode n'est pas terminé
    action = take_action_strategy1(state)
    state, reward, done, truncated, info = env.step(action) 
    print(state, reward, done, truncated, info)

**Question :** Décrire avec des mots cette stratégie. Pour quelle raison l'épisode s'est-il terminé ? Compléter le code pour évaluer quantitativement sa performance. Que pensez-vous de cette stratégie ?

In [None]:
def evaluate(strategy, N=1000):
    cpt = 0
    for _ in range(N):
        # TODO: your code here
    return cpt / N
    
print("Nombre moyen d'actions:", evaluate(take_action_strategy1))


### Stratégie 2 :

**Question :** Écrire le code pour mettre en place la stratégie qui consiste à pousser le chariot dans la direction où penche la perche. Évaluer quantitativement sa performance. Est-elle meilleure que la précédente ?

In [None]:
def take_action_strategy2(state):
    # TODO: your code here


In [None]:
# TODO: your code here


### Stratégie 3 :

**Question :** Décrire avec des mots votre propre stratégie (une stratégie à laquelle vous avez pu penser et qui vous paraît meilleure que les précédentes). Écrire le code pour mettre en place cette stratégie. Évaluer quantitativement sa performance. 

In [None]:
def take_action_strategy3(state):
    # TODO: your code here


In [None]:
# TODO: your code here


## Réseaux de Neurones

Dans le but d'améliorer la performance, nous allons utiliser un réseau de neurones (très basique) pour prendre les décisions. Concrétement, le réseau de neurones que nous allons utiliser est une fonction paramétrisée $f_\theta$, avec $\theta \in \mathbb{R}^4$, qui prend en entrée un état (un vecteur de $\mathbb{R}^4$) et qui renvoie une action dans $\mathcal{A} = \{0, 1\}$:

$$\begin{array}{ccccc}
f_\theta & : & \mathbb{R}^4 & \to & \mathcal{A} \\
 & & s & \mapsto &  \begin{cases} 
0 & \text{si } \langle \theta, s \rangle > 0, \\
1 & \text{sinon } \end{cases} \\
\end{array}\,,$$
où $\langle \cdot, \cdot \rangle$ désigne le produit scalaire.

**Question :** Compléter la fonction suivante qui implémente ce réseau de neurones. Pour quel valeur de $\theta$ ce réseau de neurones implémente-t-il la stratégie n°2 ? 

In [None]:
def f(state, theta):
    # TODO: your code here


Notre objectif est de trouver un vecteur $\theta \in \mathbb{R}^4$ qui paramétrise la fonction de décision $f_\theta$ afin de résoudre le *CartPole Challenge*.

## Algorithme génétique

Un **algorithme génétique** est une méthode d’optimisation stochastique inspirée des mécanismes de l’évolution biologique (sélection naturelle, reproduction, mutation). Un algorithme génétique cherche à optimiser une fonction objectif en faisant évoluer une population de solutions candidates au fil des générations.

### Principe:
On démarre avec une population de solutions (génération 0), généralement générées aléatoirement pour assurer la diversité.

In [None]:
population_0 = [np.random.rand(4) for _ in range(50)]

Pour passer d'une génération à l'autre, trois mécanismes successifs sont appliqués :
1. **Sélection** : Seul un faible pourcentage des individus "les plus performants" sont conservés, les autres meurent.
2. **Croisements** : Les individus ayant survécus peuvent se reproduire entre eux. Deux individus survivants donnent naissance à un nouvel individu dont la "générique" est un mélange équitable de la génétique des parents.
3. **Mutations** : De petites modifications aléatoires sont appliquées aux individus d'une génération à l'autre.

**Question :** Compléter la fonction suivante qui fait passer d'une génération à l'autre.

In [None]:
def evolve_generation(population):
    # Selection : on ne retient que 30% de la population précédente (les individus les plus performants)
    # TODO: your code here

    # Croisements : on selectionne deux individus survivants au hasard et on crée un nouvel individu 
    # en concatenant la premiere moitié du premier avec la second moitié du second (par exemple).
    # A l'issue des croisements, le nombre d'individus de la nouvelle population est égal au nombre 
    # d'individus de la population précédente.
    # TODO: your code here

    # Mutations : chaque individu subit une mutation aléatoire. 
    # Par exemple, un coefficient aléatoire de chaque vecteur est remplacé par la réalisation d'une loi normale centrée réduite. 
    # TODO: your code here
    return new_population

**Question :** Après 10 générations d'évolution, quelle est la performance du meilleur individu ? Proposer un vecteur $\theta$ qui résoud le *CartPole Challenge*. 

In [None]:
# TODO: your code here
