# MACHINE LEARNING II - ТР 1


Objectif:

L'objectif de ce TP est de se familiariser avec les outils essentiels du Reinforcement Learning(RL), notamment OpenAI Gym. Les étudiants vont explorer comment interagir avec un environnement RL et exécuter des actions avant d'implémenter un algorithme d'apprentissage dans les séances suivantes.

## A. Partie 1: Presentation des bibliotheque Cles

1. OpenAl Gym

- OpenAl Gym est une bibliothèque permettant de simuler des environnements interactifs pour tester des algorithmes de RL.
- Un environnement Gym est défini par un ensemble d'états, d'actions, de récompenses et d'un critère de fin.

Installation de Gym

In [7]:
!pip install --upgrade gymnasium pygame numpy





Création d'un environnement

In [10]:
import gymnasium as gym

env = gym.make('CartPole-v1', render_mode='human')
env.reset()

(array([ 0.03468746,  0.00549068, -0.04994776,  0.02527633], dtype=float32),
 {})

## B. Partie 2: Ecercices Pratiques avec OpenAI Gym

### Exercice 1: Découverte et Exploration d'un Environnement Gym

Objectif: Comprendre la structure d'un environnement Gym en explorant ses propriétés et ses actions possibles.


✔Instructions :
1. Afficher l'espace d'actions et l'espace d'observations.
2. Exécuter une boucle de simulation avec des actions aléatoires pendant 100 itérations.
3. Observer les valeurs des observations retournées.

In [16]:
print(f"Espace d'actions: {env.action_space}")
print(f"Espace d'observations: {env.observation_space}")

for _ in range(100):
    action = env.action_space.sample()
    observation, reward, done, _, _ = env.step(action)
    print(f"Action: {action}, Observation: {observation}, Reward: {reward}")
    if done:
        env.reset()

env.close()

Espace d'actions: Discrete(2)
Espace d'observations: Box([-4.8               -inf -0.41887903        -inf], [4.8               inf 0.41887903        inf], (4,), float32)
Action: 1, Observation: [ 0.03479727  0.20129202 -0.04944223 -0.28273794], Reward: 1.0
Action: 1, Observation: [ 0.03882312  0.39708304 -0.05509699 -0.59059566], Reward: 1.0
Action: 0, Observation: [ 0.04676478  0.20277403 -0.0669089  -0.31576476], Reward: 1.0
Action: 1, Observation: [ 0.05082026  0.39878207 -0.0732242  -0.62877554], Reward: 1.0
Action: 1, Observation: [ 0.0587959   0.5948454  -0.08579971 -0.9435911 ], Reward: 1.0
Action: 0, Observation: [ 0.07069281  0.40097767 -0.10467153 -0.67905337], Reward: 1.0
Action: 0, Observation: [ 0.07871236  0.2074535  -0.1182526  -0.42107314], Reward: 1.0
Action: 1, Observation: [ 0.08286143  0.40403497 -0.12667406 -0.7485714 ], Reward: 1.0
Action: 0, Observation: [ 0.09094213  0.21086688 -0.14164549 -0.4982835 ], Reward: 1.0
Action: 1, Observation: [ 0.09515947  0.407672 

### Exercice 2: Manipulation des Observations et Récompenses

Objectif: Comprendre comment récupérer les observations et les récompenses lors de l'interaction avec l'environnement.


✔Instructions:
1. Prendre une action et récupérer les valeurs retournées (observation, reward, done).
2. Afficher ces valeurs et analyser leur signification.
3. Faire plusieurs essais et noter les variations des observations et des récompenses.

In [20]:
# Création de l'environnement
env = gym.make("CartPole-v1", render_mode='human')
observation, info = env.reset()

# Faire plusieurs essais
for i in range(100):
    action = env.action_space.sample()  # Action aléatoire
    observation, reward, terminated, truncated, info = env.step(action)
    done = terminated or truncated

    print(f"Essai {i + 1}")
    print(f"Action choisie : {action}")
    print(f"Observation : {observation}")
    print(f"Récompense : {reward}")
    print(f"Épisode terminé ? : {done}")
    print("-" * 40)

    if done:
        print("L’épisode est terminé. Réinitialisation de l’environnement.\n")
        observation, info = env.reset()

env.close()


Essai 1
Action choisie : 0
Observation : [ 0.00752668 -0.21072377 -0.01721429  0.24016707]
Récompense : 1.0
Épisode terminé ? : False
----------------------------------------
Essai 2
Action choisie : 1
Observation : [ 0.0033122  -0.01536019 -0.01241094 -0.05789562]
Récompense : 1.0
Épisode terminé ? : False
----------------------------------------
Essai 3
Action choisie : 0
Observation : [ 0.003005   -0.21030201 -0.01356886  0.23084587]
Récompense : 1.0
Épisode terminé ? : False
----------------------------------------
Essai 4
Action choisie : 0
Observation : [-0.00120104 -0.40522748 -0.00895194  0.519218  ]
Récompense : 1.0
Épisode terminé ? : False
----------------------------------------
Essai 5
Action choisie : 1
Observation : [-0.00930559 -0.20998064  0.00143242  0.22372767]
Récompense : 1.0
Épisode terminé ? : False
----------------------------------------
Essai 6
Action choisie : 0
Observation : [-0.01350521 -0.40512303  0.00590697  0.5168621 ]
Récompense : 1.0
Épisode terminé ?

### Exercice 3: Contrôle Manuel de l'Agent

Objectif: Permettre à l'utilisateur de contrôler manuellement l'agent pour mieux comprendre l'effet des actions.

✔Instructions:

1. Demander à l'utilisateur d'entrer une action (o ou 1).
2. Exécuter l'action dans l'environnement et afficher les nouvelles observations.
3. Répéter l'opération jusqu'à la fin de l'épisode.
4. Afficher la durée totale de l'épisode avant qu'il ne se termine.

In [28]:
# Création de l’environnement
env = gym.make("CartPole-v1", render_mode=None)
observation, info = env.reset()
done = False
step_count = 0  # Durée de l’épisode (en nombre d’actions)

print(" Contrôle manuel : entre 0 (gauche) ou 1 (droite)")

while not done:
    # Afficher l’état courant
    print(f"\n Observation actuelle : {observation}")

    # Demander l'action à l'utilisateur
    user_input = input("Tape ton action (0=gauche, 1=droite) : ")

    # Vérification de l’entrée
    if user_input not in ["0", "1"]:
        print(" Entrée invalide. Merci de taper uniquement 0 ou 1.")
        continue

    action = int(user_input)

    # Appliquer l’action
    observation, reward, terminated, truncated, info = env.step(action)
    done = terminated or truncated
    step_count += 1

    # Afficher les infos après action
    print(f" Action effectuée : {action}")
    print(f" Nouvelle observation : {observation}")
    print(f" Récompense reçue : {reward}")

# Fin de l’épisode
print("\n L’épisode est terminé.")
print(f" Durée totale de l’épisode : {step_count} étapes.")

env.close()


 Contrôle manuel : entre 0 (gauche) ou 1 (droite)

 Observation actuelle : [-0.03935112 -0.01441945  0.00508797 -0.04273007]


Tape ton action (0=gauche, 1=droite) :  0


 Action effectuée : 0
 Nouvelle observation : [-0.03963951 -0.20961398  0.00423337  0.2515538 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.03963951 -0.20961398  0.00423337  0.2515538 ]


Tape ton action (0=gauche, 1=droite) :  0


 Action effectuée : 0
 Nouvelle observation : [-0.04383179 -0.40479612  0.00926445  0.545569  ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.04383179 -0.40479612  0.00926445  0.545569  ]


Tape ton action (0=gauche, 1=droite) :  0


 Action effectuée : 0
 Nouvelle observation : [-0.05192772 -0.60004705  0.02017583  0.8411565 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.05192772 -0.60004705  0.02017583  0.8411565 ]


Tape ton action (0=gauche, 1=droite) :  0


 Action effectuée : 0
 Nouvelle observation : [-0.06392866 -0.7954385   0.03699896  1.1401154 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.06392866 -0.7954385   0.03699896  1.1401154 ]


Tape ton action (0=gauche, 1=droite) :  0


 Action effectuée : 0
 Nouvelle observation : [-0.07983743 -0.9910241   0.05980127  1.4441682 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.07983743 -0.9910241   0.05980127  1.4441682 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.09965791 -0.79668695  0.08868463  1.1707546 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.09965791 -0.79668695  0.08868463  1.1707546 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.11559165 -0.602823    0.11209972  0.9071407 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.11559165 -0.602823    0.11209972  0.9071407 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.1276481  -0.4093826   0.13024254  0.6516896 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.1276481  -0.4093826   0.13024254  0.6516896 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.13583577 -0.216292    0.14327632  0.4026899 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.13583577 -0.216292    0.14327632  0.4026899 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.1401616  -0.0234619   0.15133013  0.15838778]
 Récompense reçue : 1.0

 Observation actuelle : [-0.1401616  -0.0234619   0.15133013  0.15838778]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.14063084  0.16920604  0.15449788 -0.08298981]
 Récompense reçue : 1.0

 Observation actuelle : [-0.14063084  0.16920604  0.15449788 -0.08298981]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.13724671  0.36181465  0.15283808 -0.32321957]
 Récompense reçue : 1.0

 Observation actuelle : [-0.13724671  0.36181465  0.15283808 -0.32321957]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.13001043  0.55446744  0.14637369 -0.56407046]
 Récompense reçue : 1.0

 Observation actuelle : [-0.13001043  0.55446744  0.14637369 -0.56407046]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.11892107  0.7472652   0.13509229 -0.80729425]
 Récompense reçue : 1.0

 Observation actuelle : [-0.11892107  0.7472652   0.13509229 -0.80729425]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.10397577  0.94030267  0.1189464  -1.0546157 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.10397577  0.94030267  0.1189464  -1.0546157 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.08516972  1.1336644   0.09785409 -1.307721  ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.08516972  1.1336644   0.09785409 -1.307721  ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.06249643  1.3274195   0.07169966 -1.5682403 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.06249643  1.3274195   0.07169966 -1.5682403 ]


Tape ton action (0=gauche, 1=droite) :  0


 Action effectuée : 0
 Nouvelle observation : [-0.03594804  1.1315182   0.04033485 -1.2540817 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.03594804  1.1315182   0.04033485 -1.2540817 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [-0.01331767  1.3261011   0.01525322 -1.5338634 ]
 Récompense reçue : 1.0

 Observation actuelle : [-0.01331767  1.3261011   0.01525322 -1.5338634 ]


Tape ton action (0=gauche, 1=droite) :  0


 Action effectuée : 0
 Nouvelle observation : [ 0.01320435  1.1307988  -0.01542405 -1.2364597 ]
 Récompense reçue : 1.0

 Observation actuelle : [ 0.01320435  1.1307988  -0.01542405 -1.2364597 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [ 0.03582032  1.3261155  -0.04015324 -1.5339345 ]
 Récompense reçue : 1.0

 Observation actuelle : [ 0.03582032  1.3261155  -0.04015324 -1.5339345 ]


Tape ton action (0=gauche, 1=droite) :  0


 Action effectuée : 0
 Nouvelle observation : [ 0.06234263  1.1314995  -0.07083193 -1.2540478 ]
 Récompense reçue : 1.0

 Observation actuelle : [ 0.06234263  1.1314995  -0.07083193 -1.2540478 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [ 0.08497262  1.3274536  -0.09591289 -1.5680488 ]
 Récompense reçue : 1.0

 Observation actuelle : [ 0.08497262  1.3274536  -0.09591289 -1.5680488 ]


Tape ton action (0=gauche, 1=droite) :  0


 Action effectuée : 0
 Nouvelle observation : [ 0.11152169  1.133599   -0.12727386 -1.3067588 ]
 Récompense reçue : 1.0

 Observation actuelle : [ 0.11152169  1.133599   -0.12727386 -1.3067588 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [ 0.13419367  1.3300836  -0.15340903 -1.6364193 ]
 Récompense reçue : 1.0

 Observation actuelle : [ 0.13419367  1.3300836  -0.15340903 -1.6364193 ]


Tape ton action (0=gauche, 1=droite) :  0


 Action effectuée : 0
 Nouvelle observation : [ 0.16079535  1.1370579  -0.18613742 -1.3952067 ]
 Récompense reçue : 1.0

 Observation actuelle : [ 0.16079535  1.1370579  -0.18613742 -1.3952067 ]


Tape ton action (0=gauche, 1=droite) :  1


 Action effectuée : 1
 Nouvelle observation : [ 0.1835365   1.3339432  -0.21404156 -1.7398423 ]
 Récompense reçue : 1.0

 L’épisode est terminé.
 Durée totale de l’épisode : 27 étapes.


### Exercice 4: Évaluation des Performances d'une Politique Aléatoire

Objectif: Mesurer la durée moyenne d'un épisode lorsqu'un agent prend des actions aléatoires.


✔Instructions:

1. Faire exécuter à l'agent des actions aléatoires pendant plusieurs épisodes (ex: 10 épisodes).
2. Calculer la durée moyenne avant que l'épisode ne se termine.
3. Comparer les résultats entre plusieurs exécutions.

In [32]:
env = gym.make("CartPole-v1", render_mode=None)
num_episodes = 10
durations = []

for episode in range(num_episodes):
    observation, info = env.reset()
    done = False
    step_count = 0

    while not done:
        action = env.action_space.sample()  # Action aléatoire
        observation, reward, terminated, truncated, info = env.step(action)
        done = terminated or truncated
        step_count += 1

    durations.append(step_count)
    print(f" Épisode {episode + 1} terminé après {step_count} étapes.")

env.close()

# Moyenne
average_duration = sum(durations) / num_episodes
print("\n Résultats sur 10 épisodes aléatoires :")
print(f"Durées des épisodes : {durations}")
print(f"Durée moyenne : {average_duration:.2f} étapes")


 Épisode 1 terminé après 17 étapes.
 Épisode 2 terminé après 10 étapes.
 Épisode 3 terminé après 15 étapes.
 Épisode 4 terminé après 14 étapes.
 Épisode 5 terminé après 29 étapes.
 Épisode 6 terminé après 14 étapes.
 Épisode 7 terminé après 24 étapes.
 Épisode 8 terminé après 22 étapes.
 Épisode 9 terminé après 8 étapes.
 Épisode 10 terminé après 14 étapes.

 Résultats sur 10 épisodes aléatoires :
Durées des épisodes : [17, 10, 15, 14, 29, 14, 24, 22, 8, 14]
Durée moyenne : 16.70 étapes
