## 1.Installation de gym

```bash
pip install gymnasium
```

## 2. Exercices à partir de l'exemple FrozenLake
### 2.1. Création d'un environnement Gym

In [26]:
# a
import gymnasium as gym 

# b
env = gym.make("FrozenLake-v1", render_mode="ansi")
env.reset()

# c
print(env.render())


[41mS[0mFFF
FHFH
FFFH
HFFG



In [27]:
# d - Visualiser les états
print("Espace d'états:", env.observation_space)

# e - Visualiser les actions
print("Espace d'actions:", env.action_space)

Espace d'états: Discrete(16)
Espace d'actions: Discrete(4)


In [28]:
# f - Visualiser les probabilités de transition
# Dans gymnasium, on utilise env.unwrapped.P pour accéder aux probabilités
# Action 2 = right, État 0 = S (état initial)
print("Probabilités de transition depuis l'état 0 avec l'action 2 (right):")
env.unwrapped.P[0][2]

Probabilités de transition depuis l'état 0 avec l'action 2 (right):


[(0.33333333333333337, 4, 0, False),
 (0.3333333333333333, 1, 0, False),
 (0.33333333333333337, 0, 0, False)]

In [29]:
# g - Probabilité de transition de l'état 3 (F) en effectuant l'action 1 (down)
print("Probabilités de transition depuis l'état 3 avec l'action 1 (down):")
env.unwrapped.P[3][1]

Probabilités de transition depuis l'état 3 avec l'action 1 (down):


[(0.33333333333333337, 2, 0, False),
 (0.3333333333333333, 7, 0, True),
 (0.33333333333333337, 3, 0, False)]

### 2.2. Générer une série d'épisodes avec Gym

**Rappel:** Un épisode est l'interaction agent-environnement depuis l'état initial jusqu'à l'état terminal.

In [30]:
# a
state, info = env.reset()
print(f"État initial: {state}")

État initial: 0


In [31]:
# b
state, info = env.reset()
env.step(1)


(1, 0, False, False, {'prob': 0.33333333333333337})

In [38]:
# c
random_action = env.action_space.sample()
print(f"Action séléectionnée: {random_action}")

next_state, reward, terminated, truncated, info = env.step(random_action)
print(f"État suivant: {next_state}")
print(f"Récompense: {reward}")
print(f"Terminé: {terminated}")

Action séléectionnée: 1
État suivant: 5
Récompense: 0
Terminé: True


In [63]:
# d

env = gym.make("FrozenLake-v1", render_mode="ansi")

num_timesteps = 20

state, info = env.reset()
print(f"État initial: {state}")
print(env.render())

for t in range(num_timesteps):
    # générer une action aléatoire
    random_action = env.action_space.sample()
    
    # exécuter l'action
    next_state, reward, terminated, truncated, info = env.step(random_action)
    
    # done = terminated OR truncated (pour compatibilité avec l'ancien code)
    done = terminated or truncated
    
    print(f"Time step {t+1}: Action={random_action}, État={next_state}, Reward={reward}, Done={done}")
    print(env.render())
    # Sortir de la boucle si l'état terminal est atteint
    if done:
        print(f"\nÉpisode terminé au pas {t+1}")
        if reward == 1:
            print("l'agent a atteint le but G")
        else:
            print("tombé dans un trou H")
        break

print("\nÉtat final:")
print(env.render())

État initial: 0

[41mS[0mFFF
FHFH
FFFH
HFFG

Time step 1: Action=0, État=0, Reward=0, Done=False
  (Left)
[41mS[0mFFF
FHFH
FFFH
HFFG

Time step 2: Action=1, État=1, Reward=0, Done=False
  (Down)
S[41mF[0mFF
FHFH
FFFH
HFFG

Time step 3: Action=0, État=5, Reward=0, Done=True
  (Left)
SFFF
F[41mH[0mFH
FFFH
HFFG


Épisode terminé au pas 3
tombé dans un trou H

État final:
  (Left)
SFFF
F[41mH[0mFH
FFFH
HFFG



In [60]:
# e

env = gym.make("FrozenLake-v1", render_mode="ansi")

num_episodes = 10
num_timesteps = 20

for episode in range(num_episodes):
    state, info = env.reset()
    total_reward = 0
    
    for t in range(num_timesteps):
        random_action = env.action_space.sample()
        next_state, reward, terminated, truncated, info = env.step(random_action)
        total_reward += reward
        done = terminated or truncated
        
        if done:
            break
    
    result = "Succès---" if total_reward > 0 else "Echec"
    print(f"Episode {episode+1}: Pas={t+1}, Reward total={total_reward}, {result}")

env.close()

Episode 1: Pas=14, Reward total=0, Echec
Episode 2: Pas=2, Reward total=0, Echec
Episode 3: Pas=10, Reward total=0, Echec
Episode 4: Pas=4, Reward total=0, Echec
Episode 5: Pas=4, Reward total=0, Echec
Episode 6: Pas=2, Reward total=0, Echec
Episode 7: Pas=9, Reward total=0, Echec
Episode 8: Pas=2, Reward total=0, Echec
Episode 9: Pas=8, Reward total=1, Succès---
Episode 10: Pas=8, Reward total=0, Echec


## 3. Le Cart-Pole

### 3.1. Création d'un environnement Gym pour Cart-Pole

In [64]:
# a
env = gym.make("CartPole-v1", render_mode="rgb_array")

In [67]:
# b - Espace d'état
print("Espace d'observation:", env.observation_space)
print("Type: Box (valeurs continues)")
print("\nValeurs maximales:", env.observation_space.high)
print("Valeurs minimales:", env.observation_space.low)

# L'état est composé de 4 valeurs:
# [position du chariot, vitesse du chariot, angle de la perche, vitesse angulaire de la perche]

# Réinitialiser et voir l'état initial
state, info = env.reset()
print("\nÉtat initial (aléatoire):")
print(f"  Position du chariot: {state[0]:.4f}")
print(f"  Vitesse du chariot: {state[1]:.4f}")
print(f"  Angle de la perche: {state[2]:.4f} rad")
print(f"  Vitesse angulaire: {state[3]:.4f}")

Espace d'observation: Box([-4.8               -inf -0.41887903        -inf], [4.8               inf 0.41887903        inf], (4,), float32)
Type: Box (valeurs continues)

Valeurs maximales: [4.8               inf 0.41887903        inf]
Valeurs minimales: [-4.8               -inf -0.41887903        -inf]

État initial (aléatoire):
  Position du chariot: 0.0087
  Vitesse du chariot: 0.0074
  Angle de la perche: 0.0126 rad
  Vitesse angulaire: 0.0297


In [70]:
# c
print("Espace d'actions:", env.action_space)
print("\nActions possibles:")
print("  0 = Pousser le chariot vers la gauche")
print("  1 = Pousser le chariot vers la droite")

Espace d'actions: Discrete(2)

Actions possibles:
  0 = Pousser le chariot vers la gauche
  1 = Pousser le chariot vers la droite


### 3.2. Équilibrage du Cart-Pole avec une politique aléatoire

In [None]:
# a & b
# L'agent reçoit +1 à chaque pas où la perche reste debout

env = gym.make('CartPole-v1')

num_episodes = 100
num_timesteps = 500 

for episode in range(num_episodes):
    state, info = env.reset()
    total_reward = 0.0
    
    for t in range(num_timesteps):
        random_action = env.action_space.sample()
        
        next_state, reward, terminated, truncated, info = env.step(random_action)
        total_reward += reward
        
        done = terminated or truncated
        if done:
            break
    
    if episode % 10 == 0:
        print(f"Episode: {episode}, Return: {total_reward}")

env.close()

Episode: 0, Return: 13.0
Episode: 10, Return: 14.0
Episode: 20, Return: 43.0
Episode: 30, Return: 19.0
Episode: 40, Return: 21.0
Episode: 50, Return: 13.0
Episode: 60, Return: 17.0
Episode: 70, Return: 14.0
Episode: 80, Return: 15.0
Episode: 90, Return: 29.0


## 4. Autres environnements Gym

### 4.1 Environnements de jeux Atari

Pour utiliser les environnements Atari, il faut installer les dépendances supplémentaires:
```bash
pip install gymnasium[atari] ale-py
pip install gymnasium[accept-rom-license]
```

In [74]:
all_envs = list(gym.envs.registry.keys())
print(f"Nombre total d'environnements disponibles: {len(all_envs)}")
print("\nQuelques exemples d'environnements:")
for env_name in all_envs[:20]:
    print(f"  - {env_name}")

Nombre total d'environnements disponibles: 63

Quelques exemples d'environnements:
  - CartPole-v0
  - CartPole-v1
  - MountainCar-v0
  - MountainCarContinuous-v0
  - Pendulum-v1
  - Acrobot-v1
  - phys2d/CartPole-v0
  - phys2d/CartPole-v1
  - phys2d/Pendulum-v0
  - LunarLander-v3
  - LunarLanderContinuous-v3
  - BipedalWalker-v3
  - BipedalWalkerHardcore-v3
  - CarRacing-v3
  - Blackjack-v1
  - FrozenLake-v1
  - FrozenLake8x8-v1
  - CliffWalking-v1
  - CliffWalkingSlippery-v1
  - Taxi-v3


In [1]:
# a : Tennis
import ale_py
import gymnasium as gym

gym.register_envs(ale_py)

env = gym.make("ALE/Tennis-v5", render_mode="rgb_array")

print("Espace d'observation (écran du jeu):")
print(f"  Shape: {env.observation_space.shape}")
print(f"  Type: {env.observation_space.dtype}")

print("\nEspace d'actions:")
print(f"  Nombre d'actions: {env.action_space.n}")

env.close()

Espace d'observation (écran du jeu):
  Shape: (210, 160, 3)
  Type: uint8

Espace d'actions:
  Nombre d'actions: 18


In [2]:
# b - Agent jouant au jeu Tennis avec politique aléatoire

gym.register_envs(ale_py)

env = gym.make("ALE/Tennis-v5", render_mode="rgb_array")

num_episodes = 100
num_timesteps = 50

for episode in range(num_episodes):
    state, info = env.reset()
    total_reward = 0.0
    
    for t in range(num_timesteps):
        random_action = env.action_space.sample()
        next_state, reward, terminated, truncated, info = env.step(random_action)
        total_reward += reward
        
        done = terminated or truncated
        if done:
            break
    
    if episode % 10 == 0:
        print(f"Episode: {episode}, Return: {total_reward}")

env.close()

Episode: 0, Return: -1.0
Episode: 10, Return: -1.0
Episode: 20, Return: -1.0
Episode: 30, Return: -1.0
Episode: 40, Return: 0.0
Episode: 50, Return: -1.0
Episode: 60, Return: -1.0
Episode: 70, Return: -1.0
Episode: 80, Return: 0.0
Episode: 90, Return: -1.0


In [4]:
# c

from gymnasium.wrappers import RecordVideo
import os

gym.register_envs(ale_py)

recording_dir = "./recording"
os.makedirs(recording_dir, exist_ok=True)

env = gym.make("ALE/Tennis-v5", render_mode="rgb_array")

env = RecordVideo(
    env, 
    video_folder=recording_dir,
    episode_trigger=lambda episode_id: episode_id % 10 == 0,  # Enregistrer tous les 10 épisodes
    name_prefix="tennis"
)

num_episodes = 5
num_timesteps = 500

for episode in range(num_episodes):
    state, info = env.reset()
    total_reward = 0.0
    
    for t in range(num_timesteps):
        random_action = env.action_space.sample()
        next_state, reward, terminated, truncated, info = env.step(random_action)
        total_reward += reward
        
        done = terminated or truncated
        if done:
            break
    
    print(f"Episode: {episode}, Return: {total_reward}")

env.close()
print(f"\nVidéos enregistrées dans: {recording_dir}")

Episode: 0, Return: -6.0
Episode: 1, Return: -8.0
Episode: 2, Return: -7.0
Episode: 3, Return: -7.0
Episode: 4, Return: -8.0

Vidéos enregistrées dans: ./recording


### 4.2 Autres Environnements

In [5]:
import gymnasium as gym

env = gym.make("MountainCar-v0", render_mode="rgb_array")
print("MountainCar:")
print(f"  Espace d'observation: {env.observation_space}")
print(f"  Espace d'actions: {env.action_space}")
env.close()

env = gym.make("Acrobot-v1", render_mode="rgb_array")
print("\nAcrobot:")
print(f"  Espace d'observation: {env.observation_space}")
print(f"  Espace d'actions: {env.action_space}")
env.close()

env = gym.make("Pendulum-v1", render_mode="rgb_array")
print("\nPendulum:")
print(f"  Espace d'observation: {env.observation_space}")
print(f"  Espace d'actions: {env.action_space}")
env.close()

MountainCar:
  Espace d'observation: Box([-1.2  -0.07], [0.6  0.07], (2,), float32)
  Espace d'actions: Discrete(3)

Acrobot:
  Espace d'observation: Box([ -1.        -1.        -1.        -1.       -12.566371 -28.274334], [ 1.        1.        1.        1.       12.566371 28.274334], (6,), float32)
  Espace d'actions: Discrete(3)

Pendulum:
  Espace d'observation: Box([-1. -1. -8.], [1. 1. 8.], (3,), float32)
  Espace d'actions: Box(-2.0, 2.0, (1,), float32)
