Imports

In [17]:
import numpy as np
import gymnasium as gym
import tensorflow as tf
from keras.callbacks import ReduceLROnPlateau, EarlyStopping, ModelCheckpoint, TensorBoard
from keras.models import Sequential
from keras.layers import Dense
import random
from collections import deque

In [18]:
# Variables
env_name = 'LunarLander-v3' # Nom de l'environnement
epsilon = 1.0 # Valeur initiale d'epsilon (exploration)
epsilon_min = 0.01 # Valeur minimale d'epsilon
epsilon_decay = 0.99 # Facteur de décroissance d'epsilon
gamma = 0.99 # Eviter que ça mange comme un doberman (Entraienment sur le long terme)
batch_size = 32 # Taille de l'entraienement (données mémoire)
memory_size = 1000000 # Taille de la mémoire 
episodes = 500 # Nombre d'épisodes d'entraînement (itérations)

In [19]:
# Environnement
env = gym.make(env_name) # Initialisation de l'environnement (LunarLander-v3)
state_shape = env.observation_space.shape[0] # Récupération de l'état de l'environnement
action_shape = env.action_space.n # Récupération de l'action de l'environnement

state_shape, action_shape

(8, np.int64(4))

In [30]:
# Callbacks 
callbacks = [
    #ReduceLROnPlateau(monitor='val_loss', factor=0.2, patience=5, min_lr=1e-6),
    #EarlyStopping(monitor='loss_value', patience=10, restore_best_weights=True),
    TensorBoard(log_dir='./logs', histogram_freq=1, write_graph=True),
    #ModelCheckpoint(filepath='modelLunar.keras', save_best_only=True),
]

In [21]:
# Création du modèle

def create_q_model(): 
    model = Sequential(
        [
            Dense(64, input_shape=(state_shape,)),
            Dense(64),
            Dense(action_shape, activation='linear')
        ]
    )
    model.compile(optimizer="adam", loss="mse")
    return model

In [22]:
# Initialisation des modèles

q_model = create_q_model() # Création du modèle
target_model = create_q_model() # Création du modèle cible
target_model.set_weights(q_model.get_weights()) # Initialisation du modèle cible avec les poids du modèle principal

In [23]:
# Initialisation de la mémoire

memory = deque(maxlen=memory_size)

In [24]:
# Fonction de stockage de la mémoire

def store_transition(state, action, reward, next_state, terminated):
    memory.append((state, action, reward, next_state, terminated))

In [25]:
# Echantillonnage du batch

def sample_batch(): 
    batch = random.sample(memory, batch_size) # Echantillonnage aléatoire du batch
    state, action, reward, next_state, terminated = map(np.asarray, zip(*batch))
    return np.array(state), np.array(action), np.array(reward), np.array(next_state), np.array(terminated)

In [26]:
# Epsilon-greedy policy

def epsilon_greedy_policy(state, epsilon):
    if np.random.random() < epsilon: # Exploration (Si le nombre aléatoire est inférieur à epsilon, on choisi une action aléatoire)
        return np.random.choice(action_shape)
    else: # Si non, on utilise le modèle pour prédire l'action
        q_values =  q_model.predict(state[np.newaxis], verbose=0) 
        return np.argmax(q_values[0]) 

In [27]:
# Entrainement

def train_step():
    if len(memory) < batch_size: # Si la mémoire est inférieure à la taille du batch, on ne fait rien
        return
    
    state, action, reward, next_state, terminated = sample_batch() # Echantillonnage du batch
    
    next_q_values = target_model.predict(next_state, verbose=0) # Prédiction des valeurs Q de l'état suivant
    max_next_q_values = np.max(next_q_values, axis=1) # Récupération de la valeur maximale des valeurs Q de l'état suivant

    target_q_values = q_model.predict(state, verbose=0) # Prédiction des valeurs Q de l'état actuel

    for i, act in enumerate(action):
        target_q_values[i][act] = reward[i] if terminated[i] else reward[i] + gamma * max_next_q_values[i]

    q_model.fit(state, target_q_values, epochs=1, verbose=0, callbacks=callbacks) # Entraînement du modèle sur l'état actuel et les valeurs Q cibles

In [28]:
reward_history = [] # Historique des récompenses

In [None]:
# Itération des entrainements

for episode in range(episodes):
    state, _ = env.reset()
    total_reward = 0
    terminated = False
    
    while not terminated:
        action = epsilon_greedy_policy(state, epsilon) # Sélection de l'action avec la politique epsilon-greedy
        next_state, reward, terminated, truncated, _ = env.step(action) # Modifier l'environnement avec l'action
        terminated = terminated or truncated # Vérification de la terminaison de l'épisode
        store_transition(state, action, reward, next_state, terminated) # Stockage de la transition dans la mémoire
        total_reward += reward # Ajout de la récompense totale

        state = next_state # Mise à jour de l'état
        train_step() # Entraînement du modèle

    epsilon = max(epsilon_min, epsilon * epsilon_decay) # Décroissance d'epsilon (réduction de l'exploration)

    if episode % 10 == 0:
        target_model.set_weights(q_model.get_weights()) # Mise à jour du modèle cible avec les poids du modèle principal
    
    reward_history.append(total_reward) # Ajout de la récompense totale à l'historique des récompenses
    print(f"Episode {episode + 1}/{episodes}, Total Reward: {total_reward}, Epsilon: {epsilon:.4f}")

Episode 1/500, Total Reward: -107.86061669878193, Epsilon: 0.9900
Episode 2/500, Total Reward: -460.4826624378263, Epsilon: 0.9801
Episode 3/500, Total Reward: -276.5252598458003, Epsilon: 0.9703
Episode 4/500, Total Reward: -96.30748873987928, Epsilon: 0.9606
Episode 5/500, Total Reward: -128.06239282383603, Epsilon: 0.9510
Episode 6/500, Total Reward: -145.98853284075153, Epsilon: 0.9415
Episode 7/500, Total Reward: -201.98847562546302, Epsilon: 0.9321
Episode 8/500, Total Reward: -90.33368952506099, Epsilon: 0.9227
Episode 9/500, Total Reward: -478.32259998377856, Epsilon: 0.9135


In [None]:
# Enregistrement du modèle
q_model.save("./models/LunarLander_model.keras")