On commence par importer les librairies nécessaires :

In [1]:
import numpy as np
import gym
import torch
import random
from poutyne import Model

On s'assure de fixer tous les générateurs de nombres aléatoires pour avoir une reproductibilité de nos expériences.

In [2]:
def set_random_seed(environment, seed):
    environment.seed(seed)
    environment.action_space.seed(seed)
    environment.observation_space.seed(seed)
    np.random.seed(seed)
    torch.manual_seed(seed)
    random.seed(seed)


environment = gym.make("CartPole-v1")
set_random_seed(environment, seed=42)

On implémente notre fonction de représentation des paires (état, action) qui joue sur la symmétrie de l'environnement.

In [3]:
def phi(state, action):
    """
    Returns state if the action is 1, -state if not.
    """
    return state if action == 1 else -state


# Example call
state = environment.reset()
action = 0
phi(state, action)

array([ 0.01258566,  0.00156614, -0.04207708,  0.00180545])

On utilise notre fonction phi précédente pour calculer les Q-values d'un état s selon une liste d'actions et un approximateur linéaire thêta:

In [4]:
def linear_fa(theta, state, actions):
    """
    Takes as input a linear FA theta and a state vector.

    theta and state both are (4,) numpy arrays.
    
    Actions is a list of integers representing the available discrete actions (e.g. [0, 1, 2, 3]).

    Returns the estimated q-values of each (s,a) pair according to the dot-product <theta, phi(s,a)>.

    The return is a (2,) numpy array.
    """
    # On commence par chercher tous les phis
    phis = np.array([phi(state, action) for action in actions])

    # On calcule le produit vectoriel <theta, phi>
    action_vals = phis.dot(theta)

    return action_vals


# Example call
theta = np.random.normal(size=environment.observation_space.shape)
state = environment.reset()
actions = list(range(environment.action_space.n))
linear_fa(theta, state, actions)

array([ 0.04139742, -0.04139742])

Pour effectuer la mise à jour des poids thêta, on doit calculer les cibles pour notre réseau selon la formule du one-step SARSA:

In [5]:
def get_targets(next_q_vals, rewards, terminal, gamma):
    """
    Returns Q-learning targets according to the 1-step SARSA lookahead formula.
    i.e. target_t = r_t + gamma * max(Q(s_t+1))

    If s_t was already terminal, then we only have target_t = r_t.

    next_q_vals is a (batch_size, 2) numpy array representing the Q(s_t+1) values
    rewards is a (batch_size,) numpy array representing the r_t values
    terminal is a (batch_size,) boolean numpy array representing if s_t+1 was terminal
    gamma is a float between 0 and 1

    Returns a (batch_size,) numpy array containing the one-step lookahead targets.

    N.B. Most of the code here can be reused in your TP2.
    """
    next_actions_vals_selected = np.max(next_q_vals, axis=1)
    
    targets = rewards + gamma * next_actions_vals_selected * (1 - terminal)
    
    return targets


# Example call
batch_size = 4
next_q_vals = np.random.normal(size=(batch_size,2))
rewards = np.random.normal(size=(batch_size,))
terminal = np.random.randint(low=0, high=1, size=(batch_size,)).astype(bool)
gamma = 0.99
get_targets(next_q_vals, rewards, terminal, gamma)

array([ 0.01016668, -0.34985956, -1.18778339, -1.02107105])

Implémentez maintenant la règle de mise à jour des poids thêta que vous avez trouvée à la question 1 : 

In [6]:
def update_theta(theta, states, actions_taken, targets, q_vals, lr):
    """
    Updates theta according to the gradient descent on the MSE error between target and 
    predicted q_vals. The update is made according to the analytic update you found in question 1.

    theta is a (4,) numpy array representing the linear FA.
    states is a (batch_size, 4) numpy array representing the s_t used in the batch
    actions_taken is a (batch_size,) numpy array representing the a_t actions in the batch
    targets is a (batch_size,) numpy array representing the one-step lookahead targets target_t
    q_vals is a (batch_size, 1) numpy array representing the q(s_t,a) values for each time step
    lr is the learning rate hyperparameter.

    Updates theta in-place.
    """
    predicted = np.take(q_vals, actions_taken)
    diff = targets - predicted
    
    diff = diff[:, np.newaxis]
    
    phis = np.array([phi(state, action) for state, action in zip(states, actions_taken)])
    
    grad = -2 * (diff * phis).sum(0)
    grad /= len(states)
               
    theta -= lr * grad


# Example call for batch_size = 4
batch_size = 4
n_actions = environment.action_space.n
theta = np.random.normal(size=environment.observation_space.shape)
states = np.array([environment.reset() for _ in range(batch_size)])
actions_taken = np.random.randint(low=0, high=n_actions, size=(batch_size,))
targets = np.random.normal(size=(batch_size,))
q_vals = np.random.normal(size=(batch_size, n_actions))
lr = 1.0

print(f"Theta before update : {theta}")
update_theta(theta, states, actions_taken, targets, q_vals, lr)
print(f"Theta after update : {theta}")


Theta before update : [-1.01283112  0.31424733 -0.90802408 -1.4123037 ]
Theta after update : [-0.97083916  0.28462365 -0.88133645 -1.41826024]


On va générer nos trajectoires avec une politique epsilon-greedy:

In [7]:
def epsilon_greedy_policy(q_vals, action_space, epsilon):
    """
    Selects an action according to an epsilon-greedy policy.

    q_vals is a (2,) numpy array where q_val[i] represents the estimated q_value for action i.
    
    action_space is the ActionSpace object from an OpenAI gym environment.
    One can randomly from an action_space via action_space.sample().

    epsilon (between 0 and 1) represents the odd of selecting the action randomly.
    If the action is not selected randomly, it is selected as the argmax of the q_vals.

    Returns an integer action.
    """
    if np.random.rand() < epsilon:
        return action_space.sample()
    else:
        return np.argmax(q_vals)


# Example call
q_vals = np.random.normal(size=(2,))
action_space = environment.action_space
epsilon = 0.5
epsilon_greedy_policy(q_vals, action_space, epsilon)

1

Finalement, comme on est off-policy quand on fait du Q-learning, on fait appel à un replay buffer qui entrepose un nombre fixe de transitions vues et à partir desquelles on va s'entraîner:

In [8]:
class ReplayBuffer:
    """
    Replay buffer object that stores elements up until a certain maximum size.

    N.B. Most of the code here can be reused in your TP2.
    """

    def __init__(self, buffer_size):
        """
        Init the buffer and store buffer_size property.
        """
        self.__buffer_size__ = buffer_size
        self.data = []

    def store(self, element):
        """
        Stores an element.

        If the buffer is already full, pop the oldest element inside.
        """
        self.data.append(element)
        
        if len(self.data) > self.__buffer_size__:
            del self.data[0]

    def get_batch(self, batch_size):
        """
        Randomly samples batch_size elements from the buffer.

        Returns the list of sampled elements.
        """
        return random.sample(self.data, batch_size)


On a maintenant toutes les pièces pour apprendre une FA linéaire pour l'environnement CartPole-v1.

Dans votre implémentation, initialisez thêta selon une loi normale N(0,1).
Mettez à niveau epsilon en le mutipliant par epsilon_decay après chaque trajectoire.
Utilisez les valeurs par défaut fournies pour les autres paramètres.

Lors de la génération de la trajectoire, entreposez un tuple représentant l'état courant, l'action choisie,la récompense, le prochain état et si la trajectoire est terminée après cette action dans votre replay buffer.

Lorsque votre replay buffer contient au moins batch_size éléments, faites une mise à jour des poids theta à chaque pas de temps dans l'environnement.

In [None]:
def batch_linear_q(
    gamma=0.99,
    n_trajectories=300,
    batch_size=32,
    lr=1e-3,
    buffer_size=50000,
    seed=42,
    epsilon_decay=0.98,
    epsilon_min=0.01,
):
    environment = gym.make("CartPole-v1")
    set_random_seed(environment, seed)

    # Theta init selon une loi normale
    theta = np.random.normal(size=environment.observation_space.shape)
    actions = list(range(environment.action_space.n))

    replay_buffer = ReplayBuffer(buffer_size)
    epsilon = 1.0
    for n_trajectories in range(n_trajectories):        
        trajectory_done = False
        
        s= environment.reset()
        G = 0
        
        while not trajectory_done:
            q_vals = linear_fa(theta, s, actions)
            
            a = epsilon_greedy_policy(q_vals, environment.action_space, epsilon)
            next_s, r, trajectory_done, _ = environment.step(a)
            
            G += r
            
            replay_buffer.store((s, a, r, next_s, trajectory_done))
            
            s = next_s
            
            if len(replay_buffer.data) > batch_size:
                minibatch = replay_buffer.get_batch(batch_size)
                
                states = np.array([x[0] for x in minibatch])
                actions_taken = np.array([x[1] for x in minibatch])
                rewards = np.array([x[2] for x in minibatch])
                next_states = np.array([x[3] for x in minibatch])
                dones = np.array([x[4] for x in minibatch])
                
                next_q_vals_predicted = np.array([linear_fa(theta, s, actions) for s in next_states])
                targets = get_targets(next_q_vals_predicted, rewards, dones, gamma)
                
                q_vals_predicted = np.array([linear_fa(theta, s, actions) for s in states])
                
                update_theta(theta, states, actions_taken, targets, q_vals_predicted, lr)
                

        epsilon = max(epsilon * epsilon_decay, epsilon_min)
        
        if (n_trajectories+1) % 10 == 0:
            print(f"After {n_trajectories+1} trajectoires, we have G_0 = {G:.2f}, {epsilon:4f}")
            
    return theta

batch_linear_q(n_trajectories = 1000)

After 10 trajectoires, we have G_0 = 38.00, 0.817073
After 20 trajectoires, we have G_0 = 20.00, 0.667608
After 30 trajectoires, we have G_0 = 35.00, 0.545484
After 40 trajectoires, we have G_0 = 187.00, 0.445700
After 50 trajectoires, we have G_0 = 102.00, 0.364170
After 60 trajectoires, we have G_0 = 79.00, 0.297553
After 70 trajectoires, we have G_0 = 171.00, 0.243123
After 80 trajectoires, we have G_0 = 105.00, 0.198649
After 90 trajectoires, we have G_0 = 122.00, 0.162311
After 100 trajectoires, we have G_0 = 140.00, 0.132620
After 110 trajectoires, we have G_0 = 159.00, 0.108360
After 120 trajectoires, we have G_0 = 194.00, 0.088538
After 130 trajectoires, we have G_0 = 129.00, 0.072342
After 140 trajectoires, we have G_0 = 140.00, 0.059109
After 150 trajectoires, we have G_0 = 147.00, 0.048296
After 160 trajectoires, we have G_0 = 154.00, 0.039461
After 170 trajectoires, we have G_0 = 148.00, 0.032243
After 180 trajectoires, we have G_0 = 200.00, 0.026345
After 190 trajectoires,

In [None]:
def run_fa(theta):
    environment = gym.make("CartPole-v1")
    set_random_seed(environment, seed=42)
    
    env = gym.wrappers.Monitor(environment, "demo", force=True)
    
    done = False
    s = environment.reset()
    while not done:
        env.render()
        q_vals = linear_fa(theta, s, actions)
        action = np.argmax(q_vals)
        next_s, r, done, _ = environment.step(action)
        
        s = next_s
    env.close()
run_fa(theta)

In [None]:
run_fa(theta)

Regardons maintenant comment on peut apprendre une approximation pour la Q-function avec des réseaux de neurones !

On commmence par se créer une réseau de neurones. Pour les besoins du cours,
on vous fournit une implémentation simple qui utilise la librairie de réseaux de neurones [Pytorch](https://pytorch.org).

In [None]:
class NNModel(torch.nn.Module):
    def __init__(self, in_dim, out_dim, n_hidden_layers=1, hidden_dim=16):
        """
        Builds a PyTorch Neural Network with n_hidden_layers, all of hidden_dim neurons.

        The activation function is always ReLU for intermediate layers and the final 
        layer does not have any activation function.

        By default, this NN only has one hidden layer of 16 neurons.
        """
        super().__init__()
        layers = []
        layers = [torch.nn.Linear(in_dim, hidden_dim), torch.nn.ReLU()]
        for _ in range(n_hidden_layers - 1):
            layers.extend([torch.nn.Linear(hidden_dim, hidden_dim), torch.nn.ReLU()])
        layers.append(torch.nn.Linear(hidden_dim, out_dim))

        self.fa = torch.nn.Sequential(*layers)

    def forward(self, x):
        """
        This is the function that is called when we want to get the output f(x)
        for our NN f.
        """
        return self.fa(x)

Notez ici que l'on change quelque peu la formulation de notre approximation de fonction.

Notre réseau de neurones prend maintenant en entrée un état (sans représentation de fonction) et retourne un vecteur représentant la Q-value estimée pour chaque action.


On utilisera aussi la libraire [Poutyne](https://poutyne.org/), qui est essentiellement un wrapper autour de PyTorch, permettant de s'éviter d'avoir à réécrire toujours la même poutine de code PyTorch. 

Voici quelques exemples des commandes à connaître par rapport à Poutyne:

In [None]:
# Au coeur de Poutyne se trouve le principe de modèle, qui correspond à un réseau de 
# neurones, accompagné de son optimiseur et de sa fonction de perte.

# On crée notre réseau de neurones
network = NNModel(environment.observation_space.shape[0], environment.action_space.n)

# Notre optimiseur: on choisit Adam par défaut, que l'on initialise pour optimiser
# les poids de notre réseau avec un learning rate de 1e-1.
optim = torch.optim.Adam(network.parameters(), lr=1e-1)

# Pour notre fonction de perte, Poutyne supporte de prendre en entrée des string 
# représentant des pertes habituelles, comme par "mse" pour la Mean Squared Error.
model_mse = Model(network, optim, loss_function="mse")

# On va chercher une première observation pour tester notre modèle.
x = environment.reset()

# On doit mettre l'observation en float32 car les paramètres d'un réseau PyTorch sont de ce type
# par défaut.
x = x.astype(np.float32)

# On peut obtenir les valeurs prédites par notre réseau sur notre état initial en appelant predict()
print(f"Q-valeurs pour l'état initial : {model_mse.predict(x)}")

# Pour l'entraînement, il faut maintenant passer des entrées x et des cibles y.
# Pour les besoins de l'exemple, prenons comme cible un vecteur de 1.
y = np.ones((2,))

# Il est important de mettre aussi la cible en float32 pour les besoins de PyTorch
y = y.astype(np.float32)
print(f"On utilisera la cible {y}")

# On appelle la fonction train_on_batch qui fait la mise à jour des poids du réseau
# selon la batch (x, y) passée en paramètre.
# La fonction train_on_batch() retourne la perte observée sur le batch passée en paramètre
loss = model_mse.train_on_batch(x, y)
print(f"La perte pour la première batch est {loss}")

# On peut voir que le réseau a été mis à jour en redemandant à notre réseau de prédire x
# Le réseau se rapproche ainsi de la cible y
print(f"Q-valeurs pour l'état initial après la mise à jour : {model_mse.predict(x)}")

On a maintenant toutes les pièces pour apprendre une FA neuronale pour l'environnement CartPole-v1.

Dans votre implémentation, mettez à niveau epsilon en le mutipliant par epsilon_decay après chaque trajectoire.
Utilisez les valeurs par défaut fournies pour les autres paramètres.

Lors de la génération de la trajectoire, entreposez un tuple représentant l'état courant, l'action choisie,la récompense, le prochain état et si la trajectoire est terminée après cette action dans votre replay buffer.

Lorsque votre replay buffer contient au moins batch_size éléments, faites une mise à jour des poids theta à chaque pas de temps dans l'environnement.

In [None]:
def dqn_loss(y_pred, y_target):
    """
    Input :
        - y_pred, (batch_size, n_actions) Tensor outputted by the network
        - y_target = (actions, Q_target), where actions and targets both
                      are Tensors with the shape (batch_size, ). 
                      Actions are the selected actions according to the target network
                      and targets are the one-step lookahead targets.

    Returns :
        - The DQN loss (same as for the linear case).

    N.B. Most of the code here can be reused in your TP2.
    """
    # C'est essentiellement le même travail que ce qui est fait dans update_theta
    # sauf (1) qu'on le fait en PyTorch et les fonctions n'ont pas le même nom
    # et (2) on ne calcule pas le gradient nous-mêmes, on fait juste donner la perte.
    # C'est PyTorch qui fait la descente de gradient pour nous.
    actions, q_target = y_target
    
    print(actions)
    print(q_target)
    
    q_predicted = y_pred.gather(1, actions.unsqueeze(-1)).squeeze()
    
    return torch.nn.functional.mse_loss(q_predicted, q_target)


def deep_q_learning(
    gamma=0.99,
    n_trajectories=300,
    batch_size=128,
    lr=1e-3,
    buffer_size=50000,
    seed=42,
    epsilon_decay=0.98,
    epsilon_min=0.01,
):
    environment = gym.make("CartPole-v1")
    set_random_seed(environment, seed)

    # On crée le réseau de neurones
    model = NNModel(environment.observation_space.shape[0], environment.action_space.n)

    # On utilise la librairie Poutyne en lui passant notre réseau.
    # Notez que l'on précise aussi un optimiseur (Adam) pour les paramètres de notre
    # réseau, pour lequel on définit le learning_rate à 1e-3 ici.
    # On fournit aussi la fonction de perte dqn_loss au modèle Poutyne pour lui dire
    # comment son apprentissage doit se faire.
    agent = Model(
        model, torch.optim.Adam(model.parameters(), lr=lr), loss_function=dqn_loss
    )

    replay_buffer = ReplayBuffer(buffer_size)
    epsilon = 1.0

    for n_trajectories in range(n_trajectories):
        trajectory_done = False
        
        s = environment.reset().astype(np.float32)
        G = 0
        
        while not trajectory_done:
            q_vals = agent.predict(s)
            
            a = epsilon_greedy_policy(q_vals, environment.action_space, epsilon)
            next_s, r, trajectory_done, _ = environment.step(a)
            next_s = next_s.astype(np.float32)
            
            G += r
            replay_buffer.store((s, a, r, next_s, trajectory_done))
            s = next_s
            
            if len(replay_buffer.data) > batch_size:
                minibatch = replay_buffer.get_batch(batch_size)
                
                states = np.array([x[0] for x in minibatch])
                actions_taken = np.array([x[1] for x in minibatch])
                rewards = np.array([x[2] for x in minibatch])
                next_states = np.array([x[3] for x in minibatch])
                dones = np.array([x[4] for x in minibatch])
                
                next_q_vals_predicted = agent.predict(next_states)
                targets = get_targets(next_q_vals_predicted, rewards, dones, gamma).astype(np.float32)
                
                agent.train_on_batch(states, (actions_taken, targets))
        
        
        epsilon = max(epsilon * epsilon_decay, epsilon_min)
        
        if (n_trajectories+1) % 10 == 0:
            print(f"After {n_trajectories+1} trajectoires, we have G_0 = {G:.2f}, {epsilon:4f}")
    return agent

agent = deep_q_learning()

In [None]:
def run_dqn(agent):
    environment = gym.make("CartPole-v1")
    set_random_seed(environment, seed=42)
    
    env = gym.wrappers.Monitor(environment, "demo", force=True)
    
    done = False
    s = environment.reset().astype(np.float32)
    while not done:
        env.render()
        q_vals = agent.predict(s)
        action = np.argmax(q_vals)
        next_s, r, done, _ = environment.step(action)
        
        s = next_s.astype(np.float32)
    env.close()
run_dqn(agent)