#### Impl√©menter Deep Q-Learning (DQN)

 DQN utilise un r√©seau de neurones pour approximer la Q-table, √©vitant ainsi de stocker toutes les valeurs possibles.

#### Imports

In [None]:
import torch
import torch.nn as nn
# Importation du module torch.nn de PyTorch, qui contient des classes et des fonctions pour construire des r√©seaux de neurones
import torch.optim as optim
import random
import numpy as np
import gym

#### üìå √âtape 1 : Construire l'environnement

In [8]:
env = gym.make("Taxi-v3")
state_dim = env.observation_space.n   # Nombre d'√©tats
action_dim = env.action_space.n       # Nombre d'actions

#### üìå √âtape 2 : Construire le R√©seau de Neurones

In [None]:
# D√©finition du r√©seau de neurones (DQN)
# D√©finition d'une classe DQN qui h√©rite de nn.Module : elle repr√©sente le r√©seau de neurones pour l'algorithme Deep Q-Learning
# 3 couches : une d‚Äôentr√©e (√©tat), deux cach√©es, et une de sortie (actions possibles)
class DQN(nn.Module):
    # constructeur de la classe DQN,  Il prend en entr√©e la dimension de l'√©tat et le nombre d'actions possibles.
    def __init__(self, input_dim, output_dim):
        super(DQN, self).__init__()
        self.fc1 = nn.Linear(input_dim, 128)  # Premi√®re couche cach√©e et enti√®rement connect√©e, input_dim en entr√©e et 128 neurones en sortie
        self.fc2 = nn.Linear(128, 128)        # Deuxi√®me couche cach√©e et enti√®rement connect√©e, 128 en entr√©e et 128 neurones en sortie
        self.fc3 = nn.Linear(128, output_dim) # Sortie = vecteur Q(s,a) avec une valeur pour chaque action / couche de sortie avec 128 neurones en entr√©e et output_dim neurones en sortie

    # D√©finition de la m√©thode forward qui sp√©cifie le passage avant (forward pass) du r√©seau de neurones
    # Elle prend en entr√©e x, qui est l'√©tat actuel
    def forward(self, x):
        x = torch.relu(self.fc1(x)) # On applique ReLU comme fonction d‚Äôactivation
        x = torch.relu(self.fc2(x))
        return self.fc3(x)
    
# Ce r√©seau de neurones est utilis√© dans l'algorithme Deep Q-Learning pour approximer la fonction de valeur d'action Q(s, a),
# qui est utilis√©e pour prendre des d√©cisions optimales dans un environnement donn√©

#### üìå √âtape 3 : Entra√Æner le mod√®le

In [10]:
# Conversion en vecteur one-hot pour l'entr√©e du r√©seau
def one_hot_encoding(state, state_dim):
    state_vec = np.zeros(state_dim)
    state_vec[state] = 1
    return state_vec

# Initialisation du mod√®le DQN et de l'optimiseur
model = DQN(state_dim, action_dim)
optimizer = optim.Adam(model.parameters(), lr=0.001)
loss_fn = nn.MSELoss()  # Erreur quadratique moyenne

# Param√®tres d'entra√Ænement
gamma = 0.95
epsilon = 1.0
min_epsilon = 0.05
decay_rate = 0.005
n_episodes = 2000 # 20000
batch_size = 32
replay_memory = []

# Param√®tres √† ajouter : learning_rate, buffer_size, batch_size

In [11]:
for episode in range(n_episodes):
    state, _ = env.reset()
    state_vec = torch.tensor(one_hot_encoding(state, state_dim), dtype=torch.float32)
    done = False

    while not done:
        # Exploration vs Exploitation
        if random.uniform(0, 1) < epsilon:
            action = env.action_space.sample()
        else:
            with torch.no_grad():
                q_values = model(state_vec)
                action = torch.argmax(q_values).item()

        # Effectuer l'action
        new_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated
        new_state_vec = torch.tensor(one_hot_encoding(new_state, state_dim), dtype=torch.float32)

        # Stocker l'exp√©rience dans le buffer
        replay_memory.append((state_vec, action, reward, new_state_vec, done))
        if len(replay_memory) > 10000:  # Limite du buffer
            replay_memory.pop(0)

        # √âchantillonner un mini-lot et entra√Æner le r√©seau
        if len(replay_memory) > batch_size:
            batch = random.sample(replay_memory, batch_size)
            states, actions, rewards, new_states, dones = zip(*batch)

            states = torch.stack(states)
            new_states = torch.stack(new_states)
            actions = torch.tensor(actions)
            rewards = torch.tensor(rewards, dtype=torch.float32)
            dones = torch.tensor(dones, dtype=torch.float32)

            q_values = model(states)
            next_q_values = model(new_states).detach()
            target_q_values = q_values.clone()

            for i in range(batch_size):
                target_q_values[i, actions[i]] = rewards[i] + (1 - dones[i]) * gamma * torch.max(next_q_values[i])

            loss = loss_fn(q_values, target_q_values)
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

        # Mise √† jour de l'√©tat
        state_vec = new_state_vec

    # Diminuer epsilon pour moins d'exploration
    epsilon = max(min_epsilon, epsilon * np.exp(-decay_rate * episode))

  if not isinstance(terminated, (bool, np.bool8)):


#### üìå √âtape 4 : √âvaluation

In [12]:
def evaluate_dqn(env, model, n_episodes=100):
    rewards = []
    for _ in range(n_episodes):
        state, _ = env.reset()
        state_vec = torch.tensor(one_hot_encoding(state, state_dim), dtype=torch.float32)
        total_reward = 0
        done = False

        while not done:
            with torch.no_grad():
                q_values = model(state_vec)
                action = torch.argmax(q_values).item()

            new_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated
            total_reward += reward
            state_vec = torch.tensor(one_hot_encoding(new_state, state_dim), dtype=torch.float32)

        rewards.append(total_reward)

    print(f"R√©compense moyenne : {np.mean(rewards)}")

evaluate_dqn(env, model)

R√©compense moyenne : -17.01
