# üöÄ Aula Aberta de DQN
> Ensinando um m√≥dulo a pousar na Lua com redes neurais!
>
> Voc√™ pode checar os slides da aula [aqui](../Deep%20Q-Networks%20(DQN).pdf)

## Importando as bibliotecas necess√°rias

In [None]:
# Necess√°rio no colab
!apt-get install -y xvfb x11-utils
!pip install pyvirtualdisplay PyOpenGL PyOpenGL-accelerate
import pyvirtualdisplay
pyvirtualdisplay.Display(visible=False, size=(1400, 900)).start()

In [None]:
!pip install torch # Necess√°rio para criar redes neurais
!pip install gym[box2d] # Necess√°rio para nossos ambientes

In [None]:
import gym
import math
from collections import deque
import numpy as np
import matplotlib.pyplot as plt

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F

## Replay Buffer

In [None]:
class ReplayBuffer:
    """Experience Replay Buffer para DQNs."""
    def __init__(self, max_length, observation_space):
        """Cria um Replay Buffer.

        Par√¢metros
        ----------
        max_length: int
            Tamanho m√°ximo do Replay Buffer.
        observation_space: int
            Tamanho do espa√ßo de observa√ß√£o.
        """
        # Crie os atributos self.index, self.size e os atribua o valor 0
        ...
        ...

        # Crie o atributo self.max_length que recebe o valor do par√¢metro 
        ...

        # Utilizando a fun√ß√£o np.zeros inicialize a mem√≥ria para cada vari√°vel com o formato indicado:
        # self.states - formato(max_length, observation_space), array de np.float32
        ...
        # self.actions - formato(max_length), array de np.int32
        ...
        # self.rewards - formato(max_lenght), array de np.float32
        ...
        # self.next_states - formato(max_lenght, observation_space), array de np.float32
        ...
        # self.dones - formato(max_length), array de np.int32
        ...
        
    def __len__(self):
        """Retorna o tamanho do buffer."""
        # Retorna o atributo self.size
        return ...
    
    def update(self, state, action, reward, next_state, done):
        """Adiciona uma experi√™ncia ao Replay Buffer.

        Par√¢metros
        ----------
        state: np.array
            Estado da transi√ß√£o.
        action: int
            A√ß√£o tomada.
        reward: float
            Recompensa recebida.
        state: np.array
            Estado seguinte.
        done: int
            Flag indicando se o epis√≥dio acabou.
        """

        # Para cada array de cada par√¢metro, adicione o par√¢metro ao array no √≠ndice self.index
        ...
        ...
        ...
        ...
        ...

        # Incrementa o √≠ndice e atualiza o tamanho
        self.index = (self.index + 1) % self.max_length
        if self.size < self.max_length:
            self.size += 1

    def sample(self, batch_size):
        """Retorna um batch de experi√™ncias.
        
        Par√¢metros
        ----------
        batch_size: int
            Tamanho do batch de experi√™ncias.
        Retorna
        -------
        states: np.array
            Batch de estados.
        actions: np.array
            Batch de a√ß√µes.
        rewards: np.array
            Batch de recompensas.
        next_states: np.array
            Batch de estados seguintes.
        dones: np.array
            Batch de flags indicando se o epis√≥dio acabou.
        """

        # Utilizando a fun√ß√£o np.random.randint(), atribua a vari√°vel idxs 
        # um array de tamanho batch_size, com n√∫meros aleat√≥rios entre 0 e self.size
        idxs = ...

        # Para cada elemento da observa√ß√£o, retorne um batch de elementos que est√£o nos
        # √≠ndices idxs de cada array de mem√≥ria
        return(...)

## Conhecendo nosso ambiente

In [None]:
env = gym.make("LunarLander-v2")

print(f"Formato das observa√ß√µes do nosso agente: {env.observation_space.shape} | Uma poss√≠vel observa√ß√£o: {env.observation_space.sample()}")
print(f"N√∫mero de poss√≠veis a√ß√µes: {env.action_space.n} | Uma poss√≠vel a√ß√£o: {env.action_space.sample()}")

env.close()

Como est√£o configuradas as recompensas:
  - Se a nave pousar ela recebe uma recompensa de $+100$
  - Cada perna que entra em contato com o solo o agente recebe $+10$
  - Acionar as engines faz com que ele receba uma penalidade de $-0.3$ por frame
  - O estado terminal ocorre quando ou o agente morre, recebendo uma penalidade de $-100$ ou quando acaba o tempo da simula√ß√£o, recebendo mais uma recompensa de $+100$ se estava pousado no alvo.

### Criando um agente aleat√≥rio
S√≥ para ver se est√° tudo funcionando corretamente

In [None]:
def random_env():

    env = gym.make("LunarLander-v2")

    state = env.reset()

    done = False

    while not done:

        action = env.action_space.sample()

        next_state, reward, done, _ = env.step(action)

        env.render()

        state = next_state

    env.close() 

In [None]:
random_env()

## Rede Neural

In [None]:
class LinearNetwork(nn.Module):
    """
    Cria uma rede neural para DQN
    """
    def __init__(self, in_dim, out_dim):
        """
        Inicializa a rede
        
        Par√¢metros
        ----------
        in_dim: int
        Dimens√£o de entrada da rede, ou seja, o shape do estado do ambiente
        
        out_dim: int
        N√∫mero de a√ß√µes do agente neste ambiente
        
        Retorna
        -------
        None
        """
        
        super(LinearNetwork, self).__init__()

        # Cire um atributo self.layers com nossa rede neural utilizando a fun√ß√£o nn.Sequential
        # A estrutura da rede deve ser:
        # Linear(in_dim, 128) -> ReLU() -> Linear(128,128) -> ReLU() -> Linear(128, out_dim)

        self.layers = ...
        ...
        ...
        ...
        ...
        ...

    def forward(self, x):
        return self.layers(x)

In [None]:
class DQNagent:
    """
    Uma classe que cria um agente DQN que utiliza ReplayBuffer como mem√≥ria
    """
    def __init__(self, 
                 observation_space, 
                 action_space, 
                 lr=3e-4, 
                 gamma=0.9, 
                 max_memory=10000,
                 epsilon_init=0.5,
                 epsilon_decay=0.995,
                 epsilon_min=0.01,
                 epochs=1):
      
        """
        Inicializa o agente com os par√¢metros dados
        
        Par√¢metros
        ----------
        
        observation_space: gym.spaces
        O espa√ßo de observa√ß√£o do gym
         
        action_space: gym.spaces
        O espa√ßo de a√ß√µes do agente modelado no gym
        
        lr: floar, default=3e-4
        A taxa de aprendizado do agente
        
        gamma: float, default=0.99
        O fator de desconto. Se perto de 1. as recompensas futuras ter√£o grande import√¢ncia,
        se perto de 0. as recompensas mais instant√¢neas ter√£o maior import√¢ncia
        
        max_memory: int, default=100000
        O n√∫mero m√°ximo de transi√ß√µes armazenadas no buffer de mem√≥ria
        
        epsilon_init: float, default=0.5
        O epsilon inicial do agente. Se pr√≥ximo de 1. o agente tomar√° muitas a√ß√µes
        aleat√≥rias, se pro√≥ximo de 0. o agente escolher√° as a√ß√µes com maior
        Q-valor
        
        epsilon_decay: float, default=0.9995
        A taxa de decaimento do epsilon do agente. A cada treinamento o agente tende
        a escolher meno a√ß√µes aleat√≥rias se epsilon_decay<1
        
        min_epsilon: float, default=0.01
        O menor epsilon poss√≠vel
        
        
        network: str, default='linear'
        O tipo de rede a ser utilizada para o agente DQN. Por padr√£o √© usada uma rede linear, mas
        pode ser usada uma rede convolucional se o par√¢metro for 'conv'
        
        Retorna
        -------
        None
        """

        # Inicialize o atributo de self.device com o m√©todo torch.device, se poss√≠vel utlize cuda,
        # caso contr√°rio utilize uma cpu
        ...
        # Inicialize o atributo self.gamma
        ...
        # Inicialize o atributo self.memory inicializando um objeto ReplayBuffer()
        ...
        # Inicialize o atributo self.action_space
        ...
        # Inicialize o atributo self.epoch
        ...

        # Inicialize os atributo self.epsilon, self.epsilon_decay e self.espilon_min
        ...
        ...
        ...

        # Inicialize o atributo de self.dqn com nosso objeto LinearNetwork(),
        # utilize tamb√©m o m√©todo .to(self.device)
        ...

        # Inicialize o atributo self.optimizer com o optimizador optim.Adam() que optimiza o
        # self.dqn.parameters() com um learning rate lr
        ...

    def act(self, state, greedy=False):
        """
        M√©todo para o agente escolher uma a√ß√£o
        
        Par√¢metros
        ----------
        
        state
        O estado do agente
        
        Retorna
        -------
        
        action
        A a√ß√£o escolhida pelo agente
        """

        # Utilize do algoritmo epsilon-greedy:
        # se um n√∫mero criado pela fun√ß√£o np.random.random() for menor
        # que nosso epsilon e greedy for Falso, execute uma a√ß√£o aleat√≥ria
        if ... :
            ...
        else:
            with torch.no_grad(): # Utilizamos no_grad j√° que n√£o iremos optimzar esses par√¢metros agora
                # Transforme o par√¢metro state em um torch.FloatTensor(), utilize o m√©todo .to(self.device)
                ...
                # Passe o state para nossa DQN pelo seu m√©todo forward e colete a a√ß√£o de maior valor com
                # o m√©todo .argmax(dim=-1)
                ...
                # Transforme a a√ß√£o em um valor numpy com os m√©todos a√ß√£o.cpu().numpy()
                ...
        
        return action

    def eps_decay(self):
        """
        M√©todo para aplicar o decaimento do epsilon
        """

        # Se self.epsilon for maior que o self.epsilon_min,
        # self.epsilon = self.epsilon * self.epsilon_decay
        ...
        ...
        
    def remember(self, state, action, reward, next_state, done):
        """
        M√©todo para armazenar uma sequ√™ncia estado, a√ß√£o, recompensa, pr√≥ximo estado e done
        no buffer de mem√≥ria
        """

        # utilizando o m√©todo .update do nosso ReplaBuffer, passe os par√¢metros √† nossa mem√≥ria
        ...
    
    def train(self, batch_size, save_file = False):
        """ 
        M√©todo para treinar o agente
        """

        # se batch_size * 10 for menor que o tamanho de nossa mem√≥ria, a a gente n√£o deve treinar
        ...
        ...

        for epoch in range(self.epochs):
            # Colete um batch de experi√™ncias com o m√©todo .sample da nossa mem√≥ria
            ... 

            # Transforme cada atributo da nossa mem√≥ria em um tensor, para as actions,
            # rewards, e dones utilize o m√©todo .unsqueeze(-1) para coloc√°-los no formato certo
            ...
            ...
            ...
            ...
            ...

            # Para obter nossos Q valores passe os states para nossa DQN pelo m√©todo .forward(),
            # Utilize tamb√©m o m√©todo .gather(-1, actions.long()) ap√≥s o forward para obter os q valores
            ...

            with torch.no_grad():  # Utilizamos o no_grad pois esse q vamos usar para a loss, n√£o precisa dos gradientes
                # Obtenha o Q2 passando os next_states para nossa DQN pelo m√©todo .forward(),
                # utilize depois o m√©todo .max(dim=-1, keepdim=True)[0]
                ...

                # Calcule o target com a f√≥rmula (rewards + (1 - dones) * self.gamma * q2)
                ...

            # Calcule a loss
            ...
            # Realize as etapas de optimiza√ß√£o
            ...
            ...
            ...

        if save:
            self.save_model()

    def save_model(self, model_file):
        torch.save(self.dqn.state_dict(), model_file)
        print(f"\n Model saved: {model_file}")

    def load_model(self, model_file):
        self.dqn.load_state_dict(torch.load(model_file))
        print(f"Model loaded: {model_file}")

### O que o m√©todo unsqueeze() faz?
Basicamente ele insere uma dimens√£o de valor um em alguma dimens√£o especificada de um tensor, exemplos:

In [None]:
a = torch.as_tensor([[1,2,3],[4,5,6]])
print(f"Tensor sem unsqueeze: \n{a}\n"
      f"Formato do tensor sem unsqueeze {a.shape}")

In [None]:
b = a.unsqueeze(-1)
print(f"Tensor com unsqueeze: \n{b}\n"
      f"Formato do tensor com unsqueeze {b.shape}")

### O que o m√©todo gather() faz?
Basicamente ele criar um tensor novo pegando os valores de um tensor (no nosso caso actions.long()) e os utilizando como √≠ndices para pegar valores do tensor de origem (sa√≠da de nossa rede neural). o par√¢metro dim √© utilziado para indicar por qual dimens√£o do tensor de √≠ndice deve ser percorrido.

![img](https://i.stack.imgur.com/nudGq.png)

## Treinamento

In [None]:
def train(agent, env, timesteps, batch_size, render=False):
    total_reward = 0
    episode_returns = deque(maxlen=20)
    avg_returns = []
    episode = 0
    state = env.reset()

    for timestep in range(1, timesteps + 1):
        action = agent.act(state)

        # Tomar a a√ß√£o escolhida
        next_state, reward, done, info = env.step(action)

        # Guardar as informa√ß√µes geradas pela a√ß√£o
        agent.remember(state, action, reward, next_state, done)

        # Treinar a rede com base no ReplayBuffer
        agent.train(batch_size, False)

        # Soma as recompensas
        total_reward += reward

        if done:
            episode_returns.append(total_reward)
            episode += 1
            next_state = env.reset()

        agent.eps_decay()

        if episode_returns:
            avg_returns.append(np.mean(episode_returns))

        total_reward *= 1 - done
        ratio = math.ceil(100 * timestep / timesteps)
        avg_return = avg_returns[-1] if avg_returns else np.nan

        # Atualiza o estado
        state = next_state

        if render:
            # Mostra o ambiente
            env.render()

        print(
            f"\r[{ratio:3d}%]",
            f"timestep = {timestep}/{timesteps}",
            f"episode = {episode:3d}",
            f"avg_return = {avg_return:10.4f}",
            f"eps = {agent.epsilon:.4f}",
            sep=", ",
            end="")

    env.close()
    return avg_returns

## Treinando o agente

In [None]:
BATCH_SIZE = 256
GAMMA = 0.99
EPS_INIT = 1
EPS_END = 0.001
EPS_DECAY = 0.99995
MAX_MEMORY = 1_000_000
TIMESTEPS = 150_000
EPOCHS = 1

env_name = 'LunarLander-v2'
env = gym.make(env_name)
OBS_SPACE = env.observation_space
ACT_SPACE = env.action_space

print("\nTraining DQN")
dqn_net = DQNagent(observation_space=OBS_SPACE,
                    action_space=ACT_SPACE,
                    lr=3e-4,
                    gamma=GAMMA,
                    max_memory=MAX_MEMORY,
                    epsilon_init=EPS_INIT,
                    epsilon_decay=EPS_DECAY,
                    epsilon_min=EPS_END,
                    epochs=EPOCHS)


results_dqn = train(dqn_net, env, TIMESTEPS, BATCH_SIZE, render=False)

## Checando os resultados

In [None]:
# Plota os resultados
plt.figure(figsize=(8,6))
plt.plot(results_dqn)
plt.title('DQN - m√©dia m√≥vel do retorno nos √∫timos 20 epis√≥dios')
plt.xlabel('timestep')
plt.ylabel('retorno')
plt.grid()
plt.show()

In [None]:
from IPython import display
import base64

def test(agent, env, episodes):
    # O Monitor salva v√≠deos dos epis√≥dios na pasta "monitor_dir"
    monitor_dir = 'monitor' + str(np.random.random())[2:]
    env = gym.wrappers.Monitor(env, monitor_dir, video_callable=lambda ep: True)
        
    for episode in range(episodes):
        done = False
        state = env.reset()
        total_reward = 0

        while not done:
            action = agent.act(state, greedy=True)
            state, reward, done, _ = env.step(action)
            total_reward += reward
            print(f"\r{total_reward: 7.3f}", end="")

        print()
    env.close()
    
    for video_file, stats_file in env.videos:
        with open(video_file, 'rb') as f:
            data_url = "data:video/mp4;base64," + base64.b64encode(f.read()).decode()
        display.display(display.HTML(f'<video controls><source src="{data_url}" type="video/mp4"></video>'))

In [None]:
env_name = 'LunarLander-v2'
env = gym.make(env_name)
test(dqn_net, env, 5)