<h3>1. Reinforcement Learning - RL</h3>


O aprendizado por reforço (RL - Reinforcement Learning) é um campo de Inteligência Artificial que tenta, através do recebimento de recompensas, ensinar um agente inteligente a decidir ações adequadas para uma determinada situação vivenciada. De maneira intuitiva, o processo é semelhante ao adestramento de um cachorro que aprende a realizar algumas tarefas a partir do recebimento de biscoitos.

<h4>1.1. Equação de Bellman</h4>

Para compreender o aprendizado do crítico, voltaremos à definição da variável $Q(s,a)$. Repare que utilizando as propriedades de um somatório, podemos escrever o retorno como:

$$ R_t = r_t + \sum_{k=t+1}^{T} r_k \\
   R_t = r_t + R_{t+1}
 $$

Nos próximos passos, não entraremos na matemática da dedução por acreditar que o seu entendimento demanda um pouco mais de tempo, mas deixamos uma [referência](https://lilianweng.github.io/lil-log/2018/02/19/a-long-peek-into-reinforcement-learning.html) que faz essa dedução completa.

Para nós, o importante é compreendermos a noção de que o retorno presente pode ser decomposto na recompensa atual adicionada ao retorno do próximo evento e que isso pode ser estendido para o valor do estado-ação, por ser uma variável em função do retorno. 

$$ Q(s,a) = r_t + Q(s',a') $$

em que $s'$ é o estado futuro (no evento $t+1$) e $a'$ é a ação tomada no evento $t+1$. Entretanto, em um cenário em que tanto a transição de estados, quanto a tomada de decisão não são conhecidas, é necessário tratarmos com as **esperanças** dessas variáveis. Assim:

$$ Q(s,a) = \mathbb{E}_{s'\mathtt{\sim}P}\{r_t + \mathbb{E}_{a'\mathtt{\sim}\mu}[Q(s',a')]\} $$

em que $P$ é a probabilidade de transição dos estados e $\mu$ é a política para tomada de decisão adotada pelo ator. Essa última equação é conhecida como **Equação de Bellman**, e é a base para o aprendizado de quase todas as arquiteturas de DRL. 

Na maioria das referências, veremos um termo $\gamma$ multiplicando a esperança de $Q(s',a')$, chamado de fator de desconto. Essa variável serve para o algoritmo dar mais importância às experiências recentes, em detrimento das que estão em um futuro mais distante. Nessa explicação, ele foi suprimido por simplificação.

Vejamos, agora, como podemos utilizar essa equação para ensinar a rede neural do crítico.

<h4>1.2. Processo de aprendizagem</h4>

Pensemos no início do treinamento do algoritmo: a rede neural do crítico faz uma estimativa para o valor de $Q$, mas por ainda não estar treinada, essa estimativa não é confiável. Nesse sentido, o que precisaríamos fazer para a rede aprender a melhorar essa estimativa? Qual seria o valor esperado que utilizaríamos para calcular o custo que seria usado no otimizador da rede?

Voltemos à Equação de Bellman. Repare que, se a nossa forma de calcular o $Q$ é a partir de uma rede neural, precisaríamos usá-la para calcular ambos os lados da equação:

*    No primeiro, passaríamos à rede o estado e ação atuais ($s$ e $a$) como entrada e receberíamos a estimativa de $Q(s,a)$ como saída;
*    No segundo, passaríamos à rede o estado e ação futuras ($s'$ e $a'$) como entrada e receberíamos a estimativa de $Q(s',a')$ como saída.

Para completar a equação, precisaríamos, ao executar a ação $a$ no estado $s$, coletar $r_t$, que é calculada de maneira determinística pelo próprio ambiente e enviada para o algoritmo.

Apesar de a equação de Bellman ser matematicamente bem definida, de forma que os dois lados da equação precisem ser iguais, ao utilizar uma rede neural para o cálculo do $Q$, estamos realizando apenas uma estimativa para essa variável, de forma que, na prática, haverá divergência entre os dois lados da equação.

Mas como podemos usar tudo isso para ensinar uma rede totalmente leiga a aprender a estimar o valor de $Q$? 

Pense que os dois lados da equação de Bellman, calculados a partir da utilização da estimativa da rede neural, possuem grandes incertezas, principalmente no início do processo de aprendizagem. Entretanto, como foi dito, $r_t$ é uma variável coletada diretamente do ambiente, **não havendo incerteza alguma em seu valor**.

Assim, graças a esse fato, podemos dizer que, utilizando redes neurais para estimar o valor de $Q$, o cálculo do lado direito da equação de Bellman possui **menos incerteza** do que o lado esquerdo da equação, que depende apenas da saída da rede.

Dessa forma, é possível treinar a rede neural do crítico utilizando uma função de perda que calcule o custo considerando $Q(s,a)$ como a estimativa feita pela rede e o lado direito da equação como o valor esperado.

Perceba que o valor esperado para treinar a rede depende da saída da própria rede, algo que é inesperado e contraintuitivo, mas pouco a pouco os valores de recompensa recebidos vão direcionando a rede para a convergência, de forma que as estimativas vão melhorando a cada época de treinamento.

O fato apontado acima é o principal responsável pelas redes de DRL serem mais instáveis e possuírem convergência mais lenta do que as redes de ML/DL tradicionais, o que faz com que essas arquiteturas precisem ter um treinamento mais longo, além de usarem diversas técnicas para ajudar na convergência do aprendizado.

A imagem abaixo ilustra o treinamento de um DDPG em um único evento. Na figura, as setas verdes significam a passagem de entradas e saídas até a estimativa dos dois lados da equação de Bellman e as setas vermelhas mostram o processo de atualização dos parâmetros das redes a partir dos custos calculados.

<h3>2. Deep Q-Network - DQN</h3>

O DRL é uma consequência de toda teoria de RL desenvolvida ao longo de anos. Em 2013, Volodymyr Mnih propõe utilizar uma rede neural profunda como agente de um problema de RL, [leia mais sobre](https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf), que até então tentava modelar os agentes utilizando, principalmente, modelos estatísticos. A aplicação do artigo, inclusive, era produzir um agente capaz de jogar *games* clássicos do console Atari.

Dessa forma, o DRL surge da ideia de se incorporar o *Deep Learning* em problemas de *Reinforcement Learning*, visando resolver problemas de complexidade elevada. A partir dessa união, precisamos entender como a rede neural aprenderá a tomar decisões a partir de um estado do ambiente. 

<h4>2.1. Aprendizagem da rede e técnicas de conversão</h4>

Existem alguns conceitos chave para o RL que servirão como base para a maioria dos algoritmos da área, de forma que é fundamental conhecê-los para conseguir compreender as aplicações desse campo. São eles:

*   Ambiente;
*   Agente $\mu$;
*   Estado $s$; 
*   Recompensa $r$.

Demonstraremos abaixo o funcionamento deste algoritmo utilizando o problema conhecido como 'cart pole' que consiste em equilibrar uma haste acima de uma base que se move horizontalmente. 

<h4>2.2. Ambiente</h4>

O ambiente é a representação do problema que será utilizada para permitir que um algoritmo de *Deep Reinforcement Learning* aprenda a tomar decisões baseadas no estado em que o ambiente se encontra. Esse elemento é responsável por modelar a transição de estados, ou seja, como a ação realizada modifica o ambiente como um todo. 

Para o exemplo que adotamos, o ambiente é o jogo como um todo.
 
O nosso ambiente será importado da biblioteca <a href="https://gym.openai.com/envs/CartPole-v1/">GYM</a>.

<h4>2.3. Agente</h4>

O agente é um algoritmo inteligente capaz de compreender o estado em que o ambiente se encontra e, a partir disso, decidir quais ações executadas gerarão recompensas altas. 

Assim, o papel do agente é aprimorar a sua política de decisão de ações baseada no estado, visando sempre encontrar a política que lhe traga o máximo retorno possível, sendo este a soma das recompensas recebidas. A política do agente é denotada como $\mu$.

No exemplo adotado, o agente faria o papel que o ser humano faz ao jogar o *game*, decidindo quais ações devem ser executadas pelo personagem (para qual lado ele deveria equilibrar a base para a haste não cair).

<h4>2.4. Estado</h4>

O estado, denotado como $s$, é definido como a situação do ambiente em determinado instante, ou seja, como o ambiente se encontra no momento da observação feita. A representação do estado faz parte da modelagem do ambiente, já que um único problema apresenta diferentes maneiras de modelagem do vetor que representa o estado, de forma que é necessário decidir qual dessas maneiras é a mais adequada para o entendimento do agente.

Como citado, não existe apenas uma modelagem do estado, mas podemos defini-lo no problema como a imagem que aparece na tela do monitor, já que é isso que o nosso cérebro utiliza para interpretar o ambiente e fazer as decisões.

<h4>2.5. Recompensa</h4>

A recompensa é a variável responsável por avaliar o quão positiva ou negativa foi uma determinada ação executada. A partir dessa grandeza é possível ensinar a rede a decidir as ações que serão tomadas, visando sempre maximizar a recompensa recebida.

Essa variável, denotada por $r$, é, geralmente, um número real, cujo valor é definido pelas chamadas funções de recompensa, que são funções responsáveis por calcular a recompensa da ação executada a partir de padrões definidos na modelagem do ambiente.

<h3>3. Resolução de problema</h3>

<h4>3.1. Porque não usar os modelos convencionais já conhecidos</h4>

<h4>3.2. Implementação memória do <i>replay buffer<i></h4>

Foi uma ideia proposta em [1993](https://www.semanticscholar.org/paper/Reinforcement-learning-for-robots-using-neural-Lin/54c4cf3a8168c1b70f91cf78a3dc98b671935492?p2df) pois ao utilizar-se uma DNN em problemas como esse, facilmente ocorria overfitting. Para resolver esse problema nós armazenamos as experiencias incluindo transições de estado, recompensas e ações que são necessárias para o bom treinamento da rede,com essas informações serão criados mini-batches para atualizar a rede neural. Através dessa técnica nós obtemos os seguintes resultados : 

*   Reduz a tendencia nas atualizações da DNN
*   Aumenta a velocidade de aprendizado com mini-batches  
*   Reutiliza transições passadas para evitar um problema conhecido como ['catastrophic forgetting'](https://towardsdatascience.com/tagged/catastrophic-forgetting?p=4672e8843a7f)

<h4>3.3. Implementção <i>target</i> e <i>policy</i></h4>

No cálculo do erro da Diferença Temporal a função target é mudada frequentemente, quando a função target se mostra instável, o treinamento se torna difícil. Em vista disso a técnica de 'Target Network' corrige os parâmetros da função target e atualiza a cada cem episódios.

<h4>3.4. <i>Exploration</i>, <i>exploitation</i> e <i>trade off</i></h4>

Nessa técnica um agente tem que decidir a cada iteração se ele irá tomar a melhor decisão de acordo com a estimativa atual, ou se ele irá tomar uma decisão de "exploração" que não é considerada ideal segundo a estimativa. Explorar pode trazer novas informações sobre o ambiente e talvez chegar a estados que nunca foram atingidos antes e provavelmente não seriam se o algoritmo seguisse a tendência, com isso podendo chegar a resultados melhores posteriormente. 

<h3>4. Problema do cart pole</h3>

<h4>4.1. Ambiente GYM</h4>

In [31]:
import gym

env = gym.make('CartPole-v0').unwrapped

In [33]:
#Bibliotecas usadas 
import math
import random
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from collections import namedtuple, deque
from itertools import count
from PIL import Image

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torchvision.transforms as T

In [34]:
# set up matplotlib
is_ipython = 'inline' in matplotlib.get_backend()
if is_ipython:
    from IPython import display

plt.ion()

# if gpu is to be used
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")


In [35]:
Transition = namedtuple('Transition',
                        ('state', 'action', 'next_state', 'reward'))


class ReplayMemory(object):
    def __init__(self, capacity):
        self.capacity = capacity
        self.memory = []
        self.position = 0

    def push(self, *args):
        """Saves a transition."""
        if len(self.memory) < self.capacity:
            self.memory.append(None)
        self.memory[self.position] = Transition(*args)
        self.position = (self.position + 1) % self.capacity

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)

<h4>4.2. Implementação de uma DQN usando o GYM e o problema do cart pole</h4>

In [36]:
class DQN(nn.Module):
    def __init__(self):
        nn.Module.__init__(self)
        self.l1 = nn.Linear(4, 64)
        self.l2 = nn.Linear(64, 128)
        self.l3 = nn.Linear(128, 2)

    def forward(self, x):
        x = F.relu(self.l1(x))
        x = F.relu(self.l2(x))
        x = self.l3(x)
        return x


In [37]:
BATCH_SIZE = 64  # Tamanho do batch
GAMMA = 0.9  # Taxa de aprendizado
TARGET_UPDATE = 5  # Episódios de atualização das redes target

### Parâmetros de exploração ###
EPS_START = 0.9
EPS_END = 0.05
EPS_DECAY = 100

### Preparação das redes neurais ###
policy_net = DQN().to(device)
target_net = DQN().to(device)
criterion = nn.SmoothL1Loss()
target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

# Definição do otimizador
optimizer = optim.Adam(policy_net.parameters(), lr=0.001)
memory = ReplayMemory(10000)  # Instanciamento da memória


def select_action(state, train=True):
    '''
    Função que seleciona a ação que será realizada
    '''
    global i_episode

    sample = random.random()  # Amostra de um número racional entre 0 e 1
    eps_threshold = EPS_END + (EPS_START - EPS_END) * \
        math.exp(-1. * i_episode /
                 EPS_DECAY)  # Definição da probabilidade de explorar no i_episode
    tensor_state = torch.autograd.Variable(state).type(
        torch.FloatTensor).to(device)  # ajuste do formato do estado

    if train:
        if sample > eps_threshold:  # Explotação
            with torch.no_grad():
                return policy_net(tensor_state).data.max(1)[1].view(1, 1).to(device)
        else:  # Exploração
            return torch.LongTensor([[random.randrange(2)]]).to(device)

    else:
        with torch.no_grad():
            return policy_net(tensor_state).data.max(1)[1].view(1, 1).to(device)

In [None]:
def optimize_model():
    '''
    Função utilizada para aprendizado das redes neurais
    '''

    if len(memory) < BATCH_SIZE:  # Verifica se a memória ja tem BATCH_SIZE's amostras
        return

    # Define que as redes estão em treinamento
    policy_net.train()
    target_net.train()

    # Amostra a memória em BATCH_SIZE's transições
    transitions = memory.sample(BATCH_SIZE)
    batch = Transition(*zip(*transitions))

    # Define os tensores que serão utilizados no treinamento,
    # agrupando os estados, ações e recompensas de todas as transições
    batch_next_state = torch.autograd.Variable(
        torch.cat(batch.next_state)).to(device)
    state_batch = torch.cat(batch.state).to(device)
    action_batch = torch.cat(batch.action).to(device)
    reward_batch = torch.cat(batch.reward).to(device)

    # Calcula os Q(s,a) a partir dos estados do batch e seleciona aqueles
    # cujas ações foram realizadas e armazenadas no batch
    state_action_values = policy_net(state_batch).gather(1, action_batch)

    # Calcula os Q(s',a') a partir dos estados futuros do batch
    # e selecionam os de maior valor
    with torch.no_grad():
        next_state_values = target_net(batch_next_state).detach().max(1)[0]

    # Calcula o lado direito da equação de Bellman
    expected_state_action_values = (next_state_values * GAMMA) + reward_batch

    # Calcula a diferença entre os dois lados da equação de Bellman
    loss = criterion(state_action_values,
                     expected_state_action_values.unsqueeze(1))

    # Otimiza os parâmetros da rede
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()


In [None]:
num_episodes = 1000
list_retorno = []
for i_episode in range(num_episodes):
    # Inicializa o ambiente e coleta o estado inicial
    state = env.reset()
    # Inicializa as variáveis de retorno e eventos
    retorno, steps = 0, 0
    # Inicializa a contagem de eventos no episódio
    for t in count():
        env.render()  # Renderiza o ambiente

        action = select_action(torch.FloatTensor([state])).to(
            device)  # Seleciona a ação a partir do estado
        # Executa a ação e coleta o prox estado,
        next_state, reward, done, _ = env.step(action[0].item())
        # a recompensa e se o episódio foi finalizado
        # Soma a recompensa ao retorno
        retorno += reward

        # Apesar da coleta da recompensa acima, recalculamos a recompensa de outra maneira,
        # já que o cálculo de recompensa original não é muito eficiente
        if done:
            if steps < 30:
                reward -= 10
            else:
                reward = -1
        if steps > 100:
            reward += 1
        if steps > 200:
            reward += 1
        if steps > 300:
            reward += 1

        # Guarda a experiência na memória
        memory.push(torch.FloatTensor([state]),
                    action,  # action is already a tensor
                    torch.FloatTensor([next_state]),
                    torch.FloatTensor([reward]).to(device))

        # Move para o proximo estado e atualiza o ponteiro de eventos
        state = next_state
        steps += 1

        # Otimiza a rede neural do crítico
        optimize_model()
        # Finaliza o episódio se tiver perdido ou após 5 mil eventos
        if done or (steps == 2500):
            break

    # Atualiza a rede target
    if i_episode % TARGET_UPDATE == 0:
        target_net.load_state_dict(policy_net.state_dict())

    # Printa o retorno do episódio e guarda em uma lista
    print(f'Episodio {i_episode}: retorno={round(retorno,2)}')
    list_retorno.append(retorno)

print('Complete')
env.render()
env.close()


<center>
<img src="files/cart_pole.png"></img>
</center>

<h3>5. Feedback do treinamento</h3>

In [None]:
plt.figure(figsize=(15, 8))
plt.plot(range(1, num_episodes+1), list_retorno)
plt.ylabel('Retorno')
plt.xlabel('Episódios')
plt.show()



<style>
.teste{
    color:cyan;
}
</style>
<h2 class="teste">1. Aprendizado por reforço</h2>

O aprendizado por reforço (RL - *Reinforcement Learning*) é um campo de Inteligência Artificial que tenta, através do recebimento de recompensas, ensinar um agente inteligente a decidir ações adequadas para uma determinada situação vivenciada. De maneira intuitiva, o processo é semelhante ao adestramento de um cachorro que aprende a realizar algumas tarefas a partir do recebimento de biscoitos.

### 1.1 Conceitos Básicos

Existem alguns conceitos chave para o RL que servirão como base para a maioria dos algoritmos da área, de forma que é fundamental conhecê-los para conseguir compreender as aplicações desse campo. São eles:

*   Ambiente;
*   Agente $\mu$;
*   Estado $s$; 
*   Recompensa $r$.

Demonstraremos abaixo o funcionamento deste algoritmo utilizando o problema conhecido como 'cart pole' que consiste em equilibrar uma haste acima de uma base que se move horizontalmente. 


<center>
<img src="files/cart_pole.png"></img>
</center>


#### 1.1.1 Ambiente

O ambiente é a representação do problema que será utilizada para permitir que um algoritmo de *Deep Reinforcement Learning* aprenda a tomar decisões baseadas no estado em que o ambiente se encontra. Esse elemento é responsável por modelar a transição de estados, ou seja, como a ação realizada modifica o ambiente como um todo. 

Para o exemplo que adotamos, o ambiente é o jogo como um todo.
 
O nosso ambiente será importado da biblioteca <a href="https://gym.openai.com/envs/CartPole-v1/">GYM</a>.

#### 1.1.2 Agente

O agente é um algoritmo inteligente capaz de compreender o estado em que o ambiente se encontra e, a partir disso, decidir quais ações executadas gerarão recompensas altas. 

Assim, o papel do agente é aprimorar a sua política de decisão de ações baseada no estado, visando sempre encontrar a política que lhe traga o máximo retorno possível, sendo este a soma das recompensas recebidas. A política do agente é denotada como $\mu$.

No exemplo adotado, o agente faria o papel que o ser humano faz ao jogar o *game*, decidindo quais ações devem ser executadas pelo personagem (para qual lado ele deveria equilibrar a base para a haste não cair).

#### 1.1.3 Estado

O estado, denotado como $s$, é definido como a situação do ambiente em determinado instante, ou seja, como o ambiente se encontra no momento da observação feita. A representação do estado faz parte da modelagem do ambiente, já que um único problema apresenta diferentes maneiras de modelagem do vetor que representa o estado, de forma que é necessário decidir qual dessas maneiras é a mais adequada para o entendimento do agente.

Como citado, não existe apenas uma modelagem do estado, mas podemos defini-lo no problema como a imagem que aparece na tela do monitor, já que é isso que o nosso cérebro utiliza para interpretar o ambiente e fazer as decisões.

#### 1.1.4 Recompensa

A recompensa é a variável responsável por avaliar o quão positiva ou negativa foi uma determinada ação executada. A partir dessa grandeza é possível ensinar a rede a decidir as ações que serão tomadas, visando sempre maximizar a recompensa recebida.

Essa variável, denotada por $r$, é, geralmente, um número real, cujo valor é definido pelas chamadas funções de recompensa, que são funções responsáveis por calcular a recompensa da ação executada a partir de padrões definidos na modelagem do ambiente.

Entendido o que é RL(*Reinforcement Learning*), agora é necessário compreender o que é DRL(*Deep Reinforcement Learning*)

<style>
.teste{
    color:cyan;</style>
<h2 class="teste">2. Aprendizagem profundamente reforçada</h2>

O DRL é uma consequência de toda teoria de RL desenvolvida ao longo de anos. Em 2013, Volodymyr Mnih propõe utilizar uma rede neural profunda como agente de um problema de RL, [leia mais sobre](https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf), que até então tentava modelar os agentes utilizando, principalmente, modelos estatísticos. A aplicação do artigo, inclusive, era produzir um agente capaz de jogar *games* clássicos do console Atari.

Dessa forma, o DRL surge da ideia de se incorporar o *Deep Learning* em problemas de *Reinforcement Learning*, visando resolver problemas de complexidade elevada. A partir dessa união, precisamos entender como a rede neural aprenderá a tomar decisões a partir de um estado do ambiente. 

<h3>Equação de Bellman</h3>

Para compreender o aprendizado do crítico, voltaremos à definição da variável $Q(s,a)$. Repare que utilizando as propriedades de um somatório, podemos escrever o retorno como:

$$ R_t = r_t + \sum_{k=t+1}^{T} r_k \\
   R_t = r_t + R_{t+1}
 $$

Nos próximos passos, não entraremos na matemática da dedução por acreditar que o seu entendimento demanda um pouco mais de tempo, mas deixamos uma [referência](https://lilianweng.github.io/lil-log/2018/02/19/a-long-peek-into-reinforcement-learning.html) que faz essa dedução completa.

Para nós, o importante é compreendermos a noção de que o retorno presente pode ser decomposto na recompensa atual adicionada ao retorno do próximo evento e que isso pode ser estendido para o valor do estado-ação, por ser uma variável em função do retorno. 

$$ Q(s,a) = r_t + Q(s',a') $$

em que $s'$ é o estado futuro (no evento $t+1$) e $a'$ é a ação tomada no evento $t+1$. Entretanto, em um cenário em que tanto a transição de estados, quanto a tomada de decisão não são conhecidas, é necessário tratarmos com as **esperanças** dessas variáveis. Assim:

$$ Q(s,a) = \mathbb{E}_{s'\mathtt{\sim}P}\{r_t + \mathbb{E}_{a'\mathtt{\sim}\mu}[Q(s',a')]\} $$

em que $P$ é a probabilidade de transição dos estados e $\mu$ é a política para tomada de decisão adotada pelo ator. Essa última equação é conhecida como **Equação de Bellman**, e é a base para o aprendizado de quase todas as arquiteturas de DRL. 

Na maioria das referências, veremos um termo $\gamma$ multiplicando a esperança de $Q(s',a')$, chamado de fator de desconto. Essa variável serve para o algoritmo dar mais importância às experiências recentes, em detrimento das que estão em um futuro mais distante. Nessa explicação, ele foi suprimido por simplificação.

Vejamos, agora, como podemos utilizar essa equação para ensinar a rede neural do crítico.

<h3>Processo de aprendizagem</h3>

Pensemos no início do treinamento do algoritmo: a rede neural do crítico faz uma estimativa para o valor de $Q$, mas por ainda não estar treinada, essa estimativa não é confiável. Nesse sentido, o que precisaríamos fazer para a rede aprender a melhorar essa estimativa? Qual seria o valor esperado que utilizaríamos para calcular o custo que seria usado no otimizador da rede?

Voltemos à Equação de Bellman. Repare que, se a nossa forma de calcular o $Q$ é a partir de uma rede neural, precisaríamos usá-la para calcular ambos os lados da equação:

*    No primeiro, passaríamos à rede o estado e ação atuais ($s$ e $a$) como entrada e receberíamos a estimativa de $Q(s,a)$ como saída;
*    No segundo, passaríamos à rede o estado e ação futuras ($s'$ e $a'$) como entrada e receberíamos a estimativa de $Q(s',a')$ como saída.

Para completar a equação, precisaríamos, ao executar a ação $a$ no estado $s$, coletar $r_t$, que é calculada de maneira determinística pelo próprio ambiente e enviada para o algoritmo.

Apesar de a equação de Bellman ser matematicamente bem definida, de forma que os dois lados da equação precisem ser iguais, ao utilizar uma rede neural para o cálculo do $Q$, estamos realizando apenas uma estimativa para essa variável, de forma que, na prática, haverá divergência entre os dois lados da equação.

Mas como podemos usar tudo isso para ensinar uma rede totalmente leiga a aprender a estimar o valor de $Q$? 

Pense que os dois lados da equação de Bellman, calculados a partir da utilização da estimativa da rede neural, possuem grandes incertezas, principalmente no início do processo de aprendizagem. Entretanto, como foi dito, $r_t$ é uma variável coletada diretamente do ambiente, **não havendo incerteza alguma em seu valor**.

Assim, graças a esse fato, podemos dizer que, utilizando redes neurais para estimar o valor de $Q$, o cálculo do lado direito da equação de Bellman possui **menos incerteza** do que o lado esquerdo da equação, que depende apenas da saída da rede.

Dessa forma, é possível treinar a rede neural do crítico utilizando uma função de perda que calcule o custo considerando $Q(s,a)$ como a estimativa feita pela rede e o lado direito da equação como o valor esperado.

Perceba que o valor esperado para treinar a rede depende da saída da própria rede, algo que é inesperado e contraintuitivo, mas pouco a pouco os valores de recompensa recebidos vão direcionando a rede para a convergência, de forma que as estimativas vão melhorando a cada época de treinamento.

O fato apontado acima é o principal responsável pelas redes de DRL serem mais instáveis e possuírem convergência mais lenta do que as redes de ML/DL tradicionais, o que faz com que essas arquiteturas precisem ter um treinamento mais longo, além de usarem diversas técnicas para ajudar na convergência do aprendizado.

A imagem abaixo ilustra o treinamento de um DDPG em um único evento. Na figura, as setas verdes significam a passagem de entradas e saídas até a estimativa dos dois lados da equação de Bellman e as setas vermelhas mostram o processo de atualização dos parâmetros das redes a partir dos custos calculados.

Em vista da aplicação que será utilizada de exemplo nós iremos implementar uma técnica de DRL conhecida como DQN. Ela foi escolhida pois ela supera a aprendizagem instável de outras técnicas utilizando as seguintes técnicas : 

*    Experience Replay
*    Target Network
*    Clipping Rewards
*    Skipping Frames

<h3>Experience Replay</h3>

Foi uma ideia proposta em [1993](https://www.semanticscholar.org/paper/Reinforcement-learning-for-robots-using-neural-Lin/54c4cf3a8168c1b70f91cf78a3dc98b671935492?p2df) pois ao utilizar-se uma DNN em problemas como esse, facilmente ocorria overfitting. Para resolver esse problema nós armazenamos as experiencias incluindo transições de estado, recompensas e ações que são necessárias para o bom treinamento da rede,com essas informações serão criados mini-batches para atualizar a rede neural. Através dessa técnica nós obtemos os seguintes resultados : 

*   Reduz a tendencia nas atualizações da DNN
*   Aumenta a velocidade de aprendizado com mini-batches  
*   Reutiliza transições passadas para evitar um problema conhecido como ['catastrophic forgetting'](https://towardsdatascience.com/tagged/catastrophic-forgetting?p=4672e8843a7f)

<h3>Target Network</h3>

No cálculo do erro da Diferença Temporal a função target é mudada frequentemente, quando a função target se mostra instável, o treinamento se torna difícil. Em vista disso a técnica de 'Target Network' corrige os parâmetros da função target e atualiza a cada cem episódios.

<h3>Clipping Rewards</h3>

Cada jogo tem uma escala de pontos diferente, como por exemplo no jogo pong que o jogador ganha 1 ponto por vencer uma partida, em contraponto, em spaceinvaders o jogador ganha de 10 a 30 pontos. Essa diferença torna o treinamento instável. Em vista disso a técnica de Clipping Rewards usa +1 como recompensa positiva e -1 como recompensa negativa.

<h3>Skipping Frames</h3>

Normalmente em ambientes de jogos, são renderizadas 60 frames por segundo, no entanto pessoas não tomam tantas ações por segundo, logo a IA não necessita calcular uma ação para cada frame. Logo a técnica de Skipping Frames consiste em a DQN calcular uma ação para cada 4 frames e usar os ultimos 4 frames como input. 
Isso reduz o custo computacional e adquire mais experiência.

<h3>Exploration-Exploitation trade off</h3>

Nessa técnica um agente tem que decidir a cada iteração se ele irá tomar a melhor decisão de acordo com a estimativa atual, ou se ele irá tomar uma decisão de "exploração" que não é considerada ideal segundo a estimativa. Explorar pode trazer novas informações sobre o ambiente e talvez chegar a estados que nunca foram atingidos antes e provavelmente não seriam se o algoritmo seguisse a tendência, com isso podendo chegar a resultados melhores posteriormente. 

In [1]:
import gym
import math
import random
import numpy as np
import matplotlib
import matplotlib.pyplot as plt
from collections import namedtuple, deque
from itertools import count
from PIL import Image

import torch
import torch.nn as nn
import torch.optim as optim
import torch.nn.functional as F
import torchvision.transforms as T


env = gym.make('CartPole-v0').unwrapped

# set up matplotlib
is_ipython = 'inline' in matplotlib.get_backend()
if is_ipython:
    from IPython import display

plt.ion()

# if gpu is to be used
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")


In [2]:
Transition = namedtuple('Transition',
                        ('state', 'action', 'next_state', 'reward'))


class ReplayMemory(object):
    def __init__(self, capacity):
        self.capacity = capacity
        self.memory = []
        self.position = 0

    def push(self, *args):
        """Saves a transition."""
        if len(self.memory) < self.capacity:
            self.memory.append(None)
        self.memory[self.position] = Transition(*args)
        self.position = (self.position + 1) % self.capacity

    def sample(self, batch_size):
        return random.sample(self.memory, batch_size)

    def __len__(self):
        return len(self.memory)


In [3]:
class DQN(nn.Module):
    def __init__(self):
        nn.Module.__init__(self)
        self.l1 = nn.Linear(4, 64)
        self.l2 = nn.Linear(64, 128)
        self.l3 = nn.Linear(128, 2)

    def forward(self, x):
        x = F.relu(self.l1(x))
        x = F.relu(self.l2(x))
        x = self.l3(x)
        return x


In [4]:
BATCH_SIZE = 64  # Tamanho do batch
GAMMA = 0.9  # Taxa de aprendizado
TARGET_UPDATE = 5  # Episódios de atualização das redes target

### Parâmetros de exploração ###
EPS_START = 0.9
EPS_END = 0.05
EPS_DECAY = 100

### Preparação das redes neurais ###
policy_net = DQN().to(device)
target_net = DQN().to(device)
criterion = nn.SmoothL1Loss()
target_net.load_state_dict(policy_net.state_dict())
target_net.eval()

# Definição do otimizador
optimizer = optim.Adam(policy_net.parameters(), lr=0.001)
memory = ReplayMemory(10000)  # Instanciamento da memória


def select_action(state, train=True):
    '''
    Função que seleciona a ação que será realizada
    '''
    global i_episode

    sample = random.random()  # Amostra de um número racional entre 0 e 1
    eps_threshold = EPS_END + (EPS_START - EPS_END) * \
        math.exp(-1. * i_episode /
                 EPS_DECAY)  # Definição da probabilidade de explorar no i_episode
    tensor_state = torch.autograd.Variable(state).type(
        torch.FloatTensor).to(device)  # ajuste do formato do estado

    if train:
        if sample > eps_threshold:  # Explotação
            with torch.no_grad():
                return policy_net(tensor_state).data.max(1)[1].view(1, 1).to(device)
        else:  # Exploração
            return torch.LongTensor([[random.randrange(2)]]).to(device)

    else:
        with torch.no_grad():
            return policy_net(tensor_state).data.max(1)[1].view(1, 1).to(device)


In [5]:
def optimize_model():
    '''
    Função utilizada para aprendizado das redes neurais
    '''

    if len(memory) < BATCH_SIZE:  # Verifica se a memória ja tem BATCH_SIZE's amostras
        return

    # Define que as redes estão em treinamento
    policy_net.train()
    target_net.train()

    # Amostra a memória em BATCH_SIZE's transições
    transitions = memory.sample(BATCH_SIZE)
    batch = Transition(*zip(*transitions))

    # Define os tensores que serão utilizados no treinamento,
    # agrupando os estados, ações e recompensas de todas as transições
    batch_next_state = torch.autograd.Variable(
        torch.cat(batch.next_state)).to(device)
    state_batch = torch.cat(batch.state).to(device)
    action_batch = torch.cat(batch.action).to(device)
    reward_batch = torch.cat(batch.reward).to(device)

    # Calcula os Q(s,a) a partir dos estados do batch e seleciona aqueles
    # cujas ações foram realizadas e armazenadas no batch
    state_action_values = policy_net(state_batch).gather(1, action_batch)

    # Calcula os Q(s',a') a partir dos estados futuros do batch
    # e selecionam os de maior valor
    with torch.no_grad():
        next_state_values = target_net(batch_next_state).detach().max(1)[0]

    # Calcula o lado direito da equação de Bellman
    expected_state_action_values = (next_state_values * GAMMA) + reward_batch

    # Calcula a diferença entre os dois lados da equação de Bellman
    loss = criterion(state_action_values,
                     expected_state_action_values.unsqueeze(1))

    # Otimiza os parâmetros da rede
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()


In [None]:
num_episodes = 1000
list_retorno = []
for i_episode in range(num_episodes):
    # Inicializa o ambiente e coleta o estado inicial
    state = env.reset()
    # Inicializa as variáveis de retorno e eventos
    retorno, steps = 0, 0
    # Inicializa a contagem de eventos no episódio
    for t in count():
        env.render()  # Renderiza o ambiente

        action = select_action(torch.FloatTensor([state])).to(
            device)  # Seleciona a ação a partir do estado
        # Executa a ação e coleta o prox estado,
        next_state, reward, done, _ = env.step(action[0].item())
        # a recompensa e se o episódio foi finalizado
        # Soma a recompensa ao retorno
        retorno += reward

        # Apesar da coleta da recompensa acima, recalculamos a recompensa de outra maneira,
        # já que o cálculo de recompensa original não é muito eficiente
        if done:
            if steps < 30:
                reward -= 10
            else:
                reward = -1
        if steps > 100:
            reward += 1
        if steps > 200:
            reward += 1
        if steps > 300:
            reward += 1

        # Guarda a experiência na memória
        memory.push(torch.FloatTensor([state]),
                    action,  # action is already a tensor
                    torch.FloatTensor([next_state]),
                    torch.FloatTensor([reward]).to(device))

        # Move para o proximo estado e atualiza o ponteiro de eventos
        state = next_state
        steps += 1

        # Otimiza a rede neural do crítico
        optimize_model()
        # Finaliza o episódio se tiver perdido ou após 5 mil eventos
        if done or (steps == 2500):
            break

    # Atualiza a rede target
    if i_episode % TARGET_UPDATE == 0:
        target_net.load_state_dict(policy_net.state_dict())

    # Printa o retorno do episódio e guarda em uma lista
    print(f'Episodio {i_episode}: retorno={round(retorno,2)}')
    list_retorno.append(retorno)

print('Complete')
env.render()
env.close()


Episodio 0: retorno=12.0
Episodio 1: retorno=14.0
Episodio 2: retorno=15.0
Episodio 3: retorno=17.0
Episodio 4: retorno=23.0
Episodio 5: retorno=10.0
Episodio 6: retorno=65.0
Episodio 7: retorno=11.0
Episodio 8: retorno=9.0
Episodio 9: retorno=23.0
Episodio 10: retorno=17.0
Episodio 11: retorno=29.0
Episodio 12: retorno=10.0
Episodio 13: retorno=12.0
Episodio 14: retorno=18.0
Episodio 15: retorno=14.0
Episodio 16: retorno=38.0
Episodio 17: retorno=13.0
Episodio 18: retorno=14.0
Episodio 19: retorno=20.0
Episodio 20: retorno=24.0
Episodio 21: retorno=9.0
Episodio 22: retorno=48.0
Episodio 23: retorno=25.0
Episodio 24: retorno=19.0
Episodio 25: retorno=22.0
Episodio 26: retorno=119.0
Episodio 27: retorno=65.0
Episodio 28: retorno=18.0
Episodio 29: retorno=69.0
Episodio 30: retorno=20.0
Episodio 31: retorno=20.0
Episodio 32: retorno=15.0
Episodio 33: retorno=43.0
Episodio 34: retorno=47.0
Episodio 35: retorno=39.0
Episodio 36: retorno=31.0
Episodio 37: retorno=24.0
Episodio 38: retorno=23

Episodio 303: retorno=50.0
Episodio 304: retorno=47.0
Episodio 305: retorno=48.0
Episodio 306: retorno=235.0
Episodio 307: retorno=48.0
Episodio 308: retorno=131.0
Episodio 309: retorno=76.0
Episodio 310: retorno=222.0
Episodio 311: retorno=60.0
Episodio 312: retorno=263.0
Episodio 313: retorno=16.0
Episodio 314: retorno=86.0
Episodio 315: retorno=52.0
Episodio 316: retorno=156.0
Episodio 317: retorno=150.0
Episodio 318: retorno=54.0
Episodio 319: retorno=69.0
Episodio 320: retorno=234.0
Episodio 321: retorno=339.0
Episodio 322: retorno=90.0
Episodio 323: retorno=86.0
Episodio 324: retorno=242.0
Episodio 325: retorno=105.0
Episodio 326: retorno=22.0
Episodio 327: retorno=16.0
Episodio 328: retorno=21.0
Episodio 329: retorno=10.0
Episodio 330: retorno=12.0
Episodio 331: retorno=52.0
Episodio 332: retorno=77.0
Episodio 333: retorno=61.0
Episodio 334: retorno=48.0
Episodio 335: retorno=67.0
Episodio 336: retorno=65.0
Episodio 337: retorno=59.0
Episodio 338: retorno=55.0
Episodio 339: reto

In [None]:
plt.figure(figsize=(15, 8))
plt.plot(range(1, num_episodes+1), list_retorno)
plt.ylabel('Retorno')
plt.xlabel('Episódios')
plt.show()
