# Aula 1 - Parte Prática - Agentes & Ambientes

## Introdução

Nesse primeiro notebook iremos aprender sobre a API do [OpenAI Gym](http://gym.openai.com/) e começaremos a implementar alguns componentes de um agente de RL.
Ao final dessa parte prática teremos implementado o **ciclo de interação Agente-Ambiente** que nos permitirá futuramente treinar o agente e avaliar sua performance.

### Objetivos:

- Relacionar os conceitos de Processos de Decisão Markovianos (MDPs) com os atributos e métodos de um ambiente definido com o OpenAI Gym;
- Familiarizar-se com os componentes básicos de um agente de RL;
- Implementar o ciclo de interação Agente-Ambiente; e
- Implementar um primeiro agente aleatório e avaliar sua performance

## Imports

> **Atenção:** não se esqueça de executar todos os `imports` necessários antes prosseguir com o tutorial. 

In [13]:
import gym
import abc

## 1. Ambientes no OpenAI Gym

Um ambiente no OpenAI Gym encapsula um simulador com o qual um agente pode interagir. Nesse simulador, a cada instante $t$ o agente deve escolhar uma ação $\mathbf{a}_t \in \mathcal{A}$ a ser executada. Ao receber essa ação, o ambiente tem seu estado $\mathbf{s}_t \in \mathcal{S}$ alterado para outro estado $\mathbf{s}_{t+1} \in \mathcal{S}$ e devolve para o agente uma observação (que pode ou não corresponder ao estado) e uma recompensa/punição $r_t \in \mathbb{R}$.

O pacote Gym conta com inúmeros [ambientes pré-programados](http://gym.openai.com/envs/) e prontos para serem usados para testar algoritmos de RL. Nessa parte prática, começaremos a explorar alguns ambientes mais simples a fim de nos familiarizarmos com os principais conceitos de modelagem da biblioteca Gym.

Para carregar um ambiente disponível no Gym basta chamar a função `gym.make` passando como argumento o identificador do ambiente:

In [2]:
env = gym.make("MountainCar-v0")

> **Atenção**: antes de usar um ambiente do Gym com o qual você não está familiarizado pode ser útil ler a sua documentação online.
> Para o `MountainCar-v0` acesse o link [http://gym.openai.com/envs/MountainCar-v0/](http://gym.openai.com/envs/MountainCar-v0/).

### 1.1. Espaço de estados e ações

Todo agente de RL deve conhecer quais ações pode tomar no ambiente e também quais as características das variáveis de observações que aquele ambiente lhe disponibiliza. Para acessar o espaço de estados e ações, um ambiente do gym disponibiliza os atributos `env.observation_space` e `env.action_space`, respectivamente.

Note que essas informações serão importantes futuramente na definição das entradas e saídas das redes neurais artificiais que utilizaremos para representar a política $\pi_\theta$ do agente e também na criação de outros modelos.   

Todo `observation_space` tem associado seu tipo numérico (e.g., int, float,...) e as dimensões de uma observação. Além disso, é possível saber se o valor das variáveis observação são limitadas ou não, e se forem limitadas qual o valor mínimo e máximo.

In [3]:
obs_space = env.observation_space

print(obs_space.dtype)
print(obs_space.shape)
print(obs_space.bounded_above, obs_space.low)
print(obs_space.bounded_below, obs_space.high)

float32
(2,)
[ True  True] [-1.2  -0.07]
[ True  True] [0.6  0.07]


Para o `MountainCar-v0` observe que uma observação correponde a um vetor de números reais de tamanho 2 (i.e., um par de valores em ponto flutuante). Note que a primeira componente do vetor é limitada entre -1.2 e 0.6, e a segunda componente entre -0.07 e 0.07. 

Analogamente, todo `action_space` tem associado seu tipo numérico e as dimensões de uma ação.

In [4]:
action_space = env.action_space

print(action_space.dtype)
print(action_space.shape)
print(action_space.n)

int64
()
3


Note que para o `MountainCar-v0` o agente deverá escolher ações discretas (i.e., representadas por números inteiros). Observe também que o `shape==()` indica que uma ação é dada por um único escalar (e não um vetor como no caso do `observation_space`. Para acessar o número de possíveis valores da ação basta acessar o atributo `action_space.n`.

## 2. Agentes 

A classe Agent encapsulará as atividades do agente e será usado na implementação do **ciclo de interação Agente-Ambiente**. Essa classe será responsável por escolher uma ação a ser tomada e por manter uma observação das consequencias das ações tomadas.

### 2.1 Definição de agente

Para guiar o desenvolvimento, vamos considerar a seguinte classe abstrata da qual derivaremos nossos agentes daqui por diante

In [17]:
class Agent(abc.ABC):
    """
    Classe abstrata que define os comportamentos basicos de um agente RL
    Args:
        obs_space:     representação do espaço de estados do ambiente
        act_space:     representação do espaço de ações do ambiente
        config (dict): (opcional) encapsula informações adicionais 
                       como hiperparâmetros de treinamente do agente
    """

    def __init__(self, obs_space, act_space, config=None):
        raise NotImplementedError()

    @abc.abstractmethod
    def act(self, obs):
        '''
        Escolhe uma ação para ser tomada dada uma observação do ambiente
        
        Args: 
            obs: observação do ambiente
        
        Retorna:
            action: ação válida dentro do espaço de ações
        '''

        raise NotImplementedError()

    @abc.abstractmethod
    def observe(self, obs, action, reward, next_obs, done):
        '''
        Registra a observação do ambiente após a tomada de um estado dado
        
        Args: 
            obs:            observação do ambiente antes da aplicação da ação action
            action:         ação válida dentro do espaço de ações
            reward (float): escalar indicando a recompensa obtida após aplicar a ação action
            next_obs:       observação do ambiente resultante da aplicação da ação action
            done (bool):    True se a observação resultante represnta um estado terminal, False
                            caso contrário
            
        Retorna:
            None
        '''

        raise NotImplementedError()

    @abc.abstractmethod
    def learn(self):
        '''
        Método de treinamento do agente
        
        Args: 
            None
            
        Retorna:
            None
        '''
                
        raise NotImplementedError()

### 2.2 Definindo um agente aleatório

Antes de definir o ciclo de interação agente-ambiente vamos implementar um agente que toma ações aleatórias.

In [31]:
class RandomAgent(Agent):
    def __init__(self, obs_space, act_space, config=None):
        self.obs_space = obs_space
        self.action_space = act_space
        self.trajectory = []

    def act(self, obs):
        return self.action_space.sample()

    def observe(self, obs, action, reward, next_obs, done):
        self.trajectory.append((obs, action, reward, next_obs, done))

    def learn(self):
        pass

In [95]:
action_space.seed(42)

agent = RandomAgent(obs_space, action_space)

print(agent.act(None))

1
