# Tutorial - Gym

## Índice


## O que é o Gym?
O **Gym** é um conjunto de ferramentas que ajudam no desenvolvimento e na comparação de algoritmos de aprendizado por reforço. A biblioteca é basicamente um conjunto de *environments*, ou ambientes de teste que o usuário pode utilizar pra testar seus algoritmos. Vale notar que esses ambientes têm uma interface compartilhada, desta forma torna-se possível escrever algoritmos gerais.
<center><img src="https://gym.openai.com/assets/dist/nav/nav-logo-dark-e5f2a4965e.svg" width="400"/></center>


## Como usar o Gym?

Com o Gym, é possível testar e comparar algoritmos de aprendizado por reforço através dos diversos *environments* oferecidos pela biblioteca e as ferramentas de metrificação por ela implementadas, que possibilitam analisar o desempenho dos algoritmos utilizados.

## Instalação

A instalação do Gym pode ser realizada de duas formas diferentes, primeiramente através do pip (Python 3.5+):

In [None]:
pip install gym

Ou, caso queira modificar alguma funcionalidade ou adicionar ambientes, é possível buildar a biblioteca direto do source:

In [None]:
git clone https://github.com/openai/gym
cd gym
pip install -e .[all]

Tenha em mente que a instrução acima não vai rodar do jeito que deveria num notebook, mas se seu interesse é em buildar a biblioteca provavelmente já sabia disso.

## Ambientes

O principal atrativo do Gym são os diversos ambientes oferecidos prontos para usar. Mas afinal, o que é um **ambiente**? O **ambiente** é o espaço que representa o nosso problema: o mundo com o qual o agente pode interagir, e no qual ele deve se basear para a tomada de decisões. Um exemplo seria numa partida de xadrez, em que o ambiente seria o conjunto de peças no tabuleiro.

Pronto, agora você já sabe o que é um ambiente, mas como eu crio um usando o gym?

Os ambientes do Gym possuem uma série de métodos simples que usamos para manipular e analisar eles. Os principais para essa etapa do tutorial são esses:
<center>
<br>

| Método               | Funcionalidade                                          |
| :------------------- |:------------------------------------------------------- |
| `make()` | Cria o ambiente |
| `reset()`              | Inicializa o ambiente e recebe a observação inicial     |
| `step(action)`         | Executa uma ação e recebe a observação e a recompensa   |
| `render()`             | Renderiza o ambiente                                    |
| `close()`              | Fecha o ambiente                                        |

<br>
</center>

Com isto em mente, vamos fazer algo aparecer na tela:

In [15]:
import gym
env = gym.make('MountainCar-v0')        # Cria um ambiente, experimente coisas diferentes, como por exemplo 'CartPole-v0'
env.reset()                             # Inicializa o ambiente              
for _ in range(1000):                   # Durante 1000 timesteps
    env.render()                        # Renderiza (mostra) o ambiente
    env.step(env.action_space.sample()) # Escolhe uma ação aleatória
env.close()                             # Fecha o ambiente

Se tudo correu bem, você deve ter visto algo como isso na sua tela:

<center><img src="" width="400"/></center>


## Observações
Porém, como você deve ter notado, mexer aleatoriamente pra esquerda e pra direita não é bem um **aprendizado**, então é de se esperar que eventualmente seria interessante ensinar alguma coisa pro agente, porém como fazer isso?

Primeiro, vale explicar o retorno da função `env.step()`, na verdade, ela retorna quatro valores que possibilitam implementar algoritmos de aprendizado por reforço, estes sendo:
<center>

|Nome|Tipo|Descrição|
|-|-|-|
|`observation`|objeto|Um objeto especifico por ambiente que representa a observação do ambiente.|
|`reward`|float|Quantidade de recompensa alcançada pela última ação. A escala varia com o ambiente|
|`done`|boolean|Flag que indica se é hora de chamar o `reset()`. Indica que o episódio terminou.|
|`info`|dict|Informações diagnósticas úteis para debugar. Geralmente é bom pra estudar,<br> mas o seu agente não usa isso pra aprender|

</center>

Perceba que trata-se de uma implementação do ciclo de agente-ambiente, onde a cada timestep o agente escolhe uma ação e o ambiente retorna uma observação e uma recompensa.

<center><img src="https://gym.openai.com/assets/docs/aeloop-138c89d44114492fd02822303e6b4b07213010bb14ca5856d2d49d6b62d88e53.svg" width="300"/></center>

In [None]:
for i_episode in range(20):                                         # Para 20 episódios
    observation = env.reset()                   
    for t in range(100):                                            
        env.render()
        print(observation)                                          # Mostra as observações
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Fim do episodio em {} timesteps".format(t+1))
            break
env.close()

A saída por enquanto é apenas um tanto de texto e números, note também que a mensagem que seria mostrada com o Done nunca é mostrada. Isso acontece por causa do ambiente escolhido, onde o done só acontece quando o carrinho sai da tela, o que muito provavelmente não aconteceu.

## Espaços

Nos exemplos anteriores nós pegavamos as ações aleatóriamente do espaço de ações do ambiente, mas o que são essas ações? No gym, todo ambiente vem com um `action_space` e um `observation_space`. Esses atributos têm o tipo `Space` e descrevem o formato das ações. Por exemplo, se quisermos ver o tipo de `action_space` ou do `observation_space` do nosso ambiente, podemos executar:

In [21]:
print(env.action_space)
print(env.observation_space)

Discrete(3)
Box(-1.2000000476837158, 0.6000000238418579, (2,), float32)


O espaço `Discrete` permite a escolha de um número fixo de valores não negativos que representam as ações, neste caso, 0, 1 e 2, uma vez que o carrinho pode ir para a esquerda, direita e freiar. Já o espaço `Box` representa uma caixa n-dimensional, desta forma, observações válidas são uma array de 2 números (Na saída acima: `Box(..., ..., (2,), ...)`)

Também é possível descobrir os limites da `Box`:

In [28]:
print(env.observation_space.high)

[0.6  0.07]


In [29]:
print(env.observation_space.low)

[-1.2  -0.07]


A partir dessas informações, podemos concluir que os limites superiores e inferiores referentes ao ambiente, no caso o máximo e mínimo em X e Y do carrinho.

## Conclusões

Essencialmente, este é o Gym e um de seus ambientes. Se além de aprender a utilizar a biblioteca e criar um ambiente, você também tem interesse em entender como utilizar um algoritmo de aprendizado por reforço, dê uma olhada no nosso tutorial de **[Stable Baselines]([https://github.com/DLR-RM/stable-baselines3](https://github.com/turing-usp/Aprendizado-por-Reforco/tree/main/Bibliotecas/Stable%20Baselines))**. 

Aproveite e dê uma olhada nos [outros ambientes disponíveis na biblioteca]([https://gym.openai.com/envs/#classic_control]), eles não se limitam apenas nesses exemplos simples, a openAI disponibiliza desde portes de jogos de atari até modelos de ambientes tridimensionais.