# Guia da Stable Baselines

## Índice

- [O que é Stable Baselines?](#O-que-é-Stable-Baselines?)
- [Como usar Stable Baselines?](#Como-usar-Stable-Baselines?)
  - [Exemplo Simples](#Exemplo-Simples)



## O que é Stable Baselines?

A **[Stable Baselines](https://github.com/hill-a/stable-baselines)** é uma biblioteca de Aprendizagem por Reforço que implementa diversos algoritmos de agentes de RL, além de várias funcionalidades úteis para o treinamento de um agente. Suas implementações são bem simples e intuitivas, mas sem deixarem de ser otimizadas e poderosas, buscando facilitar o desenvolvimento de projetos de reforço de alta qualidade.

![Logo](https://github.com/hill-a/stable-baselines/raw/master/docs//_static/img/logo.png "Logo da Stable Baselines")

## Como usar Stable Baselines?

### Exemplo Simples

#### Importando o Gym

O **[Gym](https://gym.openai.com/)** é uma biblioteca desenvolvida pela OpenAI que contém várias implementações prontas de ambientes de Aprendizagem por Reforço. Ela é muito utilizada quando se quer testar um algoritmo de agente sem ter o trabalho de programar seu próprio ambiente.

![Exemplos de Ambientes do Gym](https://camo.githubusercontent.com/25043fb622d3f9115a263fb71c61adb08c1d7790/68747470733a2f2f7072617665656e702e636f6d2f70726f6a656374732f484f4941574f472f6f75747075742e676966 "Exemplos de Ambientes do Gym")

<br>

Para se ter acesso a esses ambientes, basta importar o Gym da seguinte forma:

In [1]:
import gym

#### Criando um Ambiente

Para utilizar um dos ambientes do Gym, nós utilizamos a função ```gym.make()```, passando o nome do ambiente desejado como parâmetro e guardando seu valor retornado em uma variável que chamaramos de ```env```. A lista com todos os ambiente pode ser encontrada [aqui](https://gym.openai.com/envs/#classic_control).

In [2]:
env = gym.make("CartPole-v1")

Nesse caso, nós vamos utilizar o ambiente ```CartPole-v1```, um ambiente bem simples que modela um pêndulo invertido buscando seu estado de equilíbrio.

<img src="https://miro.medium.com/max/1200/1*jLj9SYWI7e6RElIsI3DFjg.gif" width="400px" alt="Ambiente do CartPole-v1" class="inline"/>

#### Criando um Agente

In [3]:
from stable_baselines import DQN

model = DQN('MlpPolicy', env, prioritized_replay=True, verbose=1)

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])








Instructions for updating:
Use keras.layers.flatten instead.
Instructions for updating:
Use tf.where in 2.0, which has the same broadcast rule as np.where










In [4]:
model.learn(total_timesteps=50000)

--------------------------------------
| % time spent exploring  | 23       |
| episodes                | 100      |
| mean 100 episode reward | 39.5     |
| steps                   | 3908     |
--------------------------------------
--------------------------------------
| % time spent exploring  | 2        |
| episodes                | 200      |
| mean 100 episode reward | 156      |
| steps                   | 19515    |
--------------------------------------
--------------------------------------
| % time spent exploring  | 2        |
| episodes                | 300      |
| mean 100 episode reward | 164      |
| steps                   | 35956    |
--------------------------------------


<stable_baselines.deepq.dqn.DQN at 0x1facfbf1d48>

In [7]:
import itertools

def run_episode(env, model, render=False):
    obs = env.reset()
    
    for t in itertools.count():
        action, _states = model.predict(obs)
        obs, reward, done, info = env.step(action)
        if render:
            env.render()
        if done:
            break
    
    env.close()
    
    print(t)

In [8]:
run_episode(env, model, render=True)

193
