# Classic Control: Control theory problems from the classic RL literature
# Teoria de Controle: Tarefas classicas de na literatura de RL 

<br><br>

Nesse notebook vamos apresentar alguns ambientes classicos utilizados na pesquisa em RL. Esses ambientes possuem ambientes continuos (infinitos), aonde os metodos tabulares que vimos anteriormente nao conseguem resolve-los. Para poder obter solucoes, teremos duas ferramentas:

- Estender o metodos tabulares com tecnicas de discretizacao e tile coding
- Utilizar aproximadores de funcoes (Redes Neurais)


## Importar os pacotes

In [None]:
import gym
import numpy as np
from IPython import display
from matplotlib import pyplot as plt
%matplotlib inline

In [None]:
def test_env(env: gym.Env) -> None:
    env.reset()
    done = False
    img = plt.imshow(env.render(mode='rgb_array')) 
    while not done:
        _, _, done, _ = env.step(env.action_space.sample())
        img.set_data(env.render(mode='rgb_array')) 
        plt.axis('off')
        display.display(plt.gcf())
        display.clear_output(wait=True)

## CartPole: Mantenha o mastro do carrinho em pé

In [None]:
env = gym.make('CartPole-v1')
test_env(env)
env.close()

##### Os estados

Os estados da tarefa do carrinha sao representados por um vetor de quatro numeros reais:


        Num     Observation                      Min                    Max
        0       Posicao do carro                -4.8                    4.8
        1       Velocidade do carro             -Inf                    Inf
        2       Angulo do mastro                -0.418 rad (-24 deg)    0.418 rad (24 deg)
        3       Velocidade angular do mastro    -Inf                    Inf


In [None]:
env.observation_space

##### Ações Disponiveis

Podemos realizar duas ações nesse ambiente:

        0     Mover o carro para esquerda.
        1     Mover o carro para direita.



In [None]:
env.action_space

## Acrobot: Balance a barra até uma certa altura

In [None]:
env = gym.make('Acrobot-v1')
test_env(env)
env.close()

##### Os estados

Os estados da tarefa são representados por um vetor de seis números reais. Os primeiros dois são o seno e o cosseno da primeira junta. O terceiro e quarto são o cosseno e seno da outra junta. Os ultimos dois são a velocidade angular de cada junta
    
$\cos(\theta_1), \sin(\theta_1), \cos(\theta_2), \sin(\theta_2), \dot\theta_1, \dot\theta_2$

In [None]:
env.observation_space

##### As possíveis ações

Pode-se fazer duas ações nesse ambiente:

    0    Aplicar +1 torque na junta entre os elos.
    1    Aplicar -1 torque na junta entre os elos.

In [None]:
env.action_space

## MountainCar: Atinja o objetivo começando do fundo do vale

In [None]:
env = gym.make('MountainCar-v0')
test_env(env)
env.close()

##### Os estados

O espaço de observação consiste da posição do carro na posição $\in [-1.2, 0.6]$ e velocidade do carro $\in [-0.07, 0.07]$

In [None]:
env.observation_space

##### Ações disponiveis

As ações disponiveis são três:

    0    Acelerar para esquerda.
    1    Nāo acelerar.
    2    Acelerar para direita.

In [None]:
env.action_space

## Pendulum: Mantenha-o em pé

In [None]:
env = gym.make('Pendulum-v0')
test_env(env)
env.close()

##### os estados

Os estados sāo representados por um vetor de tres valores, representando $\cos(\theta), \sin(\theta)$ e velocidade $\theta$ é o angulo do pendulo

In [None]:
env.observation_space

##### Ações disponiveis

A açāo é um numero real no intervalo $[-2, 2]$ que representa o torque aplicado no pendulo

In [None]:
env.action_space