<img src="https://imgur.com/3U3hI1u.png" width="100%" />

> descrever aqui em que consiste a tarefa

## Escolha do Ambiente

Antes de analisar o possíveis algoritmos, o primeiro passo é escolher qual ambiente você quer resolver! Para esta tarefa, separamos quatro possíveis ambientes diferentes, em ordem de dificuldade, que você poderá escolher: **Pong**, **Lunar Lander** e **Lunar Lander Continuous**.

A seguir, estão as descrições de cada um deles:

<h2 align="center">Pong</h2>
<img src="https://imgur.com/vdVCmvo.gif" width=50% />

**Pong** é o ambiente de Aprendizado por Reforço criado pelo Turing que simula o jogo de *Pong*, no qual existem duas "raquetes" e uma bola, e o objetivo de cada uma das raquetes é não somente evitar que a bola passe por ela, como também fazer com que esta passe pela linha que a outra raquete protege.

### Características do Ambiente

O **Espaço de Observação** do ambiente é definido por 2 informações.

| Estado    | Informação                            |
| :-------- | :------------------------------------ |
| 0         | Distância _x_ entre a bola e o agente |
| 1         | Distância _y_ entre a bola e o agente |

Já o **Espaço de Ação** é composto por três ações: mover o jogador para cima, baixo, ou deixá-lo parado.

| Ação | Significado      |
| :--- | :--------------- |
| 0    | Ficar parado     |
| 1    | Mover para baixo |
| 2    | Mover para cima  |

Por fim, cada vez que tomamos uma ação, recebemos do ambiente uma **recompensa**, conforme a tabela abaixo:

| Ocorrência          | Recompensa |
| :------------------ | ---------: |
| Ponto do Agente     | $+500$     |
| Ponto do Oponente   | $-500$     |
| Vitória do Agente   | $+2000$    |
| Vitória do Oponente | $-2000$    |

O primeiro jogador a fazer quatro pontos ganha o jogo. Além disso, as recompensas são cumulativas. Isso significa que se o oponente fizer um ponto _e_ ganhar o jogo, a recompensa é de $-2500$.

### Instalação

Para instalar os ambientes criados pelo Turing, basta rodar o seguinte comando no notebook (se preferir, também pode rodar no terminal; é só tirar o ponto de exclamação do começo da linha):

In [1]:
!pip install -U turing-envs



You should consider upgrading via the 'c:\users\felammachado\appdata\local\programs\python\python37\python.exe -m pip install --upgrade pip' command.




Com o ambiente do Turing instalado, podemos testar um modelo! Para isso, vamos precisar de 2 bibliotecas: **gym** (para inicialização dos ambientes) e **stable_baselines3** (para inicialização e avaliação dos modelos):

In [2]:
import gym 
from stable_baselines3.common.evaluation import evaluate_policy
from stable_baselines3 import PPO

# Definindo ambiente
env = gym.make("turing_envs:pong-easy-v0")

# Definindo modelo
model = PPO('MlpPolicy', env, seed=1, verbose=1)

# Avaliando o agente
mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=5, deterministic=True)

print(f"Recompensa Média: {mean_reward:.2f} +/- {std_reward}")



Using cpu device
Wrapping the env with a `Monitor` wrapper
Wrapping the env in a DummyVecEnv.
Recompensa Média: 3900.00 +/- 200.0


<h2 align="center">Lunar Lander</h2>

<img src="https://raw.githubusercontent.com/fakemonk1/Reinforcement-Learning-Lunar_Lander/master/images/3.gif" width=50% />

**Lunar Lander** é um ambiente do Gym que simula o pouso de um módulo lunar na Lua. O agente deve controlar os três motores do módulo para guiá-lo até a pista de pouso, sem gastar muita energia.

### Características do Ambiente

O **Espaço de Observação** do ambiente é definido por 8 informações.

| Estado    | Informação                                     |
| :-------- | :--------------------------------------------- |
| 0         | Posição no eixo _x_ do módulo                  |
| 1         | Posição no eixo _y_ do módulo                  |
| 2         | Velocidade no eixo _x_ do módulo               |
| 3         | Velocidade no eixo _y_ do módulo               |
| 4         | Ângulo do módulo                               |
| 5         | Velocidade angular do módulo                   |
| 6         | Se a perna esquerda está em contato com o chão |
| 7         | Se a perna direita está em contato com o chão  |

Já o **Espaço de Ação** é composto por quatro ações: não fazer nada, acionar o motor esquerdo, acionar o motor principal ou acionar o motor direito.

| Ação | Significado             |
| :--- | :---------------------- |
| 0    | Não fazer nada          |
| 1    | Acionar motor esquerdo  |
| 2    | Acionar motor principal |
| 3    | Acionar motor direito   |

Por fim, cada vez que tomamos uma ação, recebemos do ambiente uma **recompensa**, conforme a tabela abaixo:

| Ocorrência              | Recompensa       |
| :---------------------- | ---------------: |
| Se aproximar da pista   | Até $+140$       |
| Pousar                  | $+100$           |
| Colidir                 | $-100$           |
| Tocar uma perna no chão | $+10$            |
| Acionar motor principal | $-0.3$ por frame |

#### Lunar Lander Continuous

Também existe uma versão contínua do ambiente do Lunar Lander, no qual podemos controlar a força que cada um dos motores do módulo exercerá. Nesse caso, teremos duas ações:

| Ação | Intervalo  | Significado                          |
| :--- | :--------: | :----------------------------------- |
| 0    | $-1$ a $1$ | Força do motor principal             |
| 1    | $-1$ a $1$ | Força dos motores esquerdo e direito |

Na versão contínua, os algoritmos que poderemos usar serão diferentes, e o treinamento provavlmente será mais difícil.

### Instalação

Para instalar os ambientes do Gym que usam a engine Box2D, é necessário rodar os seguintes comandos numa célula do notebook:


**Windows**
```bat
!conda install swig
!pip install Box2D
!pip install pyglet==1.2.4
!pip install gym[box2d]
```

**Linux**
```bash
!apt install swig
!pip install Box2D
!pip install pyglet==1.2.4
!pip install gym[box2d]
```

Em seguida, para criar o ambiente, roda-se a linha de código a seguir:

```python
env = gym.make('LunarLander-v2')
```

ou

```python
env = gym.make('LunarLanderContinuous-v2')
```

### Exercício 1 - Testando Modelos

Caro piloto, agora que você conhece esses dois ambientes, é hora de brincar com eles. Você deverá testar diferentes algoritmos, e ver sua recompensa média. Para ver quais as limitações dos modelos, veja esse link (linkar baselines). Abaixo, criamos uma função que será útil para comparar os modelos posteriormente.

In [65]:
def getValues(model, env, n_episodes, info_dict):
    model_name = str(model.__class__).split('.')[-1][:-2]

    mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=n_episodes, deterministic=True)
    
    info_dict[model_name] = {}
    info_dict[model_name]["mean_reward"] = mean_reward
    info_dict[model_name]["std_reward"] = std_reward
    
    return info_dict

discrete_dict = {}
continuous_dict = {}

#### Caso Discreto

In [None]:
... # Importe o modelo do stable_baselines3

# Definindo
env = gym.make("LunarLander-v2")

model = ... # Defina o modelo 
n_episodes = ... # Defina o número de episódios

# Avaliando o agente
discrete_dict = getValues(model, env, n_episodes, discrete_dict)

In [None]:
### Espaço para o Piloto criar gráficos ou textos para mostrar os diferentes resultados entre modelos

#### Caso Contínuo

In [None]:
... # Importe o modelo do stable_baselines3

# Definindo
env = gym.make("LunarLanderContinuous-v2")

model = ... # Defina o modelo 
n_episodes = ... # Defina o número de episódios

# Avaliando o agente
continuous_dict = getValues(model, env, n_episodes, discrete_dict)

In [None]:
### Espaço para o Piloto criar gráficos ou textos para mostrar os diferentes resultados entre modelos

### Escolha do Algoritmo

 - Por que escolheu o algoritmo?
   - Motivo pode ser baseado na teoria ou na prática.
 - Testou mais de um?

### Exercício 2 - Mudança de Hiperparâmetros

 - Interpretar as mudanças de _pelo menos_ 2 hiperparâmetros:
   - Sugestões: `gamma`, `learning_rate`.
   - Tente pensar e elaborar alguma teoria explicando os resultados encontrados.
 - [~~~Testar Policy Networks diferentes?~~~](https://stable-baselines3.readthedocs.io/en/master/guide/custom_policy.html)

In [64]:
def getValuesAndParams(model, env, n_episodes, info_dict):
    model_name = str(model.__class__).split('.')[-1][:-2]

    mean_reward, std_reward = evaluate_policy(model, env, n_eval_episodes=n_episodes, deterministic=True)
    
    if model_name not in info_dict.keys():
        info_dict[model_name] = {}
        
    if "mean_reward" not in info_dict[model_name].keys():
        info_dict[model_name]["mean_reward"] = []
        info_dict[model_name]["std_reward"] = []
        
    info_dict[model_name]["mean_reward"].append(mean_reward)
    info_dict[model_name]["std_reward"].append(std_reward)
    
    params_dict = model.get_parameters()
    if 'policy.optimizer' not in params_dict.keys():
        if "actor.optimizer" not in info_dict[model_name].keys():
            info_dict[model_name]["actor.optimizer"] = []
            info_dict[model_name]["critic.optimizer"] = []

        info_dict[model_name]["actor.optimizer"] += params_dict["actor.optimizer"]['param_groups']
        info_dict[model_name]["critic.optimizer"] += params_dict["critic.optimizer"]['param_groups']
    
    else:
        if "policy.optimizer" not in info_dict[model_name].keys():
            info_dict[model_name]["policy.optimizer"] = []
    
        info_dict[model_name]["policy.optimizer"] += params_dict["policy.optimizer"]['param_groups']
    
    return info_dict

discrete_parameters_dict = {}
continuous_parameters_dict = {}

#### Caso Discreto

In [None]:
... # Importe o modelo do stable_baselines3

# Definindo
env = gym.make("LunarLander-v2")

model = ... # Defina o modelo 
n_episodes = ... # Defina o número de episódios

# Avaliando o agente
discrete_parameters_dict = getValuesAndParams(model, env, n_episodes, discrete_parameters_dict)

#### Caso Contínuo

In [None]:
... # Importe o modelo do stable_baselines3

# Definindo
env = gym.make("LunarLanderContinuous-v2")

model = ... # Defina o modelo 
n_episodes = ... # Defina o número de episódios

# Avaliando o agente
continuous_parameters_dict = getValuesAndParams(model, env, n_episodes, continuous_parameters_dict)