# Exercício 07 - Reinforcement Learning

## Q-Learning vs Sarsa - Ambiente não-determinístico

**Autores: Jorás e Renato**

Este projeto tem o objetivo de treinar modelos de reinforcement learning baseados nos algoritmos Q-Learning e Sarsa para o ambiente do Frozen Lake.

In [1]:
from src.frozen_lake import frozen_lake
from src.plotter import plotter
from src.hyperparameters_data import Hyperparameters
from src.parameters_data import Parameters

Os conjuntos de hiperparâmetros que serão utilizados para treinamento e avaliação dos agentes estão definidos abaixo:

In [2]:
hyperparameters_1 = Hyperparameters(
    alpha=0.1,
    gamma=0.99,
    epsilon=0.6,
    epsilon_min=0.05,
    epsilon_dec=0.99
)

hyperparameters_2 = Hyperparameters(
    alpha=0.05,
    gamma=0.98,
    epsilon=0.9,
    epsilon_min=0.05,
    epsilon_dec=0.99
)

## Rotina de treinamento

Inicialmente, deve ser realizado o treinamento dos agentes. **Quatro** agentes diferentes serão treinados:

1. Algoritmo Q-Learning para o primeiro conjunto de hiperparâmetros;
2. Algoritmo Sarsa para o primeiro conjunto de hiperparâmetros;
3. Algoritmo Q-Learning para o segundo conjunto de hiperparâmetros;
4. Algoritmo Sarsa para o segundo conjunto de hiperparâmetros;

In [3]:
for algorithm in ["q-learning", "sarsa"]:
    for i, hyperparameters in enumerate([hyperparameters_1, hyperparameters_2]):
        parameters = Parameters(
            filename=f"new-{algorithm}-hyperparameters-{i+1}",
            data_dir="data",
            results_dir="results",
            train=True,
            episodes=18000
        )
        frozen_lake(hyperparameters, parameters, algorithm)

Training the agent for 18000 episodes.
Training the agent for 18000 episodes.
Training the agent for 18000 episodes.
Training the agent for 18000 episodes.
Episodes: 18000

Abaixo estão expostos os gráficos das curvas de aprendizado de cada agente:

In [4]:
for algorithm in ["q-learning", "sarsa"]:
    for i, hyperparameters in enumerate([hyperparameters_1, hyperparameters_2]):
        plotter(
            filename=f"new-{algorithm}-hyperparameters-{i+1}",
            data_dir="data",
            results_dir="results",
            algorithm=algorithm,
            hyperparameters=hyperparameters
        )

![learning curve q-learning 1](results/q-learning-hyperparameters-1.png)
![learning curve q-learning 2](results/q-learning-hyperparameters-2.png)
![learning curve sarsa 1](results/sarsa-hyperparameters-1.png)
![learning curve sarsa 2](results/sarsa-hyperparameters-2.png)

## Rotina de avaliação dos agentes

Para avaliar cada um dos agentes, eles serão testados diversas vezes no ambiente, com o objetivo de se obter o desempenho do agente, que será dado pela média da quantidade de vezes que o mesmo chegou até o destino final sem cair em um buraco.

In [5]:
performance_dict = {}
number_of_experiments = 100
for algorithm in ["q-learning", "sarsa"]:
    for i, hyperparameters in enumerate([hyperparameters_1, hyperparameters_2]):
        filename = f"{algorithm}-hyperparameters-{i+1}"
        parameters = Parameters(
            filename=filename,
            data_dir="data",
            results_dir="results",
            train=False
        )
        performance_dict[filename] = 0
        for j in range(number_of_experiments):
            performance_dict[filename] += frozen_lake(hyperparameters, parameters, algorithm)
        performance_dict[filename] /= number_of_experiments

As seguintes são as performances de cada algoritmo calculada, dada pela porcentagem média de vezes que chega ao destino sem cair no buraco:

In [6]:
for agent, performance in performance_dict.items():
    print(f"Performance do agente {agent}: {performance}%")

Performance do agente q-learning-hyperparameters-1: 72.71%
Performance do agente q-learning-hyperparameters-2: 73.49%
Performance do agente sarsa-hyperparameters-1: 71.05%
Performance do agente sarsa-hyperparameters-2: 73.15%


## Conclusão

Considerando que se trata de um ambiente não determinístico, isto é, nem sempre o ambiente responde às ações do agente da mesma maneira, podemos analisar um comportamento interessante em relação à escolha de um hiperparâmetro epsilon ($\epsilon$) maior. Embora este parâmetro aumente a possibilidade de o agente escolher uma ação aleatoriamente, aumentando consecutivamente o não-determinismo de suas ações, esta escolha também mostrou uma tendência a aumentar a recompensa média à longo prazo, ao custo de uma curva de aprendizado mais lenta.

Por outro lado, quando o valor de epsilon é menor, o agente tende a realizar suas escolhas de forma mais consciente, buscando maximizar sempre o retorno, de acordo com a Q-Table. No entanto, esta preferência pelo exploit da Q-Table não se mostra tão recompensador, pois o próprio ambiente sabota estas decisões, exatamente por causa de seu comportamento não-determinístico.

De forma geral, o Q-Learning demonstrou uma performance ligeiramente superior ao Sarsa, possivelmente se dando por conta de suas características mais conservadoras na escolha da próxima ação.