[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/pablo-sampaio/rl_facil/blob/main/cap04/cap04-main.ipynb)

# Capítulo 4 - Funções de Valor e Algoritmos de Monte Carlo


In [None]:
from IPython.display import clear_output
import sys

IN_COLAB = 'google.colab' in sys.modules

if IN_COLAB:
    # for saving videos
    !apt-get install ffmpeg

    !pip install gymnasium   # conferir se precisa

    # clone repository
    !git clone https://github.com/pablo-sampaio/rl_facil
    sys.path.append("/content/rl_facil")

    clear_output()
else:
    from os import path
    sys.path.append( path.dirname( path.dirname( path.abspath("__main__") ) ) )


In [None]:
import time
import gymnasium as gym
import numpy as np

from util.plot import plot_result
from util.qtable_helper import record_video_qtable, evaluate_qtable
from util.notebook import display_videos_from_path

## 1 - Introdução

Vamos relembrar alguns conceitos da aula passada que serão muito úteis nesta aula.


### 1.1 Retornos Parciais Descontados

Os retornos parciais são calculados a partir de um passo $t$ qualquer da trajetória:

$$
\begin{align*}
   && &\quad G_0     &= &\;\;R_1 &+ \gamma &R_2 &+ \gamma^2 &R_3 &+ \gamma^3 &R_4 &+ \gamma^4 &R_5 &+ \;\cdots \;&+ \gamma^{T-1} &R_T & \;\;\;(= G) \\
   && &\quad G_1     &= &        &         &R_2 &+ \gamma   &R_3 &+ \gamma^2 &R_4 &+ \gamma^3 &R_5 &+ \;\cdots \;&+ \gamma^{T-2} &R_T &       \\
   && &\quad G_2     &= &        &         &    &           &R_3 &+ \gamma   &R_4 &+ \gamma^2 &R_5 &+ \;\cdots \;&+ \gamma^{T-3} &R_T &       \\
   && &\quad         &\cdots &   & & & & & & & & & & &    & \\
   && &\quad G_T     &= &        & & & & & & & & & & &0   & \\
\end{align*}
$$

Lembrando que, para $t < T$ qualquer, observamos esta relação:

$$
   G_{t} = R_{t+1} + \gamma G_{t+1}
$$

### 1.2 - Função de valor do estado $V(s)$

Esta função dá o retorno parcial esperado a partir de cada estado $s$, para uma política específica.

Informalmente, $V(s)$ responde esta pergunta:

*Partindo do estado **s**, qual o retorno parcial esperado (médio), se o agente continuar seguindo a mesma política*

### 1.3 - Função de valor da ação $Q(s,a)$

Esta é a função mais importante para esta aula.

De maneira informal, $Q(s,a)$ responde a esta pergunta:

*Partindo do estado **s** e, em seguida, fazendo a ação **a**, qual o retorno esperado (médio), se continuar seguindo a mesma política?*


### 1.4 Algoritmos de Monte Carlo

***O que são algoritmos de Monte Carlo?***

 - Utilizam amostragem aleatória para resolver problemas ou estimar quantidades que são difíceis de calcular diretamente.
 - Envolvem a geração de um grande número de amostras ou simulações aleatórias para tirar conclusões ou fazer previsões.
 - Usados em várias áreas (não só na Aprendizagem por Reforço).

Vimos, antes, dois algoritmos de Monte Carlo para o problema de **predição** da aprendizagem por reforço, para estimar os valores de $V(s)$ e de $Q(s,a)$.

Aqui, veremos algoritmos de Monte Carlo para o problema de **controle** da aprendizagem por reforço.
- Para aprender a política ótima (ou quase)!

Os algoritmos de controle que veremos se baseiam na **função de valor da ação `Q(s,a)`**.

## 2 - Algoritmo de Monte Carlo (para Controle) - Versão 1

Este algoritmo roda vários episódios, fazendo estes passos a cada episódio:

1. Gera a **trajetória** completa (sequência de estados/observações, ações e recompensas) do episódio:

    $S_0 \rightarrow A_0 \rightarrow R_1 \rightarrow S_1 \rightarrow A_1 \rightarrow R_2 \rightarrow S_2 \rightarrow \cdots S_{n-1} \rightarrow A_{n-1} \rightarrow R_T \rightarrow S_T$

2. Para escolher a ação $a$, a ser realizada em um estado $s$, ele usa a tabela $Q(s,a)$ com alguma estratégia de exploração -- vamos usar $\epsilon$-greedy. Assim, ele escolhe dessa forma:

   - com probabilidade $\epsilon$, ele escolhe uma ação $a$ qualquer
   - com probabilidade $(1-\epsilon)$, ele escolhe a melhor ação, ou seja, $\operatorname{argmax}_a{Q(s,a)}$
   <br>
3. Ao fim do episódio, para cada par intermediário ($S_t$, $A_t$) da trajetória, ele:
   - calcula o retorno parcial $G_t$.
   - usa $G_t$ para atualizar $Q(S_t, A_t)$


In [None]:
# Esta é a política. Neste caso, escolhe uma ação com base nos valores
# da tabela Q, usando uma estratégia epsilon-greedy.
def choose_action(Q, state, num_actions, epsilon):
    if np.random.random() < epsilon:
        return np.random.randint(0, num_actions)
    else:
        return np.argmax(Q[state]) # em caso de empates: menor índice/ação

In [None]:
# Algoritmo Monte-Carlo de Controle, variante "toda-visita".
# Atenção: os espaços de estados e de ações precisam ser discretos, dados por valores inteiros
def run_montecarlo1(env, episodes, gamma=0.95, epsilon=0.1, render=False):
    num_actions = env.action_space.n

    # dicionário com todos os retornos descontados, para cada par (estado,ação)
    returns_history = dict()

    # inicializa a tabela Q toda com zero,
    # usar o estado como índice das linhas e a ação como índice das colunas
    Q = np.zeros(shape = (env.observation_space.n, num_actions))

    # para cada episódio, guarda sua soma de recompensas (retorno não-descontado)
    sum_rewards_per_ep = []

    # loop principal
    for i in range(episodes):
        done = False
        episode_reward, reward = 0, 0
        ep_trajectory = []

        state, _ = env.reset()

        # [1] Executa um episódio completo, salvando a trajetória
        while not done:
            # exibe/renderiza os passos no ambiente, durante 1 episódio a cada mil e também nos últimos 5 episódios
            if render and (i >= (episodes - 5) or (i+1) % 1000 == 0) and not IN_COLAB:
                env.render()

            # [2] Escolhe a próxima ação -- usa epsilon-greedy
            action = choose_action(Q, state, num_actions, epsilon)

            # realiza a ação, ou seja, dá um passo no ambiente
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated

            # adiciona a tripla que representa este passo
            ep_trajectory.append( (state, action, reward) )

            episode_reward += reward
            state = next_state

        sum_rewards_per_ep.append(episode_reward)

        # a cada 100 episódios, imprime informação sobre o progresso
        if (i+1) % 100 == 0:
            avg_reward = np.mean(sum_rewards_per_ep[-100:])
            print(f"Episode {i+1} Average Reward (last 100): {avg_reward:.3f}")

        # [3] Calcula os retornos parciais e atualiza Q
        Gt = 0
        for (s, a, r) in reversed(ep_trajectory):
            Gt = r + gamma*Gt

            if returns_history.get((s,a)) is None:
                returns_history[s,a] = [ Gt ]
            else:
                returns_history[s,a].append(Gt)

            # média entre todas as ocorrências de (s,a) encontradas nos episódios
            Q[s,a] = np.mean(returns_history[s,a]) # LENTO!
            # IDEIA: usar cálculo alternativo da média: M = M + (1/n)*(x - M)

    # para gerar um vídeo no Colab
    if render and IN_COLAB:
        clear_output()

    return sum_rewards_per_ep, Q

In [None]:
# estes dois ambientes possuem estados e ações discretas
# ver mais em: https://gymnasium.farama.org/
ENV_NAME = "Taxi-v3"
#ENV_NAME = "FrozenLake-v1"

# usar 10 para Taxi e 1.0 para FrozenLake
r_max_plot = 10.0
#r_max_plot = 1.0

EPISODES = 3_000
GAMMA = 0.95
EPSILON = 0.1

env = gym.make(ENV_NAME)

# Roda o algoritmo Monte-Carlo para o problema de controle (ou seja, para achar a política ótima)
rewards1, qtable1 = run_montecarlo1(env, EPISODES, GAMMA, EPSILON, render=True)
print("Últimos resultados: media =", np.mean(rewards1[-20:]), ", desvio padrao =", np.std(rewards1[-20:]))

In [None]:
# Mostra um gráfico de episódios x retornos não descontados
# Se quiser salvar, passe o nome do arquivo no 3o parâmetro
#filename = f"results/montecarlo1-{ENV_NAME.lower()[0:8]}-ep{EPISODES}.png"
plot_result(rewards1, r_max_plot, None)

In [None]:
evaluate_qtable(env, qtable1, 20, verbose=True);

In [None]:
record_video_qtable(ENV_NAME, qtable1, length=1_000, folder='videos/', prefix='mcarlo-1')
display_videos_from_path('videos/', prefix='mcarlo-1')

## 3 - Algoritmo de Monte Carlo (para Controle) - Versão 2

Modifique o código acima com essas características:
1. Mantenha o uso de `choose_action()` para escolher a ação.
1. Remova o **histórico** de retornos parciais.
1. Use uma **taxa de aprendizagem**, representada pelo parâmetro `lr`.

Faça as melhorias abaixo:

In [None]:
# Algoritmo Monte-Carlo de Controle, variante "toda-visita".
# Atenção: os espaços de estados e de ações precisam ser discretos, dados por valores inteiros
def run_montecarlo2(env, episodes, lr=0.1, gamma=0.95, epsilon=0.1, render=False):
    assert isinstance(env.observation_space, gym.spaces.Discrete)
    assert isinstance(env.action_space, gym.spaces.Discrete)

    num_actions = env.action_space.n

    # inicializa a tabela Q toda com zero,
    # usar o estado como índice das linhas e a ação como índice das colunas
    Q = np.zeros(shape = (env.observation_space.n, num_actions))

    # para cada episódio, guarda sua soma de recompensas (retorno não-descontado)
    sum_rewards_per_ep = []

    # loop principal
    for i in range(episodes):
        done = False
        sum_rewards, reward = 0, 0
        ep_trajectory = []

        state, _ = env.reset()

        # [1] Executa um episódio completo, salvando a trajetória
        while not done:
            # exibe/renderiza os passos no ambiente, durante 1 episódio a cada mil e também nos últimos 5 episódios
            if render and (i >= (episodes - 5) or (i+1) % 1000 == 0) and not IN_COLAB:
                env.render()

            # [2] Escolhe a próxima ação -- usa epsilon-greedy
            action = choose_action(Q, state, num_actions, epsilon)

            # realiza a ação, ou seja, dá um passo no ambiente
            next_state, reward, terminated, truncated, _ = env.step(action)
            done = terminated or truncated

            # adiciona a tripla que representa este passo
            ep_trajectory.append( (state, action, reward) )

            sum_rewards += reward
            state = next_state

        sum_rewards_per_ep.append(sum_rewards)

        # a cada 100 episódios, imprime informação sobre o progresso
        if (i+1) % 100 == 0:
            avg_reward = np.mean(sum_rewards_per_ep[-100:])
            print(f"Episode {i+1} Average Reward (last 100): {avg_reward:.3f}")

        # [3] Calcula os retornos parciais e atualiza Q
        Gt = 0
        for (s, a, r) in reversed(ep_trajectory):
            Gt = r + gamma*Gt
            # MODIFICAÇÂO SOLICITADA:
            Q[s,a] = (1.0 - lr)*Q[s,a] + lr*Gt

    return sum_rewards_per_ep, Q

Quando o código estiver pronto, você poderá testar rodando o código abaixo:

In [None]:
## ATENÇÃO: faça as MELHORIAS ACIMA antes de executar aqui!

ENV_NAME = "Taxi-v3"
#ENV_NAME = "FrozenLake-v1"

r_max_plot = 10.0
#r_max_plot = 1.0

EPISODES = 20_000
LR = 0.05
GAMMA = 0.95
EPSILON = 0.1

env = gym.make(ENV_NAME)

# Roda o algoritmo Monte-Carlo para o problema de controle (ou seja, para achar a política ótima)
rewards2, qtable2 = run_montecarlo2(env, EPISODES, LR, GAMMA, EPSILON, render=True)
print("Últimos resultados: media =", np.mean(rewards2[-20:]), ", desvio padrao =", np.std(rewards2[-20:]))

In [None]:
# Mostra um gráfico de episódios x retornos não descontados
# Se quiser salvar, passe o nome do arquivo no 3o parâmetro
#filename = f"results/montecarlo2-{ENV_NAME.lower()[0:8]}-ep{EPISODES}.png"
plot_result(rewards2, r_max_plot, None)

In [None]:
evaluate_qtable(env, qtable2, 20, verbose=True);

In [None]:
record_video_qtable(ENV_NAME, qtable2, length=1_000, folder='videos/', prefix='mcarlo-2')
display_videos_from_path('videos/', prefix='mcarlo-2')

## 4 - Experimentos Finais


In [None]:
from util.experiments import repeated_exec
from util.plot import plot_multiple_results

Vamos comparar os algoritmos aqui propostos.

In [None]:
NUM_EPISODES = 15_000

enviroment = gym.make("Taxi-v3")
#enviroment = gym.make("FrozenLake-v1")

In [None]:
results = []

# muito lento, se usar o histórico completo!
#results.append( repeated_exec(1, "Monte-Carlo1", run_montecarlo1, enviroment, NUM_EPISODES) )

for learning_rate in [0.01, 0.1, 0.5]:
    results.append( repeated_exec(5, f"Monte-Carlo2 (LR={learning_rate})", run_montecarlo2, enviroment, NUM_EPISODES, learning_rate) )

clear_output()

In [None]:
plot_multiple_results(results, cumulative=False, x_log_scale=False, window=50)