# üèî Monte Carlo Every Visit

**Monte Carlo Every-Visit** √© um algoritmo de controle por Monte Carlo, ou seja, ele estima nossa fun√ß√£o de valor *q(s, a)* a partir dos retornos m√©dios de cada par estado-a√ß√£o, e toma a√ß√µes no ambiente com base nessas estimativas. 

Entretanto, esse algoritmo difere de outros m√©todos de Monte Carlo por utilizar todos os retornos de um par estado-a√ß√£o durante um epis√≥dio. Isso significa que, quando o nosso agente visita um estado repetido e toma uma mesma a√ß√£o, o c√°lculo da fun√ß√£o de valor levar√° em conta o retorno de todas as vezes que essa a√ß√£o foi tomada.

## Pol√≠tica Œµ-greedy

Para garantir que os m√©todos de Monte Carlo convirjam para a fun√ß√£o de valor real, √© necess√°rio seguir uma pol√≠tica que explore todas as a√ß√µes de todos os estados. Entretanto, tamb√©m √© interessante que o agente tente conseguir cada vez mais recompensas, para maximizar sua perfomance.

Assim foi desenvolvida a pol√≠tica *Œµ-greedy*, que escolhe a pr√≥xima a√ß√£o com base em um par√¢metro *Œµ*, normalmente pequeno. A cada decis√£o, a pol√≠tica tem uma probabilidade *Œµ* de escolher uma a√ß√£o aleat√≥ria, aumentando a explora√ß√£o, e uma probabilidade *1 - Œµ* de escolher a a√ß√£o associada ao maior *Q*. Dessa forma, ela estabelece um equil√≠brio entre a explora√ß√£o de a√ß√µes e a explota√ß√£o de recompensas. Essa pol√≠tica √© dada por:

$$\pi(a|S_t) \leftarrow \begin{cases} 1 - \varepsilon + \varepsilon/\left|\mathcal{A}(S_t)\right|, & \mbox{se } a = \underset{a}{\mathrm{argmax}} \, Q(S_t,a) \\ \varepsilon/\left|\mathcal{A}(S_t)\right|, & \mbox{se } a \neq \underset{a}{\mathrm{argmax}} \, Q(S_t,a) \end{cases}$$

$$\left|\mathcal{A}(S_t)\right| \rightarrow \textrm{quantidade de a√ß√µes poss√≠veis}$$

## Algoritmo

Primeiramente, devemos inicializar a nossa tabela *Q(s, a)* com valores arbitr√°rios para cada par estado-a√ß√£o. Nesse caso, vamos optar por superestimar os valores Q de modo a incentivar a explora√ß√£o do agente.

Tamb√©m inicializamos uma tabela *N(s, a)* que guarda a quantidade de retornos obtidos de cada par estado-a√ß√£o, para fazer o c√°lculo da m√©dia m√≥vel dos retornos.

Para cada epis√≥dio, vamos escolher a√ß√µes seguindo nossa pol√≠tica Œµ-greedy e guardar os estados, a√ß√µes e recompensas para cada instante *t*. Ao final, calculamos o retorno *G* de cada instante come√ßando pelo t√©rmino atualizando os valores *Q* correspondentes.

Para estimar a m√©dia dos retornos, podemos utilizar a *m√©dia m√≥vel*, de forma a realizar os c√°lculos na hora sem precisar guardar uma lista com todos os retornos. Ao inv√©s disso, precisamos guardar apenas a m√©dia anterior e a quantidade total de elementos *n*.

$${\overline {x}}_{novo} = \frac{(n - 1){\overline {x}}_{anterior} + x_n}{n}$$

Por fim, podemos ver abaixo um exemplo em pseudo-c√≥digo do funcionamento do algoritmo de Monte Carlo Every-Visit:

![On-policy every-visit MC control](imgs/MC.png)

## C√≥digo

Antes de come√ßar a programar nosso algoritmo, devemos importar a biblioteca ***gym*** e criar o ambiente *FrozenLake-v0*, que usaremos para testar o Monte Carlo Every-Visit.

In [1]:
import gym

env = gym.make("FrozenLake-v0")
env.seed(42)

[42]

Em seguida, vamos definir uma fun√ß√£o argmax, que retornar√° o √≠ndice do elemento de maior valor dentro de um vetor. Usaremos essa fun√ß√£o para escolher a a√ß√£o com maior valor *Q* dentro da nossa tabela de valores.

√â importante definir nossa pr√≥pria fun√ß√£o de argmax pois, em casos de empate, ela deve decidir aleatoriamente entre um dos √≠ndices dos elementos de maior valor.

In [2]:
def argmax(array):
    return np.random.choice(np.flatnonzero(array == array.max()))

Agora sim podemos criar o nosso agente, uma classe com os m√©todos *step*, *store_experience* e *update*:
  - `step(self, state, epsilon=0)` - Escolhe a pr√≥xima a√ß√£o a se tomar com base no estado atual.
  
  - `store_experience(self, state, action, reward)` - Guarda a tupla (*estado*, *a√ß√£o, *recompensa*) atual, para depois realizar o c√°lculo dos retornos.
  
  - `update(self)` - Atualiza a fun√ß√£o valor com base nos retornos do epis√≥dio.

In [3]:
import numpy as np
from collections import defaultdict

class MonteCarloAgent(object):
    def __init__(self, gamma, action_space):
        self.q_values = defaultdict(lambda: np.ones(action_space.n))
        self.times_visited = defaultdict(lambda: np.zeros(action_space.n))
        self.experiences = []
        self.gamma = gamma
        self.action_space = action_space
        
    def step(self, state, epsilon=0):
        if np.random.random() < epsilon:
            action = self.action_space.sample()
        else:
            action = argmax(self.q_values[state])
        return action
    
    def store_experience(self, state, action, reward):
        self.experiences.append((state, action, reward))
        
    def update(self):
        g = 0
        for state, action, reward in reversed(self.experiences):
            g = self.gamma*g + reward
            self.times_visited[state][action] += 1
            self.q_values[state][action] = ((self.times_visited[state][action]-1) * self.q_values[state][action] + g)/self.times_visited[state][action]
            
        self.experiences = []

In [4]:
agent = MonteCarloAgent(0.9, env.action_space)

In [5]:
from collections import deque

returns = deque(maxlen=1000)

for episode in range(1, 100001):
    state = env.reset()
    done = False
    
    ep_return = 0
    
    while not done:
        action = agent.step(state, epsilon=0.1)
        next_state, reward, done, _ = env.step(action)
        agent.store_experience(state, action, reward)
        state = next_state
        ep_return += reward
        
    returns.append(ep_return)
    agent.update()
    
    if episode % 500 == 0:
        print(f"Episode: {episode:5d} Success Rate: {np.mean(returns):5.4f}\r", end="")

Episode: 100000 Success Rate: 0.3980

In [6]:
from collections import deque

returns = deque(maxlen=1000)

for episode in range(1, 1001):
    state = env.reset()
    done = False
    
    ret = 0
    
    while not done:
        action = agent.step(state, epsilon=0)
        next_state, reward, done, _ = env.step(action)
        state = next_state
        ret += reward
        
    returns.append(ret)
    
print(f"Episode: {episode:5d} Success Rate: {np.mean(returns):5.4f}\r", end="")

Episode:  1000 Success Rate: 0.7190