Monte Carlo é um conjunto de métodos utilizados para estimar valores de funções de recompensa ao longo do tempo, baseando-se em amostragens repetidas de trajetórias de episódios completos.

Esses métodos envolvem a simulação de múltiplas "jogadas" completas (ou episódios) dentro do ambiente, onde cada jogada vai do estado inicial até o estado final. Ao final de cada episódio, a recompensa total acumulada é utilizada para atualizar as estimativas das recompensas esperadas para os estados e ações visitados durante o episódio.

<h1>Monte Carlo Exploring Starts</h1>

In [1]:
import numpy as np

# Parâmetros
num_states = 5
num_episodes = 1000
gamma = 0.9  # Fator de desconto

In [2]:
# Inicialização
V = np.zeros(num_states)
returns = {state: [] for state in range(num_states)}

In [3]:
# Função de transição do ambiente (simplificada)
def transition(state, action):
    if action == 0:
        next_state = (state + 1) % num_states  # Exemplo de transição
    else:
        next_state = (state - 1) % num_states  # Exemplo de transição
    reward = np.random.randn()  # Recompensa aleatória
    return next_state, reward

In [4]:
# Política simples (pode ser aleatória para começar)
def policy(state, num_actions=2):
    return np.random.choice(num_actions)

In [5]:
# Função para simular um episódio (exemplo)
def simulate_episode():
    episode = []
    state = np.random.randint(0, num_states) # Estado inicial aleatório
    while state != 4:  # Suponha que o estado 4 é o estado terminal
        action = policy(state)
        next_state, reward = transition(state, action)
        reward = np.random.randn()  # Recompensa aleatória
        episode.append((state, reward))
        state = next_state
    return episode

In [6]:
# Método Monte Carlo
for _ in range(num_episodes):
    episode = simulate_episode()
    G = 0  # Retorno inicial
    for state, reward in reversed(episode):
        G = reward + gamma * G
        returns[state].append(G)
        V[state] = np.mean(returns[state])

print("Estimativa da função valor V(s):")
print(V)

Estimativa da função valor V(s):
[ 0.10101402  0.09714746  0.01654311 -0.01833288  0.        ]
