<h1>Políticas Epsilon Soft (ou políticas ε-soft):</h1><p> são um tipo de política no aprendizado por reforço que balanceia a exploração e a exploração das ações. Essas políticas garantem que o agente explore diferentes ações com uma probabilidade mínima, evitando que fique preso a uma política subótima.

<h1>Funcionamento de uma Política Epsilon Soft</h1>
<h2>Em cada estado, o agente escolhe uma ação:</h2><p>
Com probabilidade ε, escolhe uma ação aleatoriamente (exploração).<p>
Com probabilidade (1 - ε), escolhe a melhor ação conhecida (exploração).


<h1>Vantagens</h1>
<h2>Evita Convergência Prematura:</h2><p> Garante que todas as ações sejam exploradas em algum grau, evitando que o agente fique preso em um máximo local.<p>
<h2>Melhora a Aprendizagem:</h2><p> Ao explorar diferentes ações, o agente pode descobrir políticas melhores que não seriam encontradas se sempre seguisse a política atual.

In [None]:
import numpy as np

# Parâmetros
num_states = 5
num_actions = 2
epsilon = 0.1  # Parâmetro epsilon para a política epsilon-soft
alpha = 0.1  # Taxa de aprendizagem
gamma = 0.9  # Fator de desconto
num_episodes = 1000

In [None]:
# Inicialização das funções de valor Q(s, a)
Q = np.zeros((num_states, num_actions))
Q

array([[0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.],
       [0., 0.]])

In [None]:
# Política epsilon-greedy
def epsilon_greedy_policy(state):
    if np.random.rand() < epsilon:
        return np.random.randint(num_actions)  # Exploração: ação aleatória
    else:
        return np.argmax(Q[state])  # Exploração: melhor ação conhecida

In [None]:
# Função de transição do ambiente (simplificada)
def transition(state, action):
    next_state = (state + action) % num_states  # Exemplo de transição
    reward = np.random.randn()  # Recompensa aleatória
    return next_state, reward

In [None]:
# Simulação de episódios usando política epsilon-greedy
def simulate_episode(start_state=0):
    episode = []
    state = start_state
    while state != 4:  # Suponha que o estado 4 é o estado terminal
        action = epsilon_greedy_policy(state)
        next_state, reward = transition(state, action)
        episode.append((state, action, reward))
        state = next_state
    return episode

In [None]:
for _ in range(num_episodes):
    start_state = np.random.randint(0, num_states)
    episode = simulate_episode(start_state)
    for state, action, reward in episode:
        next_state = (state + action) % num_states
        best_next_action = np.argmax(Q[next_state])
        td_target = reward + gamma * Q[next_state, best_next_action]
        td_error = td_target - Q[state, action]
        Q[state, action] += alpha * td_error

print("Estimativa da função Q(s, a):")
print(Q)

Estimativa da função Q(s, a):
[[-0.58180673 -0.22483632]
 [ 0.49415017 -0.20042607]
 [-0.47237721  0.34583118]
 [-0.70540032 -0.0633433 ]
 [ 0.          0.        ]]
