# Resolvendo Frozen Lake com Bellman Equation

### O jogo Frozen Lake tem como objetivo principal passar por um "labirinto" congelado, sem que o personagem caia em um buraco 

### O ambiente frozen lake é composto por 4 valores:

### S - Inicio (start)

### F - Ambiente Congelado ( Frozen)

### H - Ambiente que contem um buraco (Hole)

### G - É o Objetivo (Goal)

In [72]:
import gym
import numpy as np

In [74]:
# criação do ambiente
env = gym.make("FrozenLake-v0")

In [75]:
# reset do ambiente
env.reset()

0

In [76]:
# renderização do ambiente
env.render()


[41mS[0mFFF
FHFH
FFFH
HFFG


In [94]:
# cria uma função (Bellman) para encontrar o valor otimizado de cada um dos 16 estados do jogo Fronze-Lake
def value_iteration(env):
    # Numero de vezes que ira interagir com o jogo
    num_iterations = 1000
    #Valor que limita se a funcao está pronta 
    threshold = 1e-20
    # define o gamma
    gamma = 1.0    
    # Cria um array com o comprimento de 16 (todos os estados possiveis de percorrer no jogo) 
    value_table = np.zeros(env.observation_space.n)
    
    for i in range(num_iterations):
        # Cria uma copia de value_table, essa variavel é ultilizada na formula de otimização 
        updated_value_table = np.copy(value_table) 
             
        for s in range(env.observation_space.n):
            # Q e um array com 4 resultados onde cada resultado e uma ação (cima,baixo,esquerda,direita)
            # a ideia dessa funcao é interagir com o cenário diversar vezes e encontrar a melhor ação para cada um dos 16 estados
            Q_values = [sum([prob*(r + gamma * updated_value_table[s_])
                                 for prob, s_, r, _ in env.P[s][a]])
                                   for a in range(env.action_space.n)]
                                        
            value_table[s] = max(Q_values)
                    
        # caso o valor Q esteja otimizado a função sera finzaliada e será retornado a tabela com os valores otimizados 
        if (np.sum(np.fabs(updated_value_table - value_table)) <= threshold):
            break
    
    return value_table

In [95]:
# essa função retorna o melhor comando possivel para cada um dos 16 estados 
def extract_policy (value_table):
    gamma = 1.0
    
    policy = np.zeros(env.observation_space.n)
    for s in range (env.observation_space.n):
        Q_values = [sum([prob*(r + gamma * value_table[s_])
                        for prob, s_, r, _ in env.P[s][a]])
                            for a in range(env.action_space.n)]
        policy[s] = np.argmax(np.array(Q_values))
    return policy

In [71]:
# o resultado é o melhor comnado que deve ser inserido para percorrer o lago sem cair em um buraco
optimal_value_function = value_iteration(env)
optimal_policy = extract_policy(optimal_value_function)
print (optimal_policy)

[0. 3. 3. 3. 0. 0. 0. 0. 3. 1. 0. 0. 0. 2. 1. 0.]


In [100]:
# Testando o resultado
t = 0
for h in range(100):
    env.reset()
    ###env.render()
    l = env.step(int(optimal_policy[0]))
    ###env.render()
    for x in range (1000):
        ###print ("episode: {}" .format (h))
        l = env.step(int(optimal_policy[l[0]]))
        ###env.render()
        if int(l[0]) == 15:
            t += 1
            break

In [101]:
# A porcentagem de acerto pode varia cada vez que o codigo é executado.
print("O agente completou com sucesso {} % das tentativas" .format((t/100 * 100)))

O agente completou com sucesso 90.0 % das tentativas
