# Exemplo 2 - Frozen Lake

Este ambiente é ilustrado na figura abaixo.

![Clipboard02.jpg](attachment:Clipboard02.jpg)

Temos 16 estados, denotados por 0,1,2,…,15.  Cada estado corresponde a um determinado campo que pode ser um campo congelado (F), buraco (H), estado inicial (S), do estado objetivo (G).  Nosso objetivo é atingir o estado objetivo começando pelo estado inicial e evitando o estado hole.

![file1-2-624x624.png](attachment:file1-2-624x624.png)

Nesta célula, estamos importando as bibliotecas necessárias e criando o ambiente "FrozenLake-v1" com renderização visual. A renderização visual permitirá que observemos a simulação do ambiente.

In [7]:
# Importando as bibliotecas necessárias
import gym
import time

# Criando o ambiente FrozenLake-v1 com renderização visual
env = gym.make("FrozenLake-v1", render_mode='human')


In [8]:
# observation space - states 
print(env.observation_space)
 
# actions: left -0, down - 1, right - 2, up- 3
print(env.action_space)

Discrete(16)
Discrete(4)


Aqui, estamos reiniciando o ambiente para o estado inicial e exibindo visualmente o estado usando env.render(). Também estamos imprimindo uma mensagem para indicar que estamos no estado inicial do sistema.

In [9]:
# Reiniciando o ambiente e exibindo o estado inicial
env.reset()
env.render()

print('Estado inicial do sistema')


Estado inicial do sistema


In [10]:
# Definindo o número de iterações
numberOfIterations = 5

Nesta célula, estamos definindo o número de iterações que desejamos executar no loop.

Aqui, estamos executando o loop com base no número de iterações definido anteriormente. A cada iteração:

* Geramos uma ação aleatória do espaço de ação do ambiente.
* Executamos a ação no ambiente usando env.step(randomAction) e obtemos informações sobre o estado resultante.
* Exibimos o ambiente renderizado usando env.render() para visualizar a mudança no estado.
* Imprimimos informações sobre a iteração, incluindo o número da iteração e a ação escolhida.
* Aguardamos por um curto período de tempo usando time.sleep(2) para que possamos observar as mudanças no ambiente.
* Verificamos se o episódio foi concluído usando returnValue[2] e, se for verdadeiro, interrompemos o loop.

In [11]:
# Executando interações com o ambiente
for i in range(numberOfIterations):
    # Gerando uma ação aleatória do espaço de ação
    randomAction = env.action_space.sample()

    # Executando a ação no ambiente e obtendo informações
    observation, reward, terminated, truncated, info = env.step(randomAction)

    # Exibindo o ambiente renderizado
    env.render()

    # Exibindo informações sobre a iteração
    print(f'Iteração: {i+1}, ação {randomAction} resultou em: {observation, reward, terminated, truncated, info} ')

    # Aguardando por um curto período de tempo
    time.sleep(2)

    # Verificando se o episódio foi concluído
    if terminated:
        break


Iteração: 1, ação 2 resultou em: (1, 0.0, False, False, {'prob': 0.3333333333333333}) 
Iteração: 2, ação 2 resultou em: (2, 0.0, False, False, {'prob': 0.3333333333333333}) 
Iteração: 3, ação 1 resultou em: (6, 0.0, False, False, {'prob': 0.3333333333333333}) 
Iteração: 4, ação 0 resultou em: (10, 0.0, False, False, {'prob': 0.3333333333333333}) 
Iteração: 5, ação 0 resultou em: (6, 0.0, False, False, {'prob': 0.3333333333333333}) 


Por exemplo:

`(0, 0.0, False, False, {‘prob’: 0.3333333333333333})`

Isso implica que o estado final é 0, a recompensa é 0, “False” significa que o estado final não é um estado terminal (não chegamos ao buraco ou ao estado objetivo), outro valor de retorno booleano “False” não é importante para esta discussão, e {'prob': 0,3333333333333333} é a probabilidade de transição de nosso estado inicial 0 para o estado 0.

In [None]:
# Fechando o ambiente
env.close()
