# Exemplo 3  - Taxi

Existem quatro locais designados na grade indicados por R(ed), G(reen), Y(ellow) e B(lue).  Quando o episódio começa, o táxi parte em um quadrado aleatório e o passageiro está em um local aleatório.  O táxi dirige até o local do passageiro, pega o passageiro, dirige até o destino do passageiro (outro dos quatro locais especificados) e então deixa o passageiro.  Assim que o passageiro é deixado, o episódio termina.


## Ações

 Existem 6 ações determinísticas discretas:

     0: mover para o sul

     1: mover para o norte

     2: mover para o leste

     3: mover para o oeste

     4: passageiro de coleta

     5: deixar o passageiro


## Observações

 Existem 500 estados discretos, pois existem 25 posições de táxi, 5 localizações possíveis do passageiro (incluindo o caso em que o passageiro está no táxi) e 4 localizações de destino.

 Observe que existem 400 estados que podem ser alcançados durante um episódio.  Os estados ausentes correspondem a situações em que o passageiro está no mesmo local de seu destino, pois isso normalmente sinaliza o fim de um episódio.  Quatro estados adicionais podem ser observados logo após episódios de sucesso, quando tanto o passageiro quanto o táxi estão no destino.  Isso dá um total de 404 estados discretos alcançáveis.

 Cada espaço de estado é representado pela tupla: (taxi_row, taxi_col, passage_location, destination)

 Uma observação é um número inteiro que codifica o estado correspondente.  A tupla de estado pode então ser decodificada com o método “decode”.

 Localização dos passageiros:

     0: R(ed)

     1: G(real)

     2: Y (amarelo)

     3: B(lue)

     4: no táxi

 Destinos:

     0: R(ed)

     1: G(real)

     2: Y (amarelo)

     3: B(lue)

## Recompensas

 -1 por passo, a menos que outra recompensa seja acionada.

 +20 entregando passageiros.

 -10 executar ações de “pegar” e “devolver” ilegalmente.

In [None]:
# Importando as bibliotecas necessárias
import gym
import time

# Criando o ambiente FrozenLake-v1 com renderização visual
env = gym.make("Taxi-v3", render_mode='human')

In [None]:
# observation space - states 
print(env.observation_space)
 
# actions: left -0, down - 1, right - 2, up- 3
print(env.action_space)

In [None]:
# Reiniciando o ambiente e exibindo o estado inicial
env.reset()
env.render()

print('Estado inicial do sistema')

In [None]:
# Definindo o número de iterações
numberOfIterations = 5

In [None]:
randomAction = env.action_space.sample()
env.step(randomAction)

In [None]:
# Executando interações com o ambiente
for i in range(numberOfIterations):
    # Gerando uma ação aleatória do espaço de ação
    randomAction = env.action_space.sample()

    # Executando a ação no ambiente e obtendo informações
    observation, reward, terminated, truncated, info = env.step(randomAction)

    # Exibindo o ambiente renderizado
    env.render()

    # Exibindo informações sobre a iteração
    print(f'Iteração: {i+1}, ação {randomAction} resultou em: {observation, reward, terminated, truncated, info} ')

    # Aguardando por um curto período de tempo
    time.sleep(2)

    # Verificando se o episódio foi concluído
    if terminated:
        break


In [None]:
# Fechando o ambiente
env.close()