# IA Taxi usando OpenAi Gym e Q-Learning

Neste problema, o objetivo principal é encontrar um passageiro em um ponto marcado em azul e entregá-lo no ponto marcado em rosa, passando pelo menor caminho.   

O mapa é fixo e conta com algumas barreiras. O táxi inicia em uma posição aleatória do mapa e suas ações possíveis são: norte, sul, leste, oeste, "embarcar" e "desembarcar". A cada episódio (um loop/execução de teste ou treinamento) é sorteado o ponto de embarque e desembarque, dentre os quatro pontos fixados no mapa.  

Como o agente deve usar sempre o menor caminho, o ambiente libera uma recompensa negativa (-1) acada movimento feito pelo táxi. Ao alcançar seu objetivo (desembarcar o passageiro no ponto correto), o ambiente presenteia o agente com uma granderecompensa positiva (+20).     

Assim, a cada episódio o agente testará várias possibilidades até entender "as regras do problema", o que acontece à medida que preenche a tabela Q de ações-valor. Ao final dos episódios, o agente já aprendeu e é capaz de agir corretamente, como mostra a execução exibida como saída ao final do treinamento.

In [None]:
#instalação do OpenIA Gym
#pip install gym

In [3]:
import numpy as np
import gym
import random

def main():

    # inicializando o ambiente
    # todas as propriedades e metodos do ambiente já estão definidas pela biblioteca gyn
    env = gym.make('Taxi-v3')

    # declaramos então a tabela Q, baseado na combinação entre todas as possíveis ações e estados
    # para alguns problemas, uma abordagem desse tipo pode não ser possível
    state_size = env.observation_space.n
    action_size = env.action_space.n
    qtable = np.zeros((state_size, action_size))

    # hyperparametros de aprendizado
    learning_rate = 0.9
    discount_rate = 0.8
    epsilon = 1.0
    decay_rate= 0.005

    # variáveis auxiliares
    # numero de loops/experiências de treinamento
    num_episodes = 1000
    # quantidade máxima de ações antes de encerrar um episódio
    # evita que o agente entre em algum loop infinito
    max_steps = 99 # per episode

    # treinamento
    for episode in range(num_episodes):

        # inicializa o ambiente
        state = env.reset()
        # variável de controle usada como saída do ambiente ao fim de um episódio
        done = False

        # "passos" são dados a cada vez que o agente executa uma ação
        # é o mesmo que quando dizemos "um passo mais perto do objetivo final"
        for s in range(max_steps):

            # combinação entre exploration e exploitation
            # para que o agente seja capaz de 
            if random.uniform(0,1) < epsilon:
                # exploration
                action = env.action_space.sample()
            else:
                # exploit
                action = np.argmax(qtable[state,:])

            # toma a ação passada por parâmetro, recebe a recompensa, testa se a tarefa fo concluida
            # recebe o novo estado depois da ação e as informações restantes
            # tudo isso é retornado como saída do ambiente Taxi-Gym a cada "passo" dado pelo agente 
            new_state, reward, done, info = env.step(action)

            # preenchimento da tabela de aprendizado Q sobre a ação tomada naquele dado estado
            qtable[state,action] = qtable[state,action] + learning_rate * (reward + discount_rate * np.max(qtable[new_state,:])-qtable[state,action])

            # atualização do estado
            state = new_state

            # conferencia do fim do episódio
            if done == True:
                break

        # recalculo do valor de exploração
        epsilon = np.exp(-decay_rate*episode)

    print(f"Treinamento completo em {num_episodes} episodios")

    # exibindo o treinamento
    # repete o passo a passo realizado, executando para um episódio apenas
    # para que o agente demonstre a política que aprendeu
    state = env.reset()
    done = False
    rewards = 0

    for s in range(max_steps):

        print(f"AGENTE TREINADO")
        print("Step {}".format(s+1))

        action = np.argmax(qtable[state,:])
        new_state, reward, done, info = env.step(action)
        rewards += reward
        env.render()
        print(f"score: {rewards}")
        state = new_state

        if done == True:
            break

    env.close()

if __name__ == "__main__":
    main()

Treinamento completo em 1000 episodios
AGENTE TREINADO
Step 1
+---------+
|[35mR[0m: | : :G|
| : | : : |
| : : : : |
| | : | :[43m [0m|
|Y| : |[34;1mB[0m: |
+---------+
  (South)
score: -1
AGENTE TREINADO
Step 2
+---------+
|[35mR[0m: | : :G|
| : | : : |
| : : : : |
| | : |[43m [0m: |
|Y| : |[34;1mB[0m: |
+---------+
  (West)
score: -2
AGENTE TREINADO
Step 3
+---------+
|[35mR[0m: | : :G|
| : | : : |
| : : : : |
| | : | : |
|Y| : |[34;1m[43mB[0m[0m: |
+---------+
  (South)
score: -3
AGENTE TREINADO
Step 4
+---------+
|[35mR[0m: | : :G|
| : | : : |
| : : : : |
| | : | : |
|Y| : |[42mB[0m: |
+---------+
  (Pickup)
score: -4
AGENTE TREINADO
Step 5
+---------+
|[35mR[0m: | : :G|
| : | : : |
| : : : : |
| | : |[42m_[0m: |
|Y| : |B: |
+---------+
  (North)
score: -5
AGENTE TREINADO
Step 6
+---------+
|[35mR[0m: | : :G|
| : | : : |
| : : :[42m_[0m: |
| | : | : |
|Y| : |B: |
+---------+
  (North)
score: -6
AGENTE TREINADO
Step 7
+---------+
|[35mR[0m: | : :G|
| 