# IA Taxi usando OpenAi Gym e Q-Learning

Neste problema, o objetivo principal é encontrar um passageiro em um ponto marcado em azul e entregá-lo no ponto marcado em rosa, passando pelo menor caminho.   

O mapa é fixo e conta com algumas barreiras. O táxi inicia em uma posição aleatória do mapa e suas ações possíveis são: norte, sul, leste, oeste, "embarcar" e "desembarcar". A cada episódio (um loop/execução de teste ou treinamento) é sorteado o ponto de embarque e desembarque, dentre os quatro pontos fixados no mapa.  

Como o agente deve usar sempre o menor caminho, o ambiente libera uma recompensa negativa (-1) acada movimento feito pelo táxi. Ao alcançar seu objetivo (desembarcar o passageiro no ponto correto), o ambiente presenteia o agente com uma granderecompensa positiva (+20).     

Assim, a cada episódio o agente testará várias possibilidades até entender "as regras do problema", o que acontece à medida que preenche a tabela Q de ações-valor. Ao final dos episódios, o agente já aprendeu e é capaz de agir corretamente, como mostra a execução exibida como saída ao final do treinamento.

In [None]:
#instalação do OpenIA Gym
#pip install gym

In [15]:
import numpy as np
import gym
import random

def main():

    # create Taxi environment
    env = gym.make('Taxi-v3')

    # initialize q-table
    state_size = env.observation_space.n
    action_size = env.action_space.n
    qtable = np.zeros((state_size, action_size))

    # hyperparameters
    learning_rate = 0.9
    discount_rate = 0.8
    epsilon = 1.0
    decay_rate= 0.005

    # training variables
    num_episodes = 1000
    max_steps = 99 # per episode

    # training
    for episode in range(num_episodes):

        # reset the environment
        state = env.reset()
        done = False

        for s in range(max_steps):

            # exploration-exploitation tradeoff
            if random.uniform(0,1) < epsilon:
                # explore
                action = env.action_space.sample()
            else:
                # exploit
                action = np.argmax(qtable[state,:])

            # take action and observe reward
            new_state, reward, done, info = env.step(action)

            # Q-learning algorithm
            qtable[state,action] = qtable[state,action] + learning_rate * (reward + discount_rate * np.max(qtable[new_state,:])-qtable[state,action])

            # Update to our new state
            state = new_state

            # if done, finish episode
            if done == True:
                break

        # Decrease epsilon
        epsilon = np.exp(-decay_rate*episode)

    print(f"Training completed over {num_episodes} episodes")
    input("Press Enter to watch trained agent...")

    # watch trained agent
    state = env.reset()
    done = False
    rewards = 0

    for s in range(max_steps):

        print(f"TRAINED AGENT")
        print("Step {}".format(s+1))

        action = np.argmax(qtable[state,:])
        new_state, reward, done, info = env.step(action)
        rewards += reward
        env.render()
        print(f"score: {rewards}")
        state = new_state

        if done == True:
            break

    env.close()

if __name__ == "__main__":
    main()

Training completed over 1000 episodes
Press Enter to watch trained agent...
TRAINED AGENT
Step 1
+---------+
|R: | : :[34;1m[43mG[0m[0m|
| : | : : |
| : : : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (North)
score: -1
TRAINED AGENT
Step 2
+---------+
|R: | : :[42mG[0m|
| : | : : |
| : : : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (Pickup)
score: -2
TRAINED AGENT
Step 3
+---------+
|R: | : :G|
| : | : :[42m_[0m|
| : : : : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (South)
score: -3
TRAINED AGENT
Step 4
+---------+
|R: | : :G|
| : | : : |
| : : : :[42m_[0m|
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (South)
score: -4
TRAINED AGENT
Step 5
+---------+
|R: | : :G|
| : | : : |
| : : :[42m_[0m: |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (West)
score: -5
TRAINED AGENT
Step 6
+---------+
|R: | : :G|
| : | : : |
| : :[42m_[0m: : |
| | : | : |
|[35mY[0m| : |B: |
+---------+
  (West)
score: -6
TRAINED AGENT
Step 7
+---------+
|R: | : :G|
| : | : : |