In [1]:
import gym
import random
import os
os.environ["SDL_VIDEODRIVER"] = "dummy"

In [2]:
env = gym.make('Taxi-v3').env

In [3]:
env.reset()
env.render()

+---------+
|R: | : :[35mG[0m|
| : | : :[43m [0m|
| : : : : |
| | : | : |
|[34;1mY[0m| : |B: |
+---------+



In [4]:
print(env.action_space)

Discrete(6)


In [5]:
print(env.observation_space)

Discrete(500)


In [6]:
import numpy as np
q_table = np.zeros([env.observation_space.n, env.action_space.n])
q_table.shape

(500, 6)

## Treinamento

In [7]:
%%time
from IPython.display import clear_output

alpha = 0.1
gamma = 0.6
epsilon = 0.1

for i in range(100000):
    estado = env.reset()
    
    penalidades, recompensa = 0, 0
    done = False
    while not done:
        if random.uniform(0, 1) <= epsilon:
            acao = env.action_space.sample()
        else:
            acao = np.argmax(q_table[estado])
            
        proximo_estado, recompensa, done, info = env.step(acao)
        
        q_antigo = q_table[estado, acao]
        proximo_maximo = np.max(q_table[proximo_estado])
        
        q_novo = (1 - alpha) * q_antigo + alpha * (recompensa + gamma * proximo_maximo)
        q_table[estado, acao] = q_novo
        
        if recompensa == -10:
            penalidades += 1
        
        estado = proximo_estado

    if i % 100 == 0:
        clear_output(wait=True)
        print("Episódio: ", i)

print("Treinamento Concluído")
            
            

Episódio:  99900
Treinamento Concluído
CPU times: total: 36.7 s
Wall time: 34.6 s


# Atividade

In [8]:
total_penalidades = 0
episodios = 50
frames = []

for _ in range(episodios):
  estado = env.reset()
  penalidades, recompensa = 0, 0
  done = False
  while not done:
    acao = np.argmax(q_table[estado])
    estado, recompensa, done, info = env.step(acao)

    if recompensa == -10:
      penalidades += 1
    
    frames.append({
        'frame': env.render(mode='ansi'),
        'state': estado,
        'action': acao,
        'reward': recompensa
    })

  total_penalidades += penalidades

print('Episódios', episodios)
print('Penalidades', total_penalidades)

Episódios 50
Penalidades 0


In [9]:
frames


[{'frame': '+---------+\n|R: | : :G|\n| : | : : |\n| : : : : |\n| | : | : |\n|\x1b[35mY\x1b[0m| : |\x1b[34;1m\x1b[43mB\x1b[0m\x1b[0m: |\n+---------+\n  (West)\n',
  'state': 474,
  'action': 3,
  'reward': -1},
 {'frame': '+---------+\n|R: | : :G|\n| : | : : |\n| : : : : |\n| | : | : |\n|\x1b[35mY\x1b[0m| : |\x1b[42mB\x1b[0m: |\n+---------+\n  (Pickup)\n',
  'state': 478,
  'action': 4,
  'reward': -1},
 {'frame': '+---------+\n|R: | : :G|\n| : | : : |\n| : : : : |\n| | : |\x1b[42m_\x1b[0m: |\n|\x1b[35mY\x1b[0m| : |B: |\n+---------+\n  (North)\n',
  'state': 378,
  'action': 1,
  'reward': -1},
 {'frame': '+---------+\n|R: | : :G|\n| : | : : |\n| : : :\x1b[42m_\x1b[0m: |\n| | : | : |\n|\x1b[35mY\x1b[0m| : |B: |\n+---------+\n  (North)\n',
  'state': 278,
  'action': 1,
  'reward': -1},
 {'frame': '+---------+\n|R: | : :G|\n| : | : : |\n| : :\x1b[42m_\x1b[0m: : |\n| | : | : |\n|\x1b[35mY\x1b[0m| : |B: |\n+---------+\n  (West)\n',
  'state': 258,
  'action': 3,
  'reward': -1},
 {'frame'

# Apresentação

In [None]:
from time import sleep
for frame in frames:
  clear_output(wait=True)
  print(frame['frame'])
  print('Estado', frame['state'])
  print('Ação', frame['action'])
  print('Recompensa', frame['reward'])
  sleep(.5)

+---------+
|R: | : :G|
| : | : : |
| : :[42m_[0m: : |
| | : | : |
|Y| : |[35mB[0m: |
+---------+
  (East)

Estado 259
Ação 2
Recompensa -1
