# **APRENDIZAGEM POR REFORÇO**

https://gym.openai.com/

https://gym.openai.com/envs/Taxi-v3/

**Links de referência**

https://www.learndatasci.com/tutorials/reinforcement-q-learning-scratch-python-openai-gym/

https://medium.com/turing-talks/aprendizado-por-refor%C3%A7o-4-gym-d18ac1280628

**Instalando a Biblioteca GYM**

In [3]:
!pip install 'gym[ale-py]'

Collecting gym[ale-py]
  Using cached gym-0.26.2.tar.gz (721 kB)
  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
Collecting gym-notices>=0.0.4 (from gym[ale-py])
  Using cached gym_notices-0.0.8-py3-none-any.whl.metadata (1.0 kB)
Downloading gym_notices-0.0.8-py3-none-any.whl (3.0 kB)
Building wheels for collected packages: gym
  Building wheel for gym (pyproject.toml) ... [?25ldone
[?25h  Created wheel for gym: filename=gym-0.26.2-py3-none-any.whl size=827623 sha256=86e4e6624c52012d5a3d08202078c751adf6fb1548622a4ade4bf394431342a7
  Stored in directory: /home/lucas/.cache/pip/wheels/95/51/6c/9bb05ebbe7c5cb8171dfaa3611f32622ca4658d53f31c79077
Successfully built gym
Installing collected packages: gym-notices, gym
Successfully installed gym-0.26.2 gym-notices-0.0.8


In [10]:
import gym

**Carregando e renderizando o ambiente**

In [5]:
env = gym.make("Taxi-v3").env

In [11]:
## Função inoperante devido a inúmeros problemas na execução.
## Ela não é essencial para a aprendizagem por reforço, é apenas uma demonstração.
## Não retirei do vídeo porque a imagem ajuda no entendimento das ações.
# env.render()

In [12]:
# redefinindo o ambiente e retornando um estado inicial aleatório.
env.reset()

(414, {'prob': 1.0, 'action_mask': array([0, 1, 0, 0, 0, 0], dtype=int8)})

In [13]:
## função inoperante
# env.render()

env.reset: redefine o ambiente e retorna um estado inicial aleatório.

env.step(action): Apresenta os passos de ação.


In [14]:
# Print no espaço de ação discreto e no espaço de estado discreto
print("Action Space {}".format(env.action_space))
print("State Space {}".format(env.observation_space))

Action Space Discrete(6)
State Space Discrete(500)


**ESPAÇO DE ESTADO**

Espaço de estado da grade: 5x5 = 25

Espaço posição do passageiro: 5 (quatro pontos externos e um dentro do taxi)

Espaço de posição de embargue/desembarque (destino): 4

Total: 5x5x5x4 = 500 espaços de estado.

**ESPAÇO DE AÇÃO**

O algoritmo escolherá um número de ação de 0 a 5, onde:

0 = sul

1 = norte

2 = leste

3 = oeste

4 = embarque

5 = desembarque

**Colocando o taxi na linha 3, coluna 1, nosso passageiro no local 2 e nosso destino é o local 0.**

In [15]:
state = env.encode(3, 1, 2,0) # (linha do taxi, coluna do taxi, índice do passageiro, índice do destino)
print("State:", state)

env.s = state
#env.render() # função temporariamente inoperante

State: 328


Táxi amarelo é sem passageiro e verde é com passageiro.

A barra ("|") representa uma parede que o táxi não pode atravessar.

R, G, Y, B são os possíveis locais de coleta e destino. A **letra azul** representa o local de **embargue** do passageiro e a **letra roxa** é o **desembargue** do passageiro.

Recompensas (Já definidas na biblioteca):

+20 para um desembarque correto.

-10 para um embarque ou desembarque incorreto.

-1 para ações que não sejam as duas anteriores.

In [16]:
env.P[328]

{0: [(1.0, 428, -1, False)],
 1: [(1.0, 228, -1, False)],
 2: [(1.0, 348, -1, False)],
 3: [(1.0, 328, -1, False)],
 4: [(1.0, 328, -10, False)],
 5: [(1.0, 328, -10, False)]}

In [17]:
import numpy as np
import random
from IPython.display import clear_output

In [18]:
tabela_q = np.zeros([env.observation_space.n, env.action_space.n]) #iniciando a tabela Q

In [19]:
tabela_q

array([[0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       ...,
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0.]])

In [20]:
tabela_q.shape

(500, 6)

**TREINAMENTO DO ALGORITMO**

In [25]:
import numpy as np
import random
from IPython.display import clear_output
 
# Verifique se o ambiente usa um estado discreto
try:
    estado_dim = env.observation_space.n  # Se o estado for discreto
except AttributeError:
    estado_dim = env.observation_space.shape[0]  # Se o estado for contínuo

# Inicialize a tabela Q com zeros
tabela_q = np.zeros([estado_dim, env.action_space.n])

# Defina os hiperparâmetros
alpha = 0.1  # Taxa de aprendizado
gamma = 0.6  # Fator de desconto
epsilon = 0.1  # Taxa de exploração (chance de ação aleatória)

# Treinamento por 200.000 episódios
for i in range(1, 200001):
    estado = env.reset()

    # Verificar se o estado é uma tupla ou array e converter para um índice
    if isinstance(estado, np.ndarray) or isinstance(estado, tuple):
        estado = estado[0]  # Ajuste dependendo da estrutura do estado

    episodios, penalidades, recompensa = 0, 0, 0
    terminado = False

    while not terminado:
        # Decida se será tomada uma ação aleatória ou se seguirá a política da tabela Q
        if random.uniform(0, 1) < epsilon:
            acao = env.action_space.sample()  # Ação aleatória
        else:
            acao = np.argmax(tabela_q[estado])  # Melhor ação com base na tabela Q

        # Tome a ação e observe o novo estado e a recompensa
        resultado = env.step(acao)  # Captura múltiplos valores

        # Verifique se a função `step` retorna 4 ou 5 valores
        if len(resultado) == 5:
            proximo_estado, recompensa, terminado, truncado, info = resultado
            terminado = terminado or truncado  # Combine terminado e truncado
        else:
            proximo_estado, recompensa, terminado, info = resultado

        # Se o próximo estado for array ou tupla, converta para índice
        if isinstance(proximo_estado, np.ndarray) or isinstance(proximo_estado, tuple):
            proximo_estado = proximo_estado[0]

        # Atualize o valor da tabela Q utilizando a equação de Bellman
        valor_antigo = tabela_q[estado, acao]
        proximo_max = np.max(tabela_q[proximo_estado])

        valor_novo = (1 - alpha) * valor_antigo + alpha * (recompensa + gamma * proximo_max)
        tabela_q[estado, acao] = valor_novo

        if recompensa == -10:
            penalidades += 1

        estado = proximo_estado
        episodios += 1

    if i % 100 == 0:
        clear_output(wait=True)
        print(f"Episódios: {i}")

print("Treinamento terminado.\n")


Episódios: 200000
Treinamento terminado.



**AVALIAÇÃO DO ALGORITMO**

In [33]:
pip install pygame==2.1.0 

Collecting pygame==2.1.0
  Using cached pygame-2.1.0.tar.gz (5.8 MB)
  Preparing metadata (setup.py) ... [?25lerror
  [1;31merror[0m: [1msubprocess-exited-with-error[0m
  
  [31m×[0m [32mpython setup.py egg_info[0m did not run successfully.
  [31m│[0m exit code: [1;36m1[0m
  [31m╰─>[0m [31m[29 lines of output][0m
  [31m   [0m 
  [31m   [0m 
  [31m   [0m Using UNIX configuration...
  [31m   [0m 
  [31m   [0m Missing dependencies
  [31m   [0m 
  [31m   [0m Hunting dependencies...
  [31m   [0m SDL     : found 2.0.20
  [31m   [0m FONT    : found
  [31m   [0m IMAGE   : found
  [31m   [0m MIXER   : found
  [31m   [0m PNG     : found
  [31m   [0m JPEG    : found
  [31m   [0m SCRAP   : found
  [31m   [0m PORTMIDI: not found
  [31m   [0m PORTMIDI portmidi.h libportmidi.so ['/usr/include', '/usr/include/SDL2', '/usr/local/include', '/usr/local/include/SDL2', '/usr/X11R6/include', '/usr/include/SDL2'] ['/usr/lib', '/usr/lib64', '/usr/X11R6/lib', '/

In [28]:
total_penalidades = 0
episodios = 100
frames = []

for i in range(episodios):
    estado = env.reset()

    # Verificar se o estado é uma tupla ou array e converter para um índice
    if isinstance(estado, np.ndarray) or isinstance(estado, tuple):
        estado = estado[0]  # Ajuste dependendo da estrutura do estado

    penalidades, recompensa = 0, 0
    done = False

    while not done:
        acao = np.argmax(tabela_q[estado])
        
        # Tome a ação e receba o novo estado
        resultado = env.step(acao)
        
        # Verifique se env.step() retorna 4 ou 5 valores
        if len(resultado) == 5:
            proximo_estado, recompensa, done, truncado, info = resultado
            done = done or truncado
        else:
            proximo_estado, recompensa, done, info = resultado

        # Converter o estado para um índice válido, se necessário
        if isinstance(proximo_estado, np.ndarray) or isinstance(proximo_estado, tuple):
            proximo_estado = proximo_estado[0]

        if recompensa == -10:
            penalidades += 1

        # Armazenar o frame para visualização (removendo o argumento `mode='ansi'`)
        frames.append({
            'frame': env.render(),  # Removido o argumento 'mode'
            'state': proximo_estado,
            'action': acao,
            'reward': recompensa
        })

        estado = proximo_estado

    total_penalidades += penalidades

# Exibir os resultados
print('Episódios:', episodios)
print('Penalidades:', total_penalidades)


DependencyNotInstalled: pygame is not installed, run `pip install gym[toy_text]`

In [34]:
from time import sleep
for frame in frames:
  clear_output(wait=True)
  print(frame['frame'])
  print('Estado', frame['state'])
  print('Ação', frame['action'])
  print('Recompensa', frame['reward'])
  sleep(.2)