# Aula 1 - Reinforcement Learning

## Tutorial: Uma introdu√ß√£o ao aprendizado por refor√ßo usando o t√°xi do Gymnasium üöï

### Prof. Dr. Ahirton Lopes (profahirton.lopes@fiap.com.br)

Neste tutorial introdut√≥rio, aplicaremos aprendizagem por refor√ßo (RL) para treinar um agente para resolver o [ambiente 'T√°xi' do Gymnasium](https://gymnasium.farama.org/environments/toy_text/taxi/).

Abordaremos:

- Uma introdu√ß√£o b√°sica ao RL;
- Configurando o Gymnasium & Taxi;
- Usando o algoritmo Q-learning para treinar nosso agente de t√°xi.

# Antes de come√ßarmos, o que √©¬†'Taxi'?

T√°xi √© um dos muitos ambientes dispon√≠veis no Gymnasium. Esses ambientes s√£o usados para desenvolver e avaliar algoritmos de aprendizagem por refor√ßo.

O objetivo do T√°xi √© pegar os passageiros e deix√°-los no destino com o menor n√∫mero de movimentos.

Neste tutorial, vamos come√ßar com um agente de t√°xi que executa a√ß√µes aleatoriamente:

![agente aleat√≥rio](https://drive.google.com/uc?id=1l0XizDh9eGP3gVNCjJHrC0M3DeCWI8Fj)

‚Ä¶e aplicar com sucesso a aprendizagem por refor√ßo para resolver o ambiente:

![agente treinado](https://drive.google.com/uc?id=1a-OeLhXi3W-kvQuhGRyJ1dOSw4vrIBxr)

# üí° Uma introdu√ß√£o ao Aprendizado por Refor√ßo

Pense em como voc√™ pode ensinar um novo truque a um cachorro como, por exemplo, mand√°-lo sentar:

- Se ele executar o truque corretamente (sentar), voc√™ o recompensar√° com uma guloseima (feedback positivo) ‚úîÔ∏è
- Se n√£o assentar corretamente, n√£o recebe tratamento (feedback negativo) ‚ùå

Ao continuar a fazer coisas que levam a resultados positivos, o c√£o aprender√° a sentar-se ao ouvir o comando para receber a guloseima. O aprendizado por refor√ßo √© um subdom√≠nio do aprendizado de m√°quina que envolve treinar um 'agente' (o cachorro) para aprender as sequ√™ncias corretas de a√ß√µes a serem executadas (sentado) em seu ambiente (em resposta ao comando 'sentar'), a fim de maximizar sua recompensa. (recebendo uma guloseima). Isso pode ser ilustrado mais formalmente como:

![sutton barto rl](https://www.gocoder.one/static/RL-diagram-b3654cd3d5cc0e07a61a214977038f01.png "Diagrama de aprendizado por refor√ßo")

Fonte: [Sutton &¬†Barto](http://incompleteideas.net/book/bookdraft2017nov5.pdf)

# üèãÔ∏è Instalando o Gymnasium e¬†Taxi

Usaremos o ambiente 'Taxi-v3' para este tutorial. Para instalar o gym (e numpy para depois), execute a c√©lula abaixo:


In [11]:
!pip install gymnasium
!pip install numpy



Em seguida, importe o gym (e bibliotecas adicionais que ser√£o √∫teis posteriormente):

In [12]:
import gymnasium as gym
import numpy as np
import random

# used to help with visualizing in Colab
from IPython.display import display, clear_output
from time import sleep

Gym cont√©m uma grande biblioteca de diferentes ambientes. Vamos criar o ambiente Taxi-v3:

In [13]:
# creating Taxi environment with Gymnasium
env = gym.make('Taxi-v3', render_mode='ansi')

# üé≤ Agente¬†aleat√≥rio

Come√ßaremos implementando um agente que n√£o aprende nada. Em vez disso, selecionar√° a√ß√µes aleatoriamente. Ele servir√° como nosso *baseline*.

O primeiro passo √© dar ao nosso agente a observa√ß√£o inicial do estado. Um estado informa ao nosso agente como √© o ambiente atual.

No T√°xi, um estado define as posi√ß√µes atuais do t√°xi, do passageiro e dos locais de embarque e desembarque. Abaixo est√£o exemplos de tr√™s estados diferentes para t√°xi:

![estados de t√°xi](https://www.gocoder.one/static/taxi-states-0aad1b011cf3fe07b571712f2123335c.png "Diferentes estados de t√°xi")

Nota: Amarelo = t√°xi, Letra azul = local de retirada, Letra roxa = destino de entrega

Para obter o estado inicial:

In [14]:
# create a new instance of taxi, and get the initial state
state = env.reset()

print(f"Initial state: {state}")

Initial state: (442, {'prob': 1.0, 'action_mask': array([0, 1, 0, 1, 0, 0], dtype=int8)})


A seguir, executaremos um loop for para percorrer o jogo. Em cada itera√ß√£o, nosso agente ir√°:

1. Fazer uma a√ß√£o aleat√≥ria a partir do espa√ßo de a√ß√£o (0‚Ää-‚Ääsul, 1‚Ää-‚Äänorte, 2‚Ää-‚Ääleste, 3‚Ää-‚Ääoeste, 4‚Ää-‚Äärecolha, 5‚Ää-‚Äädesembarque)
2. Receber o novo estado

Aqui est√° nosso agente aleat√≥rio:

In [15]:
num_steps = 99
for s in range(num_steps+1):

    clear_output(wait=True)

    print(f"step: {s} out of {num_steps}")

    # sample a random action from the list of available actions
    action = env.action_space.sample()

    # perform this action on the environment
    env.step(action)

    # print the new state
    env.render()

    sleep(0.2)

# end this instance of the taxi environment
env.close()

step: 99 out of 99


Ao executar a c√©lula acima, voc√™ ver√° seu agente fazendo movimentos aleat√≥rios. N√£o √© muito emocionante, mas espero que tenha ajudado voc√™ a se familiarizar com o kit de ferramentas Gymnasium.

A seguir, implementaremos o algoritmo Q-learning que permitir√° ao nosso agente aprender com as recompensas.

# üìñ Agente Q-Learning

Q-learning √© um algoritmo de aprendizagem por refor√ßo que busca encontrar a melhor pr√≥xima a√ß√£o poss√≠vel dado seu estado atual, a fim de maximizar a recompensa que recebe (o 'Q' em Q-learning significa qualidade‚Ää-‚Ääou seja, qu√£o valiosa √© uma a√ß√£o) .

Vamos considerar o seguinte estado inicial:

![estado do t√°xi](https://www.gocoder.one/static/start-state-6a115a72f07cea072c28503d3abf9819.png "Um exemplo de estado do t√°xi")

Que a√ß√£o (para cima, para baixo, para a esquerda, para a direita, para pegar ou largar) ele deve realizar para maximizar sua recompensa? (_Nota: azul = local de retirada e roxo = destino de entrega_)

Primeiro, vamos dar uma olhada em como nosso agente √© ‚Äúrecompensado‚Äù por suas a√ß√µes. **Lembre-se de que, no aprendizado por refor√ßo, queremos que nosso agente execute a√ß√µes que maximizem as poss√≠veis recompensas que ele recebe de seu ambiente.**

## Sistema de recompensas "T√°xi"

De acordo com a [documenta√ß√£o do t√°xi](https://gymnasium.farama.org/environments/toy_text/taxi/):

> _"‚Ä¶voc√™ recebe +20 pontos por uma entrega bem-sucedida e perde 1 ponto para cada intervalo de tempo necess√°rio. H√° tamb√©m uma penalidade de 10 pontos para a√ß√µes ilegais de coleta e entrega."_

Olhando para o nosso estado original, as a√ß√µes poss√≠veis que ele pode realizar e as recompensas correspondentes que receber√° s√£o mostradas abaixo:

![recompensas de t√°xi](https://www.gocoder.one/static/state-rewards-62ab43a53e07062b531b3199a8bab5b3.png "Recompensas de t√°xi")

Na imagem acima, o agente perde 1 ponto por timestep que realiza. Ele tamb√©m perder√° 10 pontos se usar a a√ß√£o de retirada ou entrega aqui.

Queremos que nosso agente v√° para o norte em dire√ß√£o ao local de coleta indicado por um R azul- **mas como ele saber√° qual a√ß√£o tomar se todos forem igualmente punitivos?**

## Explora√ß√£o (Exploration)

Atualmente, nosso agente n√£o tem como saber qual a√ß√£o o levar√° mais pr√≥ximo do R azul. √â aqui que entra a tentativa e erro - faremos nosso agente realizar a√ß√µes aleat√≥rias e observar quais recompensas ele recebe (ou seja, nosso agente ir√° **explorar**).

Ao longo de muitas itera√ß√µes, nosso agente ter√° observado que certas sequ√™ncias de a√ß√µes ser√£o mais gratificantes que outras. Ao longo do caminho, nosso agente precisar√° acompanhar quais a√ß√µes levaram a quais recompensas.

## Apresentando‚Ä¶ tabelas Q

Uma tabela Q √© simplesmente uma tabela de consulta que armazena valores que representam as recompensas futuras m√°ximas esperadas que nosso agente pode esperar para uma determinada a√ß√£o em um determinado estado (_conhecidos como valores Q_). Isso dir√° ao nosso agente que, quando ele encontra um determinado estado, algumas a√ß√µes t√™m maior probabilidade do que outras de levar a recompensas mais altas. Torna-se uma 'folha de dicas' informando ao nosso agente qual √© a melhor a√ß√£o a ser tomada.

A imagem abaixo ilustra como ser√° a nossa 'tabela Q':

- Cada linha corresponde a um estado √∫nico no ambiente 'T√°xi'
- Cada coluna corresponde a uma a√ß√£o que nosso agente pode realizar
- Cada c√©lula corresponde ao valor Q para esse par estado-a√ß√£o‚Ää-‚Ääum valor Q mais alto significa uma recompensa m√°xima mais alta que nosso agente pode esperar obter se realizar essa a√ß√£o naquele estado.

![Tabela Q](https://www.gocoder.one/static/q-table-9461cc903f50b78d757ea30aeb3eb8bc.png "Tabela Q")

Antes de come√ßarmos a treinar nosso agente, precisaremos inicializar nossa tabela Q da seguinte forma:

In [16]:
state_size = env.observation_space.n  # total number of states (S)
action_size = env.action_space.n      # total number of actions (A)

# initialize a qtable with 0's for all Q-values
qtable = np.zeros((state_size, action_size))

print(f"Q table: {qtable}")

Q table: [[0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 ...
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0.]]


√Ä medida que nosso agente explora, ele atualizar√° a tabela Q com os valores Q que encontrar. Para calcular nossos valores Q, apresentaremos o algoritmo Q-learning.

# Algoritmo Q-Learning

O algoritmo Q-learning √© fornecido abaixo. N√£o entraremos em detalhes, mas voc√™ pode ler mais sobre isso no [Cap√≠tulo 6 de Sutton & Barto (2018)](http://www.incompleteideas.net/book/RLbook2018trimmed.pdf).

![Algoritmo de aprendizagem Q](https://www.gocoder.one/static/q-learning-algorithm-84b84bb5dc16ba8097e31aff7ea42748.png "O algoritmo de aprendizagem Q")

O algoritmo Q-learning ajudar√° nosso agente a **atualizar o valor Q atual ($Q(S_t,A_t)$) com suas observa√ß√µes ap√≥s realizar uma a√ß√£o.** Ou seja, aumente Q se encontrar uma recompensa positiva ou diminua Q se encontrar uma recompensa negativa.

Observe que no T√°xi, nosso agente n√£o recebe uma recompensa positiva at√© que deixe um passageiro com sucesso (_+20 pontos_). Portanto, mesmo que nosso agente esteja indo na dire√ß√£o correta, haver√° um atraso na recompensa positiva que deveria receber. O seguinte termo na equa√ß√£o Q-learning aborda isso:

![q m√°ximo](https://www.gocoder.one/static/max-q-e593ddcec76cda87ed189c31d60837b6.png "Valor m√°ximo de Q")

Este termo ajusta nosso valor Q atual para incluir uma parte das recompensas que ele poder√° receber em algum momento no futuro (St+1). O termo 'a' refere-se a todas as a√ß√µes poss√≠veis dispon√≠veis para esse estado. A equa√ß√£o tamb√©m cont√©m dois hiperpar√¢metros que podemos especificar:

1. Taxa de aprendizagem (Œ±): qu√£o facilmente o agente deve aceitar novas informa√ß√µes em vez de informa√ß√µes aprendidas anteriormente
2. Fator de desconto (Œ≥): quanto o agente deve levar em considera√ß√£o as recompensas que poder√° receber no futuro versus sua recompensa imediata

Aqui est√° nossa implementa√ß√£o do algoritmo Q-learning:

In [17]:
# hyperparameters to tune
learning_rate = 0.9
discount_rate = 0.8

# dummy variables
reward = 10 # R_(t+1)
state = env.observation_space.sample()      # S_t
action = env.action_space.sample()          # A_t
new_state = env.observation_space.sample()  # S_(t+1)

# Qlearning algorithm: Q(s,a) := Q(s,a) + learning_rate * (reward + discount_rate * max Q(s',a') - Q(s,a))
qtable[state, action] += learning_rate * (reward + discount_rate * np.max(qtable[new_state,:]) - qtable[state,action])

print(f"Q-value for (state, action) pair ({state}, {action}): {qtable[state,action]}")

Q-value for (state, action) pair (459, 0): 9.0


## Compara√ß√£o entre Exploration e Exploitation (Trade Off)

Podemos deixar nosso agente explorar para atualizar nossa tabela Q usando o algoritmo Q-learning. √Ä medida que nosso agente aprende mais sobre o ambiente, podemos deix√°-lo usar esse conhecimento para realizar a√ß√µes mais otimizadas e convergir mais rapidamente‚Ää-‚Ääconhecido como **exploitation**.

Durante o exploitation, nosso agente examinar√° sua tabela Q e selecionar√° a a√ß√£o com o valor Q mais alto (em vez de uma a√ß√£o aleat√≥ria). Com o tempo, nosso agente precisar√° explorar menos e, em vez disso, come√ßar "exploitar" o que sabe.

Aqui est√° nossa implementa√ß√£o de uma estrat√©gia de exploration-exploitation:

In [18]:
# dummy variables
episode = random.randint(0,500)
qtable = np.random.randn(env.observation_space.sample(), env.action_space.sample())

# hyperparameters
epsilon = 1.0     # probability that our agent will explore
decay_rate = 0.01 # of epsilon

if random.uniform(0,1) < epsilon:
    # explore
    action = env.action_space.sample()
else:
    # exploit
    action = np.argmax(qtable[state,:])

# epsilon decreases exponentially --> our agent will explore less and less
epsilon = np.exp(-decay_rate*episode)

No exemplo acima, definimos algum valor `√©psilon` entre 0 e 1. Se `√©psilon` for 0,7, h√° 70% de chance de que nesta etapa nosso agente explore em vez de exploit. `epsilon` decai exponencialmente a cada passo, de modo que nosso agente explora cada vez menos ao longo do tempo.

# Reunindo tudo

Conclu√≠mos todos os blocos de constru√ß√£o necess√°rios para nosso agente de aprendizagem por refor√ßo. O processo de treinamento do nosso agente ser√° semelhante a:

1. Inicializando nossa tabela Q com 0 para todos os valores Q
2. Deixe nosso agente jogar Taxi em um grande n√∫mero de jogos
3. Atualizar continuamente a tabela Q usando o algoritmo Q-learning e uma estrat√©gia de exploration-exploitation

Aqui est√° a implementa√ß√£o completa:

In [21]:
# class for colors on console
class bcolors:
    RED = '\u001b[31m'
    GREEN = '\u001b[32m'
    RESET = '\u001b[0m'

# create Taxi environment
env = gym.make('Taxi-v3', render_mode='ansi')

# initialize q-table
state_size = env.observation_space.n
action_size = env.action_space.n
qtable = np.zeros((state_size, action_size))

# hyperparameters
learning_rate = 0.9
discount_rate = 0.8
epsilon = 1.0
decay_rate= 0.005

# training variables
num_episodes = 5000
max_steps = 99 # per episode

print("AGENT IS TRAINING...")

for episode in range(num_episodes):

	# Reset the environment and get initial state
	state, info = env.reset(seed=42)
	step = 0
	done = False

	for step in range(max_steps):

		# Exploration-exploitation tradeoff
		if random.uniform(0,1) < epsilon:
			# Explore
			action = env.action_space.sample()
		else:
			# Exploit
			action = np.argmax(qtable[state,:])

		# Take an action and observe the reward
		next_state, reward, done, truncated, info = env.step(action)

		# Q-learning algorithm
		qtable[state, action] = qtable[state, action] + learning_rate * (reward + discount_rate * np.max(qtable[next_state, :]) - qtable[state, action])

		# Update to our new state
		state = next_state

		# if done, finish episode
		if done or truncated:
			break

	# Decrease epsilon
	epsilon = np.exp(-decay_rate*episode)

# Get ready to watch our trained agent
clear_output()
print(f"Our Q-table: {qtable}")
print(f"Training completed over {num_episodes} episodes")
input("Press Enter to see our trained taxi agent")
sleep(1)
clear_output()

episodes_to_preview = 3
for episode in range(episodes_to_preview):

	# Reset the environment
	state, info = env.reset(seed=42)
	step = 0
	done = False
	episode_rewards = 0

	for step in range(max_steps):
		# clear screen
		clear_output(wait=True)

		print(f"TRAINED AGENT")
		print(f"+++++EPISODE {episode+1}+++++")
		print(f"Step {step+1}")

		# Exploit
		action = np.argmax(qtable[state,:])

		# Take an action and observe the reward
		next_state, reward, done, truncated, info = env.step(action)

		# Accumulate our rewards
		episode_rewards += reward

		print(env.render())
		print("")
		if episode_rewards < 0:
			print(f"Score: {bcolors.RED}{episode_rewards}{bcolors.RESET}")
		else:
			print(f"Score: {bcolors.GREEN}{episode_rewards}{bcolors.RESET}")
		sleep(0.5)

		# Update to our new state
		state = next_state

		# if done, finish episode
		if done or truncated:
			break

# Close the Taxi environment
env.close()

TRAINED AGENT
+++++EPISODE 3+++++
Step 13
+---------+
|R: | : :G|
| : | : : |
| : : : : |
| | : | : |
|[35m[34;1m[43mY[0m[0m[0m| : |B: |
+---------+
  (Dropoff)


Score: [32m8[0m


# üëè O que vem a seguir?

Existem muitos outros ambientes dispon√≠veis no Gymnasium para voc√™ experimentar (por exemplo, [Frozen Lake](https://gymnasium.farama.org/environments/toy_text/frozen_lake/)). Voc√™ tamb√©m pode tentar otimizar a implementa√ß√£o acima para resolver o T√°xi em menos passos.

Alguns outros recursos √∫teis incluem:
- [S√©rie de palestras de aprendizagem por refor√ßo DeepMind x UCL [2021]](https://www.youtube.com/watch?v=TCCjZe0y4Qc&ab_channel=GoogleDeepMind) (no Youtube)
- [Uma (longa) espiada na aprendizagem por refor√ßo](https://lilianweng.github.io/lil-log/2018/02/19/a-long-peek-into-reinforcement-learning.html) por Lilian Weng
- [Um bom artigo sobre RL e suas aplica√ß√µes no mundo real](https://www.altexsoft.com/blog/datascience/reinforcement-learning-explained-overview-comparisons-and-applications-in-business/)
- [Document√°rio completo do AlphaGo](https://www.youtube.com/watch?v=WXuK6gekU1Y) (no Youtube)
- [Aprendizagem por Refor√ßo](http://www.incompleteideas.net/book/RLbook2018trimmed.pdf) por Sutton e Barto
- [Introdu√ß√£o pr√°tica ao aprendizado por refor√ßo profundo](https://www.gocoder.one/blog/hands-on-introduction-to-deep-reinforcement-learning)

# O que resolvemos via Reinforcement Learning?

* Programa√ß√£o de elevador
* Passeio de bicicleta
* Dire√ß√£o de navio
* Controle de biorreator
* Controle de helic√≥ptero de acrobacias
* Programa√ß√£o de partidas de aeroporto
* Regulamenta√ß√£o e preserva√ß√£o de ecossistemas
* Futebol Robocup
* Jogo de videogame (Atari, Starcraft...)
* Jogo de Go