# OpenAI 

A OpenAI é uma organização de pesquisa em inteligência artificial que visa promover e desenvolver inteligência artificial de maneiras que beneficiem a humanidade como um todo. 

[Site OpenAi](https://openai.com/)

[GitHub -OpenAI](https://github.com/openai)


# OpenAI Gym

O OpenAi Gym é um kit de ferramentas para desenvolver e comparar algoritmos de aprendizado por reforço. Neste exemplo estaremos utilizando o ambiente do Taxy-V3.

[Gym Taxy-V3](https://github.com/openai/gym/blob/master/gym/envs/toy_text/taxi.py)

# Taxy-V3

AMBIENTE

![Taxy-V3](https://user-images.githubusercontent.com/45602322/80442708-880d2680-88db-11ea-84de-aae1e7adba4c.gif)


O ambiente Taxi-v3 é exibido acima como uma simulação baseada em texto. 

* São 500 estados possiveis.

* São 6 Ações possiveis.

* Agente Taxi 

    * Amarelo sem passageiro.
    * Verde com passageiro.

* Evite os muros `("|")`.

* Cruze caminhos seguros `(":")`.


Na simulação acima, o Taxi (retângulo) inicia em um local aleatório e, em seguida, pega um passageiro em B, passando de amarelo para verde. O Taxi então segue para o local de desembarque G, completando um episódio. 

Um episódio é definido como uma sequência de estados, ações e recompensas que terminam com um estado terminal. 

Neste caso, um episódio é concluído quando o taxista pega um passageiro com sucesso e o deixa no local correto. 

O táxi deseja concluir cada episódio da maneira mais eficiente possível, cruzando caminhos seguros `(":")` e evitando muros `("|")`. 

Como o agente é motivado por recompensa, devemos decidir com cuidado as recompensas e penalidades e suas magnitudes de acordo. 



# Estados e Ambiente

In [0]:
import gym                                      # Importa o modulo com os ambientes OpenAiGym
env = gym.make('Taxi-v3')                       # Funcao carrega o ambiente na variavel env

Estados_Possiveis = env.observation_space.n     # Atribui a quantidade de estados possiveis
Acoes_Possiveis   = env.action_space.n          # Atribui a quantidade de Ações possiveis

Estado = env.reset()                            # Redefine o ambiente e retorna um estado inicial aleatório.

env.render()                                    # Renderiza o ambiente.

print(f" O Estado Aleatorio é o {Estado}!")  
print(f"\n Temos {Estados_Possiveis} Estados possiveis no Ambiente!" ) 
print(f"\n Temos {Acoes_Possiveis} Ações possiveis no Ambiente!")

# Lista de Ações

* 0 - Mover para o sul    - (South) 
* 1 - Mover para o norte  - (North) 
* 2 - Mover para o leste  - (East)
* 3 - Mover para o oeste  - (West)
* 4 - Pegar               - (Pickup)
* 5 - Deixar              - (Dropoff)

In [0]:
# Mostrar todas as Ações possiveis
import gym                                      
env = gym.make('Taxi-v3') 

Acao = 0
env.reset() 
while Acao <= 5:
  env.step(Acao) # (Ação) Avança o ambiente em um timestep.
  env.render()
  print(f"Esta ação corresponde ao numero {Acao}.")
  Acao = Acao + 1

In [0]:
# Gera uma ação aleatoria das 6 possiveis.
import gym                                      
env = gym.make('Taxi-v3') 

env.reset() 

Acao = env.action_space.sample()  

env.step(Acao)
env.render()

print(f" A Ação Aleatoria é {Acao}")   

In [0]:
# Escolha uma ação das 6 possiveis.
import gym                                      
env = gym.make('Taxi-v3') 
env.reset() 

Acao = int(input(" Digite um numero de 0 a 5 ")) 

env.step(Acao)
env.render()

print(f" A Ação Escolhida foi {Acao}") 

# Retorno do ambiente

* observation - É um objeto específico do ambiente que representa sua observação do ambiente.

* reward - Quantidade de recompensa / pontuação alcançada pela ação anterior.

     * (+20) O agente deve receber uma alta recompensa positiva por uma viagem (Drop-off) bem-sucedida.

     * (-10) O agente deve ser penalizado se tentar deixar um passageiro em locais errados.

     * (-1)  O agente deve receber uma pequena penalidade por não chegar ao destino após cada intervalo de tempo. Preferimos que nosso agente chegue mais tarde, em vez de fazer movimentos errados tentando chegar ao destino o mais rápido possível

* done - Indica se é hora de redefinir o ambiente novamente, ou seja, o agente alcançou a meta.

*  info - informações de diagnóstico, como desempenho e latência, são úteis para fins de depuração.



# Ambiente

In [0]:
import gym                                      
env = gym.make('Taxi-v3') 

env.reset()                                                                   
observation, reward, done, info = env.step(env.action_space.sample())  # env.step obtem uma açao aleatoria
   
env.render() 

print(f"O Estado aleatorio observado foi : {observation}")
print(f"A Recompensa da Ação executada neste estado aleatorio foi : {reward}")
print(f"O agente alcançou a meta? {done}")
print(f"Informações? {info}")

# Loop de Tarefas Aleatorio

- Chamaremos env.step( ) repetidamente junto com o env.action_space.sample( ) como argumento para obter uma ação aleatória das seis ações permitidas.
- Em seguida, o agente avançara uma etapa.
- Definimos a condição final do loop no ponto em que o táxi recebe uma recompensa de 20.

Missão

*  Deixe o passageiro no local certo.
*  Economize tempo do passageiro, minimizando timesteps.
*  Garanta a segurança dos passageiros e siga as regras de trânsito.

# Loop Aleatorio


In [0]:
import gym                                   
from IPython.display import clear_output
import time
state = env.reset() 
count = 0          
reward = 0         

penalties = 0 
reward = 0

frames = [] # for animation

while reward !=20:   
    action = env.action_space.sample()                                                             # Se a recompensa for diferente de 20 ou seja se for 10 ou -1 faça
    observation, reward, done, info = env.step(action)         # env.step obtem uma açao aleatoria
    count += 1
    
    if reward == -10:
      penalties += 1

    frames.append({
        'frame': env.render(mode='ansi'),
        'episode': '0',
        'state': state,
        'action': action,
        'reward': reward
        }
    )

print(f" Tivemos {penalties} penalidades, a ultima recompensa foi de : {reward}") # Imprime quantas etapas aleatorias o agente executou para finalizar a tarefa
print(f"Percorremos {count} etapas para conseguir resolver o jogo! ") 

## Visualiza o Loop aleatorio

In [0]:
# Função que imprime os resultados na tela
def print_frames(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print(f"Episodio: {frame['episode']}")
        print(f"Timestep: {i + 1}")
        print(f"Estado: {frame['state']}")
        print(f"Ação: {frame['action']}")
        print(f"Recompensa: {frame['reward']}")
        time.sleep(1)

print_frames(frames)

# Q-Learning

O Q-learning é um método de aprendizado fora da política, isso significa que ele não segue nenhuma política para encontrar a próxima ação, mas escolhe a ação com base em um estilo ganancioso. 

Conforme o agente é criado ele alimenta uma tabela chamada de Q-table e nela contem os valores das recompensas para cada estado do ambiente.

![Q-Table](https://user-images.githubusercontent.com/45602322/80503075-62196d80-893f-11ea-922d-4b376f2d876a.png)


À medida que o agente escolhe ações para cada estado, dependendo da recompensa que recebe pela ação, o valor Q será atualizado usando a equação de Bellman:

![Equação de Bellman](https://user-images.githubusercontent.com/45602322/80502482-b5d78700-893e-11ea-8a70-c62748d39c45.png)

* α (Alpha) é a taxa de aprendizado, até que ponto os valores Q são atualizados por iteração.

* γ (Gamma) é o fator de desconto que determina quanta importância é dada às recompensas futuras.


# Quebrando o algoritmo de Q-learning, temos as seguintes etapas:

* 1 Inicialize a tabela Q com zeros e valores Q em constantes arbitrárias.
* 2 Explorar ações: para cada mudança de estado, selecione qualquer ação (a) entre todas as ações possíveis para o estado atual (S).

* 3 Vá para o próximo estado (S ') como resultado da ação (a).
* 4 Para todas as ações possíveis do estado (S '), selecione aquela com o valor Q mais alto.
* 5 Atualize os valores da tabela Q usando a equação
* 6 Defina o próximo estado como o estado atual.
* 7 Se o estado do terminal for alcançado, finalize e repita o processo.

# Q-Table

In [0]:
# Inicializa Q Table com 0 e imprime
import gym
import numpy as np

env = gym.make('Taxi-v3')
Q_Table = np.zeros([env.observation_space.n, env.action_space.n])
print(Q_Table)

In [10]:
# Q Table vindo do Ambiente 
# Voce pode escolher qualquer estado dentre os 500 para ver
env.P[499]

{0: [(1.0, 499, -1, False)],
 1: [(1.0, 399, -1, False)],
 2: [(1.0, 499, -1, False)],
 3: [(1.0, 479, -1, False)],
 4: [(1.0, 499, -10, False)],
 5: [(1.0, 499, -10, False)]}

### Hyperparametros

* Alpha é a taxa de aprendizado, até que ponto os valores Q são atualizados por iteração.

* Gamma é o fator de desconto que determina quanta importância é dada às recompensas futuras.

* Epsilon é a medida da taxa de exploração no ambiente a medida que desenvolvemos nossa estratégia, temos menos necessidade de explorar o ambiente, portanto, à medida que os testes aumentam, o epsilon deve diminuir.

In [0]:
import gym    
import numpy as np               
env = gym.make('Taxi-v3') 

state = env.reset() 
reward = 0
count = 0          
        
gamma = 0.9
alpha = 0.9

Q_Table = np.zeros([env.observation_space.n, env.action_space.n])

while reward !=20: 

    action = np.argmax(Q_Table[state])

    next_state, reward, done, info = env.step(action)                                                        

    Q_Table[state, action] = Q_Table[state, action] + alpha * (reward + gamma * np.max(Q_Table[next_state]) - Q_Table[state, action])
    
    state = next_state

    count += 1

env.render() 
                                        
print(f"Percorremos {count} etapas para conseguir resolver o jogo! e tivemos a recompensa{reward} ") 

# Treinando com a Q-Table

In [0]:
# Treinando o Agente

import numpy as np
import random

q_table = np.zeros([env.observation_space.n, env.action_space.n])

# Hyperparameters
alpha = 0.1
gamma = 0.6
epsilon = 0.1

# Plota metricas
all_epochs = []
all_penalties = []

episodios = 100001

for i in range(1, episodios):
    state = env.reset()

    epochs, penalties, reward, = 0, 0, 0
    done = False
    
    while not done:
        if random.uniform(0, 1) < epsilon:
            action = env.action_space.sample() # Explora espço de ação
        else:
            action = np.argmax(q_table[state]) # Explorar valores aprendidos

        next_state, reward, done, info = env.step(action) 
        
        old_value = q_table[state, action]
        next_max = np.max(q_table[next_state])
        
        new_value = (1 - alpha) * old_value + alpha * (reward + gamma * next_max)
        q_table[state, action] = new_value

        if reward == -10:
            penalties += 1

        state = next_state
        epochs += 1
        
    if i % 100 == 0:
        clear_output(wait=True)
        print(f" Passou o Episodio: {i}")

print(" O Treino Finalizou! ")

# Testando o Agente treinado

In [0]:
# Testando o Agente
from IPython.display import clear_output
import random
import gym    
import numpy as np       
import time        
env = gym.make('Taxi-v3') 

total_epochs, total_penalties = 0, 0
episodes = 100
frames = []

for ep in range(episodes):
    state = env.reset()
    epochs, penalties, reward = 0, 0, 0
    
    done = False
    
    while not done:
        action = np.argmax(q_table[state])
        state, reward, done, info = env.step(action)

        if reward == -10:
            penalties += 1
        
        # Coloca os quadros para a animação
        frames.append({
            'frame': env.render(mode='ansi'),
            'episode': ep, 
            'state': state,
            'action': action,
            'reward': reward
            }
        )
        epochs += 1

    total_penalties += penalties
    total_epochs += epochs

print(f"Total de Episodios : {episodes} ")
print(f"Total de Epocas percorridas :  {total_epochs} ")
print(f"Total de Penalidades por episodio: {total_penalties}")

## Visualiza

In [0]:
# Função que imprime os resultados na tela
def print_frames(frames):
    for i, frame in enumerate(frames):
        clear_output(wait=True)
        print(frame['frame'])
        print(f"Episodio: {frame['episode']}")
        print(f"Timestep: {i + 1}")
        print(f"Estado: {frame['state']}")
        print(f"Ação: {frame['action']}")
        print(f"Recompensa: {frame['reward']}")
        time.sleep(1)

print_frames(frames)

# Fim



---



---

