### Exercício

Considere o grafo abaixo:

<div>
<img src="attachment:image.png" width="600"/>
</div>

<br>

Podemos interpretar esse grafo como sendo um _labirinto_ em que o objetivo é fazer um agente aprender a sair dele no menor número de passos!

Utilize os estados/ações definidos abaixo, bem como caracterizando o estado objetivo.

Utilize a representação da matriz de recompensas a partir do grafo e aplique o algoritmo Q-Learning para que o agente aprenda a escapar.

Comece treinando o agente com poucos episódios e __vá interpretando os resultados__ a medida que a quantidade de episódios aumente. 

__Crie uma função__ que recebe dois parâmetros: a matriz Q e um estado inicial. Retorne qual é o caminho que o agente sugere, a partir desse estado inicial.

In [None]:
import pandas as pd
import numpy as np

In [None]:
states = [0,1,2,3,4,5,6,7]
actions = [0,1,2,3,4,5,6,7]
goal_state = 7
gamma = 0.8

In [None]:
R = [[-1,80,100,5,-1,-1,-1,-1],
     [30,-1,-1,-1,-1,100,-1,-1],
     [-1,-1,-1,30,-1,-1,100,-1],
     [100,-1,-1,-1,-1,-1,-1,-1],
     [-1,-1,-1,5,-1,100,-1,-1],
     [-1,30,-1,-1,-1,-1,80,100],
     [-1,-1,-1,-1,30,-1,-1,100],
     [-1,-1,-1,-1,-1,-1,-1,100]]

R = np.array(R)
print("reward matrix: matriz de recompensas")
pd.DataFrame(R, 
             index=['state_'+str(i) for i in range(R.shape[0])],
             columns=['state_'+str(i) for i in range(R.shape[0])])

reward matrix: matriz de recompensas


Unnamed: 0,state_0,state_1,state_2,state_3,state_4,state_5,state_6,state_7
state_0,-1,80,100,5,-1,-1,-1,-1
state_1,30,-1,-1,-1,-1,100,-1,-1
state_2,-1,-1,-1,30,-1,-1,100,-1
state_3,100,-1,-1,-1,-1,-1,-1,-1
state_4,-1,-1,-1,5,-1,100,-1,-1
state_5,-1,30,-1,-1,-1,-1,80,100
state_6,-1,-1,-1,-1,30,-1,-1,100
state_7,-1,-1,-1,-1,-1,-1,-1,100


In [None]:
#função auxiliar: a partir da matriz R, a função retorna quais são os possíveis estado a partir de um estado fixado
def get_possible_next_states(R, state):
    possible_next_states = np.argwhere(R[state, :]>=0).reshape(-1,)
    return possible_next_states

In [None]:
class Q_Learning():
    
    # inicializar passando o estado, as ações possíveis, a matriz de recompensas, o estado objetivo e o valor de gamma
    def __init__(self, states, actions, R, goal_state, gamma): 
        self.states = states
        self.actions = actions
        self.R = R
        self.goal_state = goal_state
        self.gamma = gamma
        Q = np.zeros(len(states) * len(actions)).reshape(len(states), len(actions))
        self.Q = Q
    
    # vai pegar a matriz Q (cérebro do agente em tempo de treinamento); 
    # ou seja, a cada vez que executarmos um episódio vamos conseguir ver como está a evolução do cérebro do agente
    def get_Qmatrix(self):
        Qdf = pd.DataFrame(self.Q, 
                           index=['state_'+str(i) for i in range(self.Q.shape[0])],
                           columns=['action_'+str(i) for i in range(self.Q.shape[1])]).astype(int)
        return Qdf
    
    # rodar os episódios e atualizar a Matriz Q
    def run_episode(self):
        state = np.random.choice(self.states, size = 1)[0]
        next_state = None
        while next_state != self.goal_state:
            possible_next_states = get_possible_next_states(R, state)
            next_state = np.random.choice(possible_next_states, size = 1)[0]
            M = self.Q[next_state, get_possible_next_states(R, next_state)].max()
            self.Q[state, next_state] = self.R[state, next_state] + self.gamma * M
            state = next_state
    
    # função que vai treinar o agente, passando a quantidade de episódios que queremos treinar
    # acontecerá dentro de um looping
    def train_agent(self, num_episodes):
        for e in range(num_episodes):
            self.run_episode()

In [None]:
#instanciando o agente
agente = Q_Learning(states = states, 
                actions = actions, 
                R = R, 
                goal_state = goal_state, 
                gamma = gamma)

In [None]:
#matriz Q - zerada no início - agente sem conhecimento do ambiente
agente.get_Qmatrix()

Unnamed: 0,action_0,action_1,action_2,action_3,action_4,action_5,action_6,action_7
state_0,0,0,0,0,0,0,0,0
state_1,0,0,0,0,0,0,0,0
state_2,0,0,0,0,0,0,0,0
state_3,0,0,0,0,0,0,0,0
state_4,0,0,0,0,0,0,0,0
state_5,0,0,0,0,0,0,0,0
state_6,0,0,0,0,0,0,0,0
state_7,0,0,0,0,0,0,0,0


In [None]:
#treinando o agente em apenas 1 episódio
agente.train_agent(num_episodes = 1)

In [None]:
agente.get_Qmatrix()

Unnamed: 0,action_0,action_1,action_2,action_3,action_4,action_5,action_6,action_7
state_0,0,0,124,85,0,0,0,0
state_1,0,0,0,0,0,0,0,0
state_2,0,0,0,30,0,0,100,0
state_3,168,0,0,0,0,0,0,0
state_4,0,0,0,0,0,100,0,0
state_5,0,0,0,0,0,0,104,0
state_6,0,0,0,0,30,0,0,100
state_7,0,0,0,0,0,0,0,0


In [None]:
#treinando o agente com alguns episódios
agente.train_agent(num_episodes = 10)
agente.get_Qmatrix()

Unnamed: 0,action_0,action_1,action_2,action_3,action_4,action_5,action_6,action_7
state_0,0,354,377,326,0,0,0,0
state_1,326,0,0,0,0,348,0,0
state_2,0,0,0,351,0,0,330,0
state_3,402,0,0,0,0,0,0,0
state_4,0,0,0,322,0,361,0,0
state_5,0,304,0,0,0,0,326,180
state_6,0,0,0,0,308,0,0,180
state_7,0,0,0,0,0,0,0,100


In [None]:
#treinando o agente por um longo tempo (muitos episódios)
agente.train_agent(num_episodes = 5000)

In [None]:
# salvando o treinamento
matrix = agente.get_Qmatrix()

In [None]:
# Criando função 
def melhor_caminho(Q, estado_inicial):
    L = []
    R = Q
    state = estado_inicial
   
    while True:
        next_state = pd.DataFrame(R).iloc[int(state)].idxmax().split('_')[1]

        if int(next_state) == int(state):
            break

        L.append(next_state)
        state = next_state

    return L

In [None]:
# se estiver no state 6
print('Siga para o state: ', melhor_caminho(matrix, 6))

Siga para o state:  ['7']


In [None]:
# se estiver no state 5
print('Siga para o state: ', melhor_caminho(matrix, 5))

Siga para o state:  ['7']


In [None]:
# se estiver no state 4
print('Siga para o state: ', melhor_caminho(matrix, 4))

Siga para o state:  ['5', '7']


In [None]:
# se estiver no state 3
print('Siga para o state: ', melhor_caminho(matrix, 3))

Siga para o state:  ['0', '2', '6', '7']
