## Hands-on 03 - Modelagem e Resolução de um Processo de Decisão de Markov

Este Hands-on é destinado a modelagem do processo de decisão de Markov, bem como a aplicação da iteração por Q-valor na sua resolução.

Na figura abaixo se encontra a PDM (Processo de Decisão de Markov) que será utilizada como problema para aplicar a resolução via Q-valor:

![alt text](rlimages/mdp.png)


Está MDP é composta de 3 estados, sendo o número de ações por estado variável. No estado S0 pode-se tomar 3 ações diferentes. Já estado S1 tem-se duas ações possíveis e no estado S2 apenas uma.

Nota-se que para cada ação tomada há probabilidades de transição associadas. No estado S0, caso a ação tomada seja a a0, há 70% de chance de o agente continuar no mesmo estado S0 ganhando uma recompensa de +10, enquanto há 30% dele ir para o estado S1 sem recompensa associada.

No estado S1 há duas ações possíveis: a0 para continuar no mesmo estado e não ganhar nada, ou a2 onde o agente passa ao estado S2 e é penalizado com uma recompensa de -50.

No estado S2 há apenas uma ação que pode ser tomada e ela pode levar, com 80% de chance, o agente a ganhar +40 de recompensa. 

***

**Você conseguiria indicar qual a melhor estratégia, i.e melhor conjunto de ações, que o agente deveria tomar?** No estado S0 fica claro que a melhor ação é a a0, pois ela tem 70% de chance de recompensar o agente com +10. No estado S2 não há problemas na escolha da melhor ação, pois há somente uma ação a tomar. Já no estado s1 há duas ações, uma que o agente fica indeterminadamente no mesmo estado ou outra que ele é penalizado, porém não é tão claro, como nos demais estados, seria seria a melhor ação que ele deveria tomar: continuar no estado ou ir para o próximo e ser penalizado.

Para responder esse questionamento, vamos aplicar a iteração por Q-valor e determinar não somente a função Q ótima como também a melhor policy para esse PDM.

O código fica asism:

In [6]:
import numpy as np

nan = np.nan # representa acoes impossiveis (não se pode ir direto do estado S0 para o S2 com uma determinada acao)

'''
probabilidades de transicao por cada acao tomada:

linhas -> estado atual do agente. Pode ser 0, 1 ou 2

colunas -> acao tomada pela agente. Ha tres opcoes, mas nem todo os estados possuem todas as acoes, assim alguns tem 'nan'
como valor para indicar essa impossibilidade

O valor T[s, a] é um vetor de 3 elementos em que os indices indicam o proximo estado e o valor a probabilidade de transicao
'''
T = np.array([[[0.7, 0.3, 0.0], [1.0, 0.0, 0.0], [0.8, 0.2, 0.0]],  # shape [s, a, s']
            [[0.0, 1.0, 0.0], [nan, nan, nan], [0.0, 0.0, 1.0]],
            [[nan, nan, nan], [0.8, 0.1, 0.1], [nan, nan, nan]]])

#recompensas por acoes tomadas em cada estado. Mesmo esquema que a matriz T
R = np.array([[[10., 0.0, 0.0], [0.0, 0.0, 0.0], [0.0, 0.0, 0.0]], # shape [s, a, s']
            [[10., 0.0, 0.0], [nan, nan, nan], [0.0, 0.0, -50.]],
            [[nan, nan, nan], [40, 0.0, 0.0], [nan, nan, nan]]])

act_possiveis = [[0, 1, 2],[0, 2],[1]] # acoes possiveis por cada estado

In [7]:
Q = np.full((3, 3), -np.inf) # matriz Q que relaciona o valor Q de cada par s, a 

for estado, act in enumerate(act_possiveis): # inicializar os valores da matriz em zero para as situacoes possiveis
    Q[estado, act] = 0.0
    
learning_rate  = 0.01
gamma = 0.95 
n_iterations = 100

for iteration in range(n_iterations):
    
    Q_prev = Q.copy() # uma copia para ser utilizada na atualizacao da matriz Q
    
    for s in range(3):
        for a in act_possiveis[s]: #para cada estado e para cada acao atualiza a matriz Q de acordo com a equacao
            Q[s, a] = np.sum([T[s, a, sp] * (R[s, a, sp] + gamma * np.max(Q_prev[sp])) for sp in range(3)])
            
print(Q)

[[21.88646117 20.79149867 16.854807  ]
 [ 1.10804034        -inf  1.16703135]
 [       -inf 53.8607061         -inf]]


Agora que temos a matriz Q ótima depois do processo de iteração, vamor definir a melhor *policy* do agente para este processo de decisão:

In [8]:
policy_otima = np.argmax(Q, axis=1)
policy_otima

array([0, 2, 1])

***
nota-se que a policy dada pela matriz Q pós-iteração indica o seguinte mapeamento: Para o estado S0, a melhor ação é ação 0, isto é, a ação a0. Para o estado S1, a melhor ação é a a2, e para o estado S2 a melhor ação é a a1.
****

Exposto tudo isso, vamos colocar a mão na massa agora. Faça o que se pede:
    1. Crie um processo de decisão de Markov com no mínimo 5 estados
    2. Para cada estado defina as ações possíveis
    3. Defina as probabilidades de transição para cada ação
    5. Use a iteração por Q-valor para resolver essa PDM criada

OBS: use a PDM do exemplo deste Hands-on como base para a PDM que você vai criar. Use também o código como base para fazer as devidas modificações (caso seja necessário). Recomenda-se também que seja desenhado o processo de decisão criado