# Hands-On 1 - Modelagem Ação - Recompensa - Estado

Este hands-on destina-se a mostrar e execitar a modelagem das relações **Estado-Ação** e **Estado-Recompensa** para um ambiente simples.

Considere o ambiente apresentado abaixo. Este ambiente consiste em uma casa onde um certo agente irá ser inserido em um processo de aprendizagem. 

![alt text](rlimages/planta_simples.jpg " Imagem 1")

Esta casa contém 5 cômodos que para a nossa modelagem serão os estados onde o agente pode estar. Assim, podemos definir os estados como apresentado na Imagem a seguir:

![alt text](rlimages/planta_simples_estado.png)

Primeiramente, vamos focar no **comportamento** do agente dentro deste ambiente dado um objetivo. Para esse exemplo vamos escolher como objetivo chegar à sacada do apartamento e para tal feito deve-se criar um mapeamento **estado-ação** que vai indicar para qual estado o agente vai dado o estado atual dele. O seguinte mapeamento é válido nesse ambiente para o dado objetivo:

In [2]:
mapping = {'A':'E', 'B':'C','C':'A','D':'C', 'E':'E'}

onde o primeiro item de cada elemento do mapeamento indica o estado atual que o agente está, e o segundo indica o próximo estado que ele deve ir. 

Agora, já podemos criar um código para resolver este problema dados os estados e ações. Para auxiliar na troca de estados, vamos criar uma função simples de mapeamento que é apresentada a seguir

In [3]:
def next(state):

    return mapping[state]

Esta função retorna o próximo estado dado o estado atual do agente. Por fim, vamos ao código final

In [4]:
import sys # apenas para uso do sys.exit()

state = str(input('Entre com o estado inicial: ')).upper() # Usuario define o estado atual via input

if state not in mapping:  # assegurar que o usuario nao entre com um estado invalido para o ambiente
    
    print('Estado invalido!')
    print('Estados Possiveis: {}'.format(mapping.keys()))
    sys.exit(0)

while (state != 'E'): #comportamento do agente no sistema dado o estado atual

    next_state = next(state)
    print("Estado atual: {0}, proximo estado: {1}".format(state, next_state))
    state = next_state


Entre com o estado inicial: d
Estado atual: D, proximo estado: C
Estado atual: C, proximo estado: A
Estado atual: A, proximo estado: E


Observe que para este código o foco é apenas o mapeamento do estado atual do agente para o próximo estado. Vamos agora utilizar o mesmo ambiente, mas focando nas recompensas. 

***

Veja a nova configuração do ambiente dadas recompensas por estado:

![alt text](rlimages/planta_simples_recompensa.png)

Nesta nova configuração foram atribuídos valores de recompensa para cada estado, sendo a sacada o estado com maior recompensa dado que ela é o objetivo. Não importa, agora, como se chega nesses valores de recompensas, este hands-on está focado apenas na relação estado-recompensa-ação.   

Agora, vamos modificar o código anterior para que ele funcione com o mesmo objetivo, porém escolhendo sempre o próximo estado que lhe dá a maior recompensa (ou menor perda), i.e. adotando uma política gulosa. O novo código fica assim:

In [7]:
import numpy as np
R = {'A':[-1, -90, -2, -90, 1], #Matrix de recompensas 
     'B':[-90, -3, -2, -90, -90],
     'C':[-1, -3, -2, -3, -90],
     'D':[-90, -90, -2, -90, -90],
     'E':[-1, -90, -90, -90, 1]} # -90 eh utilizado como referencia mais baixa para indicar um estado que não da para ir

map_index = {0:'A',1:'B',2:'C',3:'D',4:'E'} # Mapeamento estados - indices 

def next_valor(estado): #nova funcao next, mas agora retornando o proximo estado adotando a politica gulosa
    
    next_state = np.argmax(R[estado])
    return map_index[next_state]
    
state = str(input('Entre com o estado inicial: ')).upper() # Usuario define o estado atual via input

if state not in mapping:  # assegurar que o usuario nao entre com um estado invalido para o ambiente
    
    print('Estado invalido!')
    print('Estados Possiveis: {}'.format(mapping.keys()))
    sys.exit(0)

while (state != 'E'): #comportamento do agente no sistema dado o estado atual

    next_state = next_valor(state)
    print("Estado atual: {0}, proximo estado: {1}".format(state, next_state))
    state = next_state

Entre com o estado inicial: d
Estado atual: D, proximo estado: C
Estado atual: C, proximo estado: A
Estado atual: A, proximo estado: E


Neste novo código utilizamos as recompensas dadas por cada estado como guia para agente durante a sua busca pelo objetivo. Os valores de *-90* utilizados no mapeamento da variável R são para indicar um "ponto fora da curva", i.e para mostrar que dado aquele estado atual, esse próximo estado com recompensa -90 não está disponível (não se pode ir por exemplo direto do estado "D" para o estado "A").

Exposto esses dois exemplos: um de comportamento do agente e outro por recompensa, vamos colocar a mão na massa um pouco.

Dado o seguinte ambiente:

   ![alt text](rlimages/planta_exec.jpg)
    
elabore o mapeamento **estado-ação** e **estado-recompensa** utilizando como base os códigos passados. O objetivo é chegar fora da casa. Note também que há duas opções para se chegar fora da casa (quais são?). Modele a parte externa da casa como um estado único. 