# Modelos de Decisão de Markov

Modelos de Markov são **modelos estocásticos** usados para modelar sistemas pseudo-randômicos. 
Presume que os futuros estados só dependem do estado atual, não de eventos que o precederam (isso é a propriedade de Markov).

Existem dois tipos de sistemas dentros desses modelos de Markov, modelos autonomos (onde a transição de um estado para o outro acontece ocasionalmente sem controle), e controlados onde podemos dizer que existe um **agente**.



Dentro dessa categoria, os modelos de Markov se encaixam como Modelos de Decisão de Markov, que é definida pela quintupla:

$$ M = \{S, A, t, r, \gamma\}$$
onde:
- **S** é o conjunto de estados em um sistema.
- **A** é o conjunto de ações.
- **t** é a função de transição, que significa a probabilidade de chegar em um estado específico **s'** apartir de **s** tomando uma ação **a** na seguinte formatação: $$t:(s', s, a)->P$$, onde p varia de 0 a 1.
- **r** é a recompensa por chegar em um estado s<sub>n</sub> na seguinte notação: $$r:(s_n, s_{n+1}, a)->r$$
- **y** é o fator de desconto que determina quanto um agente valoriza recompensas futuras (tendendo a 1), ou recompensas imediatas (tendendo a 0).

Outro conceito muito importante é a **policy**, que é a regra do modelo para selecionar determinadas ações dado um estado **s**.
Por exemplo, em um modelo de xadrez, a **policy** seria a regra do modelo para selecionar uma certa ação dada uma posição do tabuleiro.
A **policy** simplesmente escolhe as melhores ações para serem tomadas apartir de um estado **s** para maximizar a recompensa em um episódio.

Existem diversas maneiras de ajustar a **policy**, mais o segredo para solucionar um determinado Modelo de Decisão de Markov é ajustar essa **policy** para um estado ideal (**optimal state**).

# Q-Learning

Os algoritmos de Aprendizado por Reforço podem ser classificados em métodos baseados em **valor** ou **policy** (não tocaremos nesse segundo por enquanto).

Métodos baseados em valores determinam uma **função de valor** que quantifica a recompensa. Usando essa função determinamos um **optimal state**.

As funções de valores podem ser apenas baseadas no estado (**state-value function**), no formato: $$v:(s)->x \in \mathbb{R}$$
Ou baseadas em estado-ação (state-action value function), no formato: $$Q:(s, a)>x \in \mathbb{R}$$.

Esses **Q-values** são a base para o método de Q-learning, e é atualizada através da função de Bellman.

$$ \mathbb{Q(s, a)_{novo} = Q(s, a)_{antigo} + \alpha * TDE(s, a)} $$

Onde TDE(s,a) é a função de diferença temporal (obs: ver mais detalhes sobre).

$$ \mathbb{TDE(s, a) = Q(s, a)_{observado} - Q(s, a)_{antigo}} $$

Onde Q(s, a)<sub>observado</sub> é calculado por:

$$ \mathbb{Q(s, a)_{observado} = r + \gamma * max_a' Q(s_{posterior}, a')} $$

Onde $$ \mathbb{ max_a' Q(s_{posterior}, a')} $$ é o maior valor de **q-value** na tabela de **q-table**.

Essa **q-table** é uma tabela que reflete os valor de **state-value function** atual de cada estado dado uma certa ação.

Assim, o objetivo desse modelo é retornar uma **q-table** (que é atualizada a cada **step**) ideal, que refletea **policy ideal**.


Então por exemplo, supondo um jogo com uma matriz 3x3 onde um robô tem que ou sair por uma porta ou cair em um buraco.
Podemos denotar a matriz do jogo como: 

[M<sub>11</sub>, M<sub>12</sub>, M<sub>13</sub>]

[M<sub>21</sub>, M<sub>22</sub>, M<sub>33</sub>]

[M<sub>31</sub>, M<sub>32</sub>, M<sub>33</sub>]

onde:
- M<sub>11</sub> é onde o robô começa.
- M<sub>32</sub> é onde o robô cai no buraco.
- M<sub>33</sub> é onde o robô sai pela porta.

Definindo-se as seguintes regras para esse jogo:
- As recompensas em estados sem nada serão -1, no buraco -100 e na porta +100.
- Um valor de y (é *épsilon*) de 0,9.
- Um algoritmo **epsilon-greedy** para alternar entre **exploração** (nas etapas inicias) e **exploitation** (convergendo para política ótima).
    - Vale ressaltar que por seguir inicialmente um método de **exploração** (ou seja ações randômicas), a **policy** alvo será diferente da abordagem que o agente usará (que é o epsilon-greedy) para alcançar essa **policy** alvo (por isso é **Q-learning** é chamado de **off-policy** diferentemente da SARSA por exemplo).
- A q-table inicial sera iniciada com valores entre 0 e 1.


# Referências

Youtube: CodeEmperium
Youtube: Steve Bruton
Site: Geeks for Geeks
Books: Reinforcement Learning for Finance
LLM: DeepSeek