<a href="https://colab.research.google.com/github/LeonimerMelo/Reinforcement-Learning/blob/Q-Learning/Markov_Decision_Process_(MDP)_v2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Markov Decision Process (MDP)
Markov Decision Process (MDP) é uma ferramenta matemática estocástica (determinada aleatoriamente) baseada no conceito de propriedade de Markov. É usado para modelar problemas de tomada de decisão onde os resultados são parcialmente aleatórios e parcialmente controláveis, e para ajudar a tomar decisões ótimas dentro de um sistema dinâmico. A propriedade de Markov expressa que em um processo aleatório, a probabilidade de um estado futuro ocorrer depende apenas do estado atual, e não depende de nenhum estado passado ou futuro. É um *framework* que pode ajudar a resolver a maioria dos problemas de aprendizagem por reforço (RL).

A **Markov process** or **Markov chain** is a stochastic process of states that is memoryless, or where the probability of any future state $(S_t+1)$ occurring is only dependent on its current state $(S_t)$, and is independent of any past or future states.

Markov Decision Process (MDP) é um modelo matemático utilizado para representar problemas de decisão sequencial em ambientes incertos. É amplamente utilizado em:

Aplicações

1. Inteligência Artificial (IA)
2. Aprendizado de Máquina (ML)
3. Robótica
4. Automação
5. Economia
6. Finanças
7. Logística
8. Planejamento de Produção

Componentes

1. Estados (S): Conjunto de estados possíveis.
2. Ações (A): Conjunto de ações possíveis.
3. Probabilidade de Transição (P): Probabilidade de transição entre estados.
4. Função de Recompensa (R): Recompensa associada a cada ação em cada estado.
5. Política (π): Estratégia de tomada de decisão.

Características

1. **Markoviano**: *O futuro depende apenas do presente*.
2. Decisão sequencial.
3. Ambiente incerto.
4. Recompensa imediata e/ou futura.

Tipos de MDP

1. MDP Finito: Número finito de estados e ações.
2. MDP Contínuo: Estados e/ou ações contínuos.
3. MDP Parcialmente Observável (PO-MDP): Estados não totalmente observáveis.

Algoritmos

1. Value Iteration (VI)
2. Policy Iteration (PI)
3. Q-Learning
4. SARSA
5. Deep Q-Networks (DQN)

Ferramentas

1. Gymnasium [Gym] (Python)
2. PyMDP (Python)
3. MDPtoolbox (Matlab)
4. CVXPY (Python)

**Markov Decision Process (MDP)** é uma estrutura matemática usada para descrever a tomada de decisões em situações onde os resultados são parcialmente aleatórios e parcialmente sob o controle de um agente. Ela fornece um modelo formal para problemas de decisão sequenciais e é amplamente utilizada em áreas como aprendizado por reforço, pesquisa operacional e economia.

Um MDP é definido pelos seguintes componentes:

1. **Estados (S)**: Um conjunto de estados possíveis que descrevem todas as configurações ou situações possíveis em que o sistema pode se encontrar.
   
2. **Ações (A)**: Um conjunto de ações que o agente pode escolher. A escolha que o agente faz no *step time* atual. A escolha de ação determina como o sistema transita entre os estados. Por exemplo, o robô pode mover sua perna direita ou esquerda, levantar seu braço, levantar um objeto ou virar para a direita/esquerda, etc. O conjunto de ações (decisões) que o agente pode executar é conhecido com antecedência.

3. **Função de Transição (P)**: Uma distribuição de probabilidade que especifica a probabilidade de transitar de um estado para outro dado uma ação específica. Formalmente, é $( P(s'|s, a) )$, onde:
   - $( s )$ é o estado atual.
   - $( a )$ é a ação tomada.
   - $( s' )$ é o próximo estado.

4. **Função de Recompensa (R)**: Uma função que atribui a recompensa imediata recebida após transitar de um estado para outro devido a uma ação particular. Isso é geralmente denotado como $( R(s, a, s') )$, onde:
   - $( s )$ é o estado atual.
   - $( a )$ é a ação.
   - $( s' )$ é o estado resultante após a ação ser tomada.

5. **Fator de Desconto ($γ$)**: É o fator $( 0 \leq \gamma \leq 1 )$ que determina a importância das recompensas futuras em comparação com as recompensas imediatas. Um fator de desconto mais próximo de 0 enfatiza recompensas de curto prazo, enquanto um fator mais próximo de 1 prioriza recompensas de longo prazo.

6. **Política (π)**: Uma estratégia ou regra que o agente segue para decidir qual ação tomar em cada estado. Uma política pode ser determinística ou probabilística. Uma política é o processo de raciocínio por trás da escolha de uma ação. Na prática, é uma distribuição de probabilidade atribuída ao conjunto de ações. Ações altamente recompensadoras terão uma alta probabilidade e vice-versa. Se uma ação tem uma baixa probabilidade, isso não significa que ela não será escolhida. É apenas menos provável que seja escolhida.

O objetivo do agente em um MDP é tipicamente encontrar uma **política ótima** que maximize a recompensa acumulada ao longo do tempo, o que é frequentemente chamado de **retorno**. No caso de recompensas descontadas, o retorno é calculado da seguinte forma:

$$
R_t = \sum_{k=0}^{\infty} \gamma^k R(s_t, a_t, s_{t+1})
$$

Onde $ R_t $ é o retorno total a partir do passo de tempo $ t $, e $ \gamma^k $ é o fator de desconto elevado à potência do passo de tempo.

### Conceitos Principais:
- **Função de Valor-Estado (V(s))**: O retorno esperado a partir do estado $ s $ seguindo uma política $ \pi $ dada. Representa o quão bom é estar em um determinado estado.
  
- **Função de Valor-Ação (Q(s, a))**: O retorno esperado a partir do estado $ s $, tomando a ação $ a $, e depois seguindo uma política $ \pi $. É usada para avaliar qual ação é a melhor a ser tomada em um dado estado.

### Resolvendo um MDP:
Para resolver um MDP, algoritmos como **Iteração de Valor** e **Iteração de Política** são frequentemente usados. Esses métodos melhoram iterativamente a função de valor e a política para encontrar a estratégia de tomada de decisão ótima para o agente.

Os MDPs fornecem uma estrutura poderosa para modelar e resolver problemas de tomada de decisão sob incerteza e são fundamentais para o aprendizado por reforço.

#Markov Property
Imagine que um robô sentado em uma cadeira se levantou e colocou seu pé direito para frente. Então, no momento, ele está de pé com seu pé direito para frente. Este é seu estado atual.

Agora, de acordo com a propriedade de Markov, o estado atual do robô depende apenas de seu estado anterior imediato (ou do *time step* anterior), ou seja, o estado em que ele estava quando se levantou. Não depende de seus estados anteriores — antes de estar sentado na cadeira. Da mesma forma, seu próximo estado depende apenas de seu estado atual.

Formalmente, para que um estado $ S_t $ seja Markoviano, a probabilidade do próximo estado $ S_{t+1} $ ser $ s' $ deve depender apenas do estado atual $ S_t = s_t $, e não dos estados passados $ S_{t-1}, S_{t-2}, \dots $.

Um estado $ S_t $ é **Markov** se, e somente se, satisfizer a **propriedade de Markov**. Essa propriedade pode ser expressa matematicamente como:

$$
P(S_{t+1} | S_t, S_{t-1}, \dots, S_0, A_t, A_{t-1}, \dots, A_0) = P(S_{t+1} | S_t, A_t),
$$

onde:
- $ S_t $ representa o estado no tempo $ t $,
- $ A_t $ representa a ação tomada no tempo $ t $,
- $ P(S_{t+1} | \cdot) $ representa a probabilidade condicional de transição para o próximo estado $ S_{t+1} $.

### Interpretação:
Essa propriedade significa que o futuro estado $ S_{t+1} $ depende apenas do estado atual $ S_t $ e da ação atual $ A_t $, e não do histórico de estados e ações passados. Em outras palavras, **o estado atual encapsula todas as informações necessárias para prever o futuro**.

### Implicações Práticas:
- **Dinâmica sem memória**: O processo não "lembra" do passado; as dinâmicas do sistema não dependem de estados/ações anteriores, uma vez que o estado atual é conhecido.
- **Processos de Decisão de Markov (MDPs)**: Essa propriedade é fundamental para definir os MDPs, que são a base matemática de muitos algoritmos de Aprendizado por Reforço.

Se o estado $ S_t $ não satisfaz a propriedade de Markov, informações adicionais (como estados ou ações passadas) podem precisar ser incluídas na representação do estado para torná-lo Markoviano.

### **Processos de Decisão de Markov (MDPs)**

Um **Processo de Decisão de Markov** (Markov Decision Process - MDP) é uma estrutura matemática utilizada para modelar problemas de decisão sequencial em ambientes onde o resultado depende tanto das ações do agente quanto das dinâmicas estocásticas do ambiente. O MDP assume que o estado atual contém toda a informação necessária para determinar o comportamento futuro (propriedade de Markov).

---

### **Definição Formal**
Um MDP é definido como um **tuplo $ (S, A, P, R, \gamma) $**, onde:

1. **$ S $: Conjunto de Estados**
   - Representa todos os possíveis estados $ s $ do ambiente.
   - Exemplo: A posição de um robô em uma sala.

2. **$ A $: Conjunto de Ações**
   - Representa todas as ações $ a $ disponíveis ao agente em cada estado.
   - Exemplo: Mover para cima, para baixo, para a esquerda ou para a direita.

3. **$ P(s' | s, a) $: Probabilidade de Transição**
   - Representa a probabilidade de o estado $ s' $ ser alcançado ao tomar a ação $ a $ no estado $ s $.
   - Exemplo: Em um ambiente estocástico, mover "para cima" pode resultar em 80% de chance de subir e 20% de chance de deslizar para o lado.

4. **$ R(s, a) $: Função de Recompensa**
   - Representa a recompensa esperada por executar a ação $ a $ no estado $ s $.
   - Exemplo: Receber uma recompensa de +10 ao alcançar um objetivo ou -1 por cada movimento realizado.

5. **$ \gamma $: Fator de Desconto**
   - Um valor $ \gamma \in [0, 1] $ que determina a importância das recompensas futuras.
   - Exemplo: $ \gamma = 0.9 $ significa que recompensas futuras são reduzidas em 10% a cada passo no tempo.

---

### Objetivo no MDP
O objetivo é encontrar uma **política ótima ($\pi^*$)**, que é uma função mapeando estados para ações ($\pi(s)$), de forma que maximize a recompensa acumulada esperada ($G_t$):

$$
G_t = \mathbb{E}\left[\sum_{k=0}^\infty \gamma^k R(s_{t+k}, a_{t+k}, s_{t+k+1})\right]
$$

---

### **Soluções para MDPs**
Existem métodos clássicos para resolver MDPs, como:

1. **Iteração de Valor**:
   - Atualiza iterativamente a função de valor dos estados $ V(s) $ até a convergência.
   - Baseia-se na Equação de Bellman:
     $$
     V(s) = \max_a \sum_{s'} P(s' | s, a) \left[ R(s, a) + \gamma V(s') \right].
     $$

2. **Iteração de Política**:
   - Alterna entre avaliar uma política atual $ \pi $ e melhorá-la para $ \pi' $.

3. **Métodos de Programação Dinâmica**:
   - Utilizam a estrutura do MDP e a Equação de Bellman para encontrar soluções de forma eficiente.

4. **Algoritmos de Aprendizado por Reforço**:
   - Quando o modelo $ P(s'|s,a) $ e $ R(s,a) $ não são conhecidos, métodos como Q-Learning ou SARSA podem ser usados.

---

### **Aplicações de MDPs**
MDPs são amplamente utilizados em diversas áreas, incluindo:
- **Robótica**: Planejamento de movimentos.
- **Jogos**: Desenvolvimento de IA para jogos como xadrez e videogames.
- **Negócios**: Otimização de estoques e gerenciamento de recursos.
- **Saúde**: Planejamento de tratamentos médicos.
- **Sistemas Autônomos**: Veículos autônomos e drones.

##Objetivo de um Markov Decision Process (MDP)
O **objetivo em um Markov Decision Process (MDP)** é encontrar uma **política ótima ($\pi^*$)** que maximize a recompensa acumulada esperada ao longo do tempo. Vamos detalhar o que isso significa e como é calculado:

---

### **1. O que é uma política ($\pi$)?**
- Uma política é uma regra que define qual ação tomar em cada estado.
- Exemplo: Para um rato em um labirinto, a política pode ser algo como: "Se estou na célula $s$, me movo para a direita."

A política pode ser:
- **Determinística ($\pi(s) = a$)**: Sempre escolhe a mesma ação para um dado estado.
- **Estocástica ($\pi(a|s)$)**: Escolhe ações com base em probabilidades.

---

### **2. Recompensa acumulada esperada ($G_t$)**
O objetivo do agente é maximizar a soma das recompensas ao longo do tempo. Essa soma é chamada de recompensa acumulada esperada ($G_t$) e é calculada como:

$$
G_t = R_t + \gamma R_{t+1} + \gamma^2 R_{t+2} + \dots = \sum_{k=0}^\infty \gamma^k R_{t+k}
$$

#### **Componentes:**
- **$R_t$**: Recompensa recebida no tempo $t$.
- **$\gamma \in [0, 1]$**: Fator de desconto. Ele ajusta a importância das recompensas futuras:
  - Se $\gamma = 0$, apenas a recompensa imediata importa.
  - Se $\gamma \to 1$, recompensas futuras têm quase o mesmo peso que as imediatas.
- **Soma infinita**: O fator de desconto garante que a soma converge (se $\gamma < 1$).

---

### **3. Valor de um estado ($V^\pi(s)$)**
O valor de um estado sob uma política $\pi$ é a recompensa acumulada esperada que o agente receberá, começando no estado $s$ e seguindo a política $\pi$:

$$
V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{k=0}^\infty \gamma^k R(s_k, a_k, s_{k+1}) \mid s_0 = s \right]
$$

#### **Como isso funciona:**
- O agente começa em $s_0 = s$.
- Ele escolhe ações com base na política $\pi$.
- A recompensa total depende das transições e recompensas em cada estado.

---

### **4. A política ótima ($\pi^*$)**
A política ótima maximiza o valor esperado para todos os estados. Em outras palavras:

$$
\pi^* = \arg\max_\pi V^\pi(s), \, \forall s \in S
$$

#### **Função de valor ótima ($V^*(s)$):**
O valor ótimo de um estado é o maior valor esperado que pode ser obtido de $s$, assumindo que o agente age de forma ótima:

$$
V^*(s) = \max_\pi V^\pi(s)
$$

#### **Função Q-valor ótima ($Q^*(s, a)$):**
O valor Q ótimo combina o estado e a ação, indicando a recompensa acumulada esperada ao tomar a ação $a$ no estado $s$ e seguir a política ótima:

$$
Q^*(s, a) = \mathbb{E} \left[ R(s, a, s') + \gamma V^*(s') \right]
$$

---

### **5. Resumo do objetivo**
O agente deve:
1. Avaliar o ambiente para calcular $V^\pi(s)$ ou $Q^\pi(s, a)$ para uma política.
2. Encontrar a política $\pi^*$ que maximiza $V^\pi(s)$ ou $Q^\pi(s, a)$.
3. Seguir essa política para maximizar a soma de recompensas esperadas ao longo do tempo.

##Reinforcement Learning as MDP
Agora, considere como um ambiente faz a transição de um estado para o próximo usando o que é
conhecido como função de transição. No aprendizado por reforço, uma função de transição é
formulada como um Markov Decision Process (MDP), que é uma estrutura matemática que
modela a tomada de decisão sequencial.

Para entender por que as funções de transição são representadas como MDPs, considere uma formulação geral mostrada na equação abaixo:

$$s_{t+1}\simeq \mathrm{P}\left[ s_{t+1} | (s_0,a_0), (s_1,a_1),\cdots ,(s_t,a_t) \right]$$

A equação diz que no *time step* $t$, o próximo estado $s_{t+1}$ é amostrado de uma distribuição de probabilidade
$\mathrm{P}$ *condicionada a todo o histórico*. A probabilidade de um ambiente
transitar do estado $s_t$ para $s_{t+1}$ depende de todos os estados precedentes $s$ e ações $a$
que ocorreram até agora em um episódio. É desafiador modelar uma função de transição
nessa forma, particularmente se os episódios duram muitos passos de tempo. Qualquer função de transição que
projetarmos precisaria ser capaz de levar em conta uma vasta combinação de efeitos que ocorreram em
qualquer ponto no passado. Além disso, essa formulação torna a função de produção de ação
de um agente — sua política — significativamente mais complexa. Como todo o histórico de estados e
ações é relevante para entender como uma ação pode mudar o estado futuro do
mundo, um agente precisaria levar em conta todas essas informações ao decidir
como agir.

Para tornar a função de transição de ambiente mais prática, nós a transformamos em um MDP
adicionando a suposição de que a transição para o próximo estado $s_{t+1}$ depende apenas
do estado anterior $s_{t}$ e da ação $a_t$. Isso é conhecido como propriedade de Markov (**Markov Property**). Com essa
suposição, a nova função de transição se torna a seguinte:

$$s_{t+1}\simeq \mathrm{P}\left[ s_{t+1} | s_t,a_t \right]$$

A equação diz que o próximo estado $s_{t+1}$ é amostrado de uma distribuição de probabilidade
$\mathrm{P}\left[ s_{t+1} | s_t,a_t \right]$. Esta é uma forma mais simples da função de transição original. A propriedade
de Markov implica que o estado atual e a ação no *step time t* contêm informações
suficientes para determinar completamente a probabilidade de transição para o próximo estado em *t* + 1.

Apesar da simplicidade desta formulação, ela ainda é bastante poderosa. Muitos processos
podem ser expressos nesta forma, incluindo jogos, controle robótico e planejamento. Isso ocorre porque um estado pode ser definido para incluir todas as informações necessárias para tornar a função de transição Markoviana.



Agora estamos em posição de apresentar a formulação MDP de um problema de aprendizado por reforço.
Um MDP é definido por uma tuple[4]: $\mathcal{S,A,P(.), R(.)}$, onde
- $\mathcal{S}$ é o conjunto de estados.
- $\mathcal{A}$ é o conjunto de ações.
- $\mathcal{P}(s_{t+1} | s_t, a_t)$ é a função de transição de estado do ambiente.
- $\mathcal{R}(s_t, a_t, s_{t+1})$ é a função de recompensa do ambiente.

Uma suposição importante subjacente aos problemas de aprendizado por reforço é que os agentes não têm acesso à função de transição $\mathcal{P}(s_{t+1} | s_t, a_t)$, ou
à função de recompensa $\mathcal{R}(s_t, a_t, s_{t+1})$. A única maneira de um agente obter informações sobre
essas funções é por meio dos estados, ações e recompensas que ele realmente experimenta no
ambiente — ou seja, as tuplas $(s_t, a_t, r_t)$.

Para completar a formulação do problema, também precisamos formalizar o conceito de
um objetivo que um agente maximiza. Primeiro, vamos definir o **retorno** $R(τ)$ usando uma
trajetória de um episódio, $τ = (s_0, a_0, r_0), \dots ,(s_T , a_T , r_T )$:

$$R(\tau)=r_0+\gamma r_1+\gamma^2 r_2+\cdots+\gamma^T r_T=\sum_{t=0}^{T}\gamma^t r_t$$

A equação define o **retorno** $R(\tau)$  como uma soma descontada das recompensas em uma trajetória,
onde $γ ∈ [0, 1]$ é o **fator de desconto**.

Então, o **objetivo** $J(τ )$ é simplesmente a expectativa dos retornos ao longo de muitas trajetórias,
mostrado na equação:

$$J(\tau)=\mathbb{E_{\tau\sim \pi}}[R(\tau)]=\mathbb{E_{\tau}}\left[ \sum_{t=0}^{T}\gamma^t r_t \right]$$

O **retorno** $R(\tau)$ é a soma das recompensas descontadas $\gamma^t r_t$ em todos os intervalos de tempo $t = 0, . . . , T$.
O **objetivo** $J(τ )$ é o **retorno médio** em muitos episódios. A expectativa leva em conta a estocasticidade nas ações e no ambiente — ou seja, em execuções repetidas, o retorno pode não ser sempre o mesmo. Maximizar o objetivo é o mesmo que maximizar o retorno.

O fator de desconto $ \gamma \in [0, 1] $ é uma variável importante que altera a forma como as recompensas futuras são valorizadas. Quanto menor $ \gamma $, menor o peso dado às recompensas em etapas temporais futuras, tornando o processo "de visão curta". No caso extremo, com $ \gamma = 0 $, o objetivo considera apenas a recompensa inicial $ r_0 $, como mostrado na equação abaixo:

$$
R(\tau)_{\gamma=0} = \sum_{t=0}^{T} \gamma^t r_t = r_0
$$

Quanto maior $ \gamma $, maior o peso atribuído às recompensas em etapas temporais futuras: o objetivo se torna mais "visionário" ou "de longo prazo". Se $ \gamma = 1 $, as recompensas de cada etapa temporal são ponderadas igualmente, como mostrado na equação abaixo:

$$
R(\tau)_{\gamma=1} = \sum_{t=0}^{T} \gamma^t r_t = \sum_{t=0}^{T} r_t
$$

Para problemas com horizonte de tempo **infinito**, precisamos definir $ \gamma < 1 $ para evitar que o objetivo se torne ilimitado. Para problemas com horizonte de tempo **finito**, $ \gamma $ é um parâmetro importante, pois o problema pode se tornar mais ou menos difícil de resolver dependendo do fator de desconto que utilizamos.

Tendo definido o aprendizado por reforço como um Processo de Decisão de Markov (MDP) e estabelecido o objetivo, podemos agora expressar o ciclo de controle do aprendizado por reforço da figura abaixo

<center>
<img src='https://drive.google.com/uc?id=1Wta1_jMOQ84pyWiTyiDro0EbsRpr2_YN' width=400>
</center>

como um ciclo de controle de MDP no no Algoritmo 1.1.

<center>
<img src='https://drive.google.com/uc?id=1UdibQPHC1YdBjTC9dEzv-sWQupYxOpNk' width=400>
</center>

#### Algoritmo 1.1: Ciclo de Controle de MDP
```text
1: Dado um ambiente (env) e um agente:
2: para episódio = 0, ..., MAX_EPISODE faça
3:     estado = env.reset()
4:     agent.reset()
5:     para t = 0, ..., T faça
6:         ação = agent.act(estado)
7:         estado, recompensa = env.step(ação)
8:         agent.update(ação, estado, recompensa)
9:         se env.done() então
10:            interrompa
11:        fim se
12:    fim para
13: fim para
```

Esse ciclo descreve o processo iterativo de interação entre um agente e um ambiente em um contexto de aprendizado por reforço modelado como um MDP. Aqui estão os passos principais:

1. O ambiente e o agente são inicializados.  
2. Para cada episódio, o estado inicial do ambiente é resetado, e o agente também é reinicializado.  
3. Em cada passo de tempo $ t $:
   - O agente escolhe uma ação com base no estado atual.
   - O ambiente avança um passo, retornando um novo estado e uma recompensa.
   - O agente atualiza suas informações com base na ação tomada, no novo estado e na recompensa recebida.  
4. O ciclo é encerrado se o ambiente indicar que o episódio terminou (`env.done()`).

O Algoritmo 1.1 descreve as interações entre um agente e um ambiente ao longo de muitos episódios e passos de tempo. No início de cada episódio, o ambiente e o agente são reinicializados (linhas 3–4). Durante a reinicialização, o ambiente gera um estado inicial. Em seguida, inicia-se a interação: o agente produz uma ação com base no estado (linha 6), e o ambiente gera o próximo estado e a recompensa com base na ação tomada (linha 7), avançando para o próximo passo de tempo.  

O ciclo **agent.act-env.step** continua até que o **número máximo** de passos de tempo $T$ seja alcançado ou o ambiente indique a terminação do episódio.  

Além disso, observa-se um novo componente no algoritmo: **agent.update** (linha 8), que encapsula o algoritmo de aprendizado do agente. Esse método coleta dados e realiza o aprendizado internamente ao longo de múltiplos passos de tempo e episódios, com o objetivo de maximizar a função objetivo.

Este algoritmo é genérico e pode ser adaptado para diferentes métodos de aprendizado por reforço, como Q-learning ou aprendizado baseado em políticas.

## A Função de Valor

A **função de valor** representa a qualidade de longo prazo de um estado. Ela é o **retorno acumulado esperado no futuro** caso o agente inicie em um estado específico. Enquanto a recompensa mede o desempenho imediato, a função de valor avalia o desempenho no longo prazo.  

- Uma **alta recompensa** imediata não garante uma **alta função de valor**, assim como uma **baixa recompensa** não significa necessariamente uma **baixa função de valor**.  
- A função de valor pode ser definida de duas formas:
  1. **Função de valor de estado** ($ V(s) $): mede o valor de estar em um estado $ s $.
  2. **Função de valor de ação** ($ Q(s, a) $): mede o valor de realizar uma ação $ a $ em um estado $ s $.

Essas funções são fundamentais para orientar o agente na escolha de ações que maximizem o retorno esperado ao longo do tempo.

O diagrama mencionado mostra:
- **Valores finais dos estados** (lado esquerdo): indicando o valor de longo prazo associado a cada estado.  
- **Política ótima correspondente** (lado direito): destacando as ações que o agente deve tomar para maximizar o valor acumulado a partir de cada estado.


Vamos detalhar as funções $ V(s) $ e $ Q(s, a) $:

---

### 1. **Função de Valor de Estado ($ V(s) $)**

A função de valor de estado, $ V(s) $, mede o retorno esperado ao começar em um estado $ s $ e seguir uma política $ \pi $ (que define quais ações o agente tomará em cada estado). Matematicamente:

$$
V^\pi(s) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t r_t \mid s_0 = s \right]
$$

- **$ r_t $**: recompensa recebida no passo de tempo $ t $.
- **$ \gamma $**: fator de desconto ($ 0 \leq \gamma < 1 $), que reduz a importância de recompensas futuras.
- **$ \mathbb{E}_\pi $**: expectativa calculada com base na política $ \pi $.

**Interpretação**: $ V(s) $ responde à pergunta: "Qual é o retorno esperado a partir do estado $ s $ seguindo a política $ \pi $?"

---

### 2. **Função de Valor de Ação ($ Q(s, a) $)**

A função de valor de ação, $ Q(s, a) $, mede o retorno esperado ao tomar uma ação $ a $ em um estado $ s $ e, a partir daí, seguir a política $ \pi $. Sua definição é:

$$
Q^\pi(s, a) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t r_t \mid s_0 = s, a_0 = a \right]
$$

**Interpretação**: $ Q(s, a) $ responde à pergunta: "Qual é o retorno esperado ao executar a ação $ a $ no estado $ s $ e depois seguir a política $ \pi $?"

---

### Diferença entre $ V(s) $ e $ Q(s, a) $

- $ V(s) $: avalia o **estado** considerando que as ações futuras seguem uma política $ \pi $.  
- $ Q(s, a) $: avalia uma **ação específica** em um estado, antes de seguir a política $ \pi $.  

---

### 3. **Política Ótima e Relação com as Funções de Valor**

A política ótima $ \pi^* $ é aquela que maximiza o retorno esperado. Ela pode ser obtida das funções de valor:

1. Para $ V^*(s) $:  
   $$
   V^*(s) = \max_a Q^*(s, a)
   $$
   Aqui, $ V^*(s) $ representa o valor ótimo do estado $ s $, calculado pela melhor ação $ a $.

2. Para $ Q^*(s, a) $:  
   $$
   Q^*(s, a) = r(s, a) + \gamma \sum_{s'} P(s' \mid s, a) V^*(s')
   $$
   Onde:
   - $ r(s, a) $: recompensa imediata ao tomar $ a $ em $ s $.
   - $ P(s' \mid s, a) $: probabilidade de transitar para $ s' $ ao tomar $ a $ em $ s $.

---

### 4. **Exemplo Prático**

Imagine um tabuleiro onde o agente deve chegar a um objetivo:

1. **$ V(s) $**: o valor de cada célula no tabuleiro, que representa a recompensa esperada ao começar naquela célula e seguir a melhor política.
2. **$ Q(s, a) $**: o valor de cada ação (ex: "mover para cima") em uma célula específica, representando a recompensa esperada ao realizar essa ação e depois seguir a melhor política.

Com o tempo, o agente aprende esses valores para cada estado ou estado-ação, permitindo que ele escolha as melhores ações em cada situação.

### Cálculo e Estimação de $ V(s) $ e $ Q(s, a) $

Agora vamos detalhar como calcular ou estimar as funções de valor de estado $ V(s) $ e de ação $ Q(s, a) $ em diferentes contextos, como aprendizado por reforço. Existem duas abordagens principais: **cálculo exato (para problemas simples)** e **estimação iterativa (para problemas mais complexos)**.

---

### 1. **Cálculo Exato: Equações de Bellman**

#### a) Equação de Bellman para $ V(s) $
A função de valor de estado pode ser definida recursivamente pela **Equação de Bellman**:

$$
V^\pi(s) = \sum_a \pi(a \mid s) \left[ r(s, a) + \gamma \sum_{s'} P(s' \mid s, a) V^\pi(s') \right]
$$

- **$ \pi(a \mid s) $**: probabilidade de escolher a ação $ a $ no estado $ s $ sob a política $ \pi $.
- **$ r(s, a) $**: recompensa esperada ao tomar a ação $ a $ no estado $ s $.
- **$ P(s' \mid s, a) $**: probabilidade de transição para o estado $ s' $ ao tomar a ação $ a $ no estado $ s $.

---

#### b) Equação de Bellman para $ Q(s, a) $
A função de valor de ação também pode ser definida recursivamente:

$$
Q^\pi(s, a) = r(s, a) + \gamma \sum_{s'} P(s' \mid s, a) \sum_{a'} \pi(a' \mid s') Q^\pi(s', a')
$$

Aqui, a atualização inclui o valor das ações subsequentes $ Q^\pi(s', a') $, ponderado pela política $ \pi $.

---

#### c) Política Ótima e Equações Ótimas
Quando buscamos a **política ótima** $ \pi^* $, as equações são ajustadas para maximizar o valor:

1. **Estado ótimo $ V^*(s) $:**
   $$
   V^*(s) = \max_a \left[ r(s, a) + \gamma \sum_{s'} P(s' \mid s, a) V^*(s') \right]
   $$

2. **Ação ótima $ Q^*(s, a) $:**
   $$
   Q^*(s, a) = r(s, a) + \gamma \sum_{s'} P(s' \mid s, a) \max_{a'} Q^*(s', a')
   $$

Essas equações fornecem a base para métodos de controle, como Iteração de Valores e Iteração de Políticas.

---

### 2. **Métodos Iterativos para Estimação**

Para problemas grandes ou contínuos, calcular diretamente $ V(s) $ ou $ Q(s, a) $ é inviável. Usamos métodos iterativos para aproximá-los.

#### a) **Iteração de Valores**
1. Inicie com $ V(s) $ arbitrário para todos os estados.
2. Atualize iterativamente usando a Equação de Bellman:
   $$
   V_{k+1}(s) = \max_a \left[ r(s, a) + \gamma \sum_{s'} P(s' \mid s, a) V_k(s') \right]
   $$
3. Pare quando $ V(s) $ convergir.

---

#### b) **Iteração de Políticas**
1. Inicie com uma política arbitrária $ \pi $.
2. **Avaliação da Política**:
   - Calcule $ V^\pi(s) $ para a política atual.
3. **Melhoria da Política**:
   - Atualize $ \pi $ escolhendo a melhor ação:
     
     $$\pi'(s) = \arg\max_a \left[ r(s, a) + \gamma \sum_{s'} P(s' \mid s, a) V^\pi(s')\right]$$
     
4. Repita até que $ \pi $ seja estável.

---

#### c) **Q-Learning**
Quando o modelo do ambiente não é conhecido, usamos métodos baseados em amostras, como **Q-Learning**:

1. Inicialize $ Q(s, a) $ arbitrariamente.
2. Em cada interação, atualize $ Q(s, a) $:
   $$
   Q(s, a) \leftarrow Q(s, a) + \alpha \left[ r + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]
   $$
   - $ \alpha $: taxa de aprendizado.
   - $ r $: recompensa observada.
   - $ \gamma $: fator de desconto.

---

### 3. **Resumo e Conexões**

- **Iteração de Valores** e **Iteração de Políticas** são usadas quando conhecemos $ P(s' \mid s, a) $ e $ r(s, a) $.  
- **Q-Learning** é útil quando o ambiente é desconhecido e a interação direta é necessária.  
- Ambas as funções ($ V(s) $ e $ Q(s, a) $) ajudam o agente a tomar decisões que maximizam o retorno esperado.

#Q-Table of Q-Learning
A fórmula de atualização da **Q-table** vem da **Equação de Bellman**, que descreve a relação recursiva entre o valor atual de um estado ou ação e os valores futuros esperados. A ideia central é que o valor $Q(s, a)$ de uma ação em um estado é igual à recompensa imediata esperada mais o valor esperado das recompensas futuras, descontadas pelo fator $\gamma$.

---

### **1. Origem: Equação de Bellman para Valores Q**

A função Q ($Q(s, a)$) representa a recompensa acumulada esperada ao tomar a ação $a$ no estado $s$ e, a partir daí, seguir a política ótima. A relação de Bellman é:

$$
Q^*(s, a) = \mathbb{E} \left[ R(s, a, s') + \gamma \max_{a'} Q^*(s', a') \right]
$$

#### **Explicação dos termos:**
1. $R(s, a, s')$: A recompensa imediata ao executar a ação $a$ no estado $s$ e transitar para $s'$.
2. $\max_{a'} Q^*(s', a')$: O valor ótimo esperado das recompensas futuras, assumindo que o agente age de forma ótima após transitar para o estado $s'$.
3. $\gamma$: O fator de desconto ($0 \leq \gamma \leq 1$), que controla a importância das recompensas futuras.

Essa equação diz que o valor $Q^*(s, a)$ pode ser decomposto em duas partes:
- A recompensa imediata.
- A melhor recompensa esperada a partir do próximo estado.

---

### **2. Fórmula de Atualização da Q-table**

No **Q-learning**, uma técnica de aprendizado por reforço, o agente utiliza interações com o ambiente para estimar a função $Q(s, a)$ sem conhecimento prévio das funções de transição ($P(s'|s, a)$) ou recompensa ($R(s, a, s')$).

A atualização da Q-table segue a seguinte fórmula:

$$
Q(s, a) \gets Q(s, a) + \alpha \left[ R + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]
$$

#### **Derivação:**
1. **Definir a meta:** A equação de Bellman nos dá o valor "correto" para $Q(s, a)$:
   $$
   Q_{\text{target}} = R + \gamma \max_{a'} Q(s', a')
   $$

2. **Erro temporal:** O erro entre o valor atual de $Q(s, a)$ e o valor-alvo é:
   $$
   \delta = Q_{\text{target}} - Q(s, a)
   $$

3. **Atualizar gradualmente:** Em vez de substituir diretamente $Q(s, a)$ pelo valor-alvo (o que seria instável), usamos um fator de aprendizado ($\alpha$) para fazer uma atualização parcial:
   $$
   Q(s, a) \gets Q(s, a) + \alpha \delta
   $$

Substituindo $Q_{\text{target}}$, obtemos:
$$
Q(s, a) \gets Q(s, a) + \alpha \left[ R + \gamma \max_{a'} Q(s', a') - Q(s, a) \right]
$$

---

### **3. Componentes da Fórmula de Atualização**

1. **Valor atual ($Q(s, a)$)**: Representa o conhecimento atual do agente sobre a qualidade da ação $a$ no estado $s$.

2. **Recompensa imediata ($R$)**: Feedback direto obtido ao executar a ação.

3. **Estimativa do futuro ($\max_{a'} Q(s', a')$)**: Melhor recompensa futura esperada a partir do próximo estado $s'$.

4. **Fator de aprendizado ($\alpha$)**: Controla a taxa de atualização. Valores altos tornam o aprendizado rápido, mas menos estável; valores baixos tornam o aprendizado lento, mas mais robusto.

5. **Fator de desconto ($\gamma$)**: Controla a importância das recompensas futuras em relação às recompensas imediatas.

---

### **4. Intuição da Fórmula**

- O valor atual $Q(s, a)$ é ajustado para se aproximar do valor-alvo $Q_{\text{target}}$, que é baseado na recompensa imediata $R$ e na melhor estimativa futura $\gamma \max_{a'} Q(s', a')$.
- O aprendizado ocorre iterativamente, permitindo ao agente melhorar sua estimativa de $Q(s, a)$ à medida que interage com o ambiente.

---

### **5. Exemplos**

Imagine um rato em um labirinto onde:
- Estados ($s$): Células do labirinto.
- Ações ($a$): Movimentos (cima, baixo, esquerda, direita).
- Recompensas ($R$): $+10$ para encontrar o queijo, $-1$ para cada movimento.

Se o rato está na célula $s = (1, 1)$, move-se para a célula $s' = (1, 2)$, e ganha uma recompensa $R = -1$, a atualização seria:

$$
Q((1, 1), \text{direita}) \gets Q((1, 1), \text{direita}) + \alpha \left[ -1 + \gamma \max_{a'} Q((1, 2), a') - Q((1, 1), \text{direita}) \right]
$$

---

Se precisar de uma implementação prática ou visualização, posso ajudar!

#Aplicações na prática
Aqui estão alguns exemplos práticos de Processos de Decisão de Markov (MDPs) em diferentes contextos:

---

### **1. Robótica: Navegação em Ambientes**
**Problema**: Um robô precisa se mover de uma posição inicial para um objetivo em um grid 2D com obstáculos.

- **Estados ($S$)**: Cada célula do grid é um estado possível.
- **Ações ($A$)**: Mover para cima, para baixo, para a esquerda ou para a direita.
- **Transições ($P(s'|s, a)$)**: Existe uma probabilidade de $80\%$ de o robô se mover na direção desejada e $20\%$ de deslizar para uma célula vizinha.
- **Recompensa ($R(s, a)$)**:
  - $+10$ ao alcançar o objetivo.
  - $-1$ por cada movimento realizado.
  - $-100$ se colidir com um obstáculo.

**Solução**: O robô utiliza algoritmos de aprendizado por reforço, como Q-Learning, para aprender a melhor política de navegação.

---

### **2. Jogos: Agente para Jogos de Tabuleiro**
**Problema**: Desenvolver um agente para jogar xadrez ou um jogo como Tic-Tac-Toe.

- **Estados ($S$)**: Configurações possíveis do tabuleiro.
- **Ações ($A$)**: Jogadas válidas em cada estado.
- **Transições ($P(s'|s, a)$)**: A transição para o próximo estado depende das regras do jogo e das ações do adversário.
- **Recompensa ($R(s, a)$)**:
  - $+1$ por vencer o jogo.
  - $-1$ por perder.
  - $0$ para empates ou estados intermediários.

**Solução**: Usar RL baseado em modelo (como AlphaZero) para aprender estratégias a partir de simulações.

---

### **3. Saúde: Planejamento de Tratamentos Médicos**
**Problema**: Otimizar o tratamento para pacientes com doenças crônicas, como diabetes ou câncer.

- **Estados ($S$)**: Representam a condição atual do paciente (por exemplo, níveis de glicose no sangue ou estágio do tumor).
- **Ações ($A$)**: Decisões médicas, como ajustar medicação, recomendar exercícios ou alterar a dieta.
- **Transições ($P(s'|s, a)$)**: As transições refletem como o estado do paciente muda com base no tratamento aplicado.
- **Recompensa ($R(s, a)$)**: Maximizar o bem-estar do paciente e minimizar os custos do tratamento.

**Solução**: Usar MDPs para modelar o problema e algoritmos de RL para encontrar políticas personalizadas para cada paciente.

---

### **4. Finanças: Otimização de Portfólio**
**Problema**: Determinar quanto investir em diferentes ativos para maximizar os retornos ao longo do tempo.

- **Estados ($S$)**: Distribuição atual do portfólio e preços dos ativos.
- **Ações ($A$)**: Comprar, vender ou manter ativos específicos.
- **Transições ($P(s'|s, a)$)**: Modelam a evolução dos preços dos ativos e do portfólio.
- **Recompensa ($R(s, a)$)**: Lucro ou perda financeira em cada período.

**Solução**: Usar RL para identificar estratégias que balanceiem retorno e risco.

---

### **5. Sistemas Autônomos: Controle de Tráfego**
**Problema**: Controlar os sinais de trânsito em uma cidade para minimizar congestionamentos.

- **Estados ($S$)**: Condição atual do tráfego em cada interseção (número de veículos nas filas).
- **Ações ($A$)**: Ajustar a duração dos sinais (verde, vermelho, amarelo) em cada direção.
- **Transições ($P(s'|s, a)$)**: Refletem a dinâmica do fluxo de veículos.
- **Recompensa ($R(s, a)$)**: Penalidade proporcional ao tempo médio de espera dos veículos.

**Solução**: Aplicar aprendizado profundo em combinação com RL (Deep RL) para controlar sinais em tempo real.

---

### **6. Gerenciamento de Recursos: Escalonamento de Servidores**
**Problema**: Gerenciar a alocação de servidores em um data center para lidar com demandas variáveis.

- **Estados ($S$)**: Número de servidores ativos e carga de trabalho atual.
- **Ações ($A$)**: Ativar ou desativar servidores.
- **Transições ($P(s'|s, a)$)**: Mudanças na carga de trabalho e estado dos servidores.
- **Recompensa ($R(s, a)$)**:
  - Penalidades para consumo excessivo de energia.
  - Recompensas para tempos de resposta rápidos.

**Solução**: Modelar como um MDP e usar RL para aprender estratégias de escalonamento eficiente.

---

##Referências
1. "Markov Decision Processes: Discrete Stochastic Dynamic Programming" de Martin L. Puterman.
1. Laura Graesser, Wah Loon Keng. **Foundations of Deep Reinforcement Learning - Theory and Practice in Python**. Pearson Addison-Wesley. 2023.
2. "Reinforcement Learning: An Introduction" de Richard S. Sutton e Andrew G. Barto.
3. ["MDP Tutorial" de Stanford University](https://ai.stanford.edu/~gwthomas/notes/mdps.pdf)
4. https://gymnasium.farama.org/introduction/basic_usage/
5. [Understanding the Markov Decision Process (MDP)](https://builtin.com/machine-learning/markov-decision-process)