# 1. Equações de Bellman

## Para V(s)

Definição

$V(s) = E[G_t]$, considerando todos os retornos em que $S_t=s$ para $t$ qualquer.

Mas, a seguir, veremos equações derivadas da definição, e chamadas de *equações de Bellman*.

Esta primeira é apenas para destacar que, basicamente, a equação segue a ideia de cálculo da esperança $E[.]$:

$V(s) = \displaystyle\sum_{a,s',r} p_{a,s',r} \times (r + \gamma V(s'))$


Mas, se formos distinguir as contribuições de uma política estocástica e um ambiente estocástico, esta é a forma completa da equação:

$V(s) = \displaystyle\sum_{a} \pi(a|s) \times \displaystyle\sum_{s', r} p(s',r|s,a) \times (r + \gamma V(s'))$

Mas se o ambiente (MDP) e a política forem determinísticos, a equação fica bem mais simples, sem probabilidades:

$V(s) = r + \gamma V(s')$

Onde:
- $a$ é a ação escolhida pela política no estado $s$, ou seja, $\pi(s)=a$
- $r$ = recompensa recebida após fazer ação $a$ no estado $s$
- $s'$ = próximo estado, após fazer a ação $a$ no estado $s$



## Para Q(s,a)

Definição

$Q(s,a) = E[G_t]$, considerando todos os retornos em que $S_t=s$ e e $A_t=a$, para $t$ qualquer.


Como a ação $a$ é definida diretamente no parâmetro, a *equação de Bellman* para $Q$ fica um pouco mais simples:

$Q(s,a) = \displaystyle\sum_{s', r} p(s',r|s,a) \times (r + \gamma V(s'))$

Se a política for determinística, fica ainda mais simples:

$Q(s,a) = r + \gamma V(s')$

Onde:
- $r$ = recompensa recebida após fazer ação $a$ no estado $s$
- $s'$ = próximo estado, após fazer a ação $a$ no estado $s$

# 2. TD-Learning (para o Q)

Consider que $Q$ é um tipo de tabela (ou matriz) que guarda uma estimativa do valor teórico do $Q$.

## Parte 1

Os algoritmos que vimos, a cada passo, fazem uma nova estimativa do valor do estado atual, usando:
- a recompensa recebida
- algum valor do próximo estado calculado usando $Q$

$Q_{target} = r + \gamma V(s')$


Onde:

- *Q-Learning*: assume a política gulosa

$V(s') = \displaystyle \max_{a'} Q(s',a')$

- *SARSA*: usa as probabilidades da própria política

$V(s') = \displaystyle\sum_{a'} \pi(a'|s') Q(s',a')$

## Parte 2

Atualiza a tabela $Q$ fazendo um tipo de média, onde o parâmetro $\alpha$ (taxa de aprendizagem) indica o peso do novo valor:

$Q(s,a) \leftarrow (1-\alpha) Q(s,a) + \alpha Q_{target}$

Desenvolvendo e rearranjando, ficamos com esta equação:

$Q(s,a) \leftarrow Q(s,a) + \alpha (Q_{target} - Q(s,a))$