# 1. Equações de Bellman

## Para V(s)

Definição

$V(s) = E[G_t]$, considerando todos os retornos em que $S_t=s$ para $t$ qualquer.

Mas, a seguir, veremos equações derivadas da definição, e chamadas de *Equações de Bellman*.

Basicamente, as equações de Bellamn têm a forma de um cálculo da esperança $E[.]$, assim:

$V(s) = \displaystyle\sum_{a,s',r} p_{a,s',r} \times (r + \gamma V(s'))$


Mas, incluindo as contribuições de uma política estocástica e um ambiente estocástico, esta é a forma completa da equação:

$V(s) = \displaystyle\sum_{a} \pi(a|s) \times \displaystyle\sum_{s', r} p(s',r|s,a) \times (r + \gamma V(s'))$

Mas se o ambiente (MDP) e a política forem determinísticos, a equação fica bem mais simples, sem probabilidades:

$V(s) = r + \gamma V(s')$

Onde:
- $a$ é a ação escolhida pela política no estado $s$, ou seja, $\pi(s)=a$
- $r$ = recompensa recebida após fazer ação $a$ no estado $s$
- $s'$ = próximo estado, após fazer a ação $a$ no estado $s$



## Para Q(s,a)

Definição

$Q(s,a) = E[G_t]$, considerando todos os retornos em que $S_t=s$ e e $A_t=a$, para $t$ qualquer.


Como a ação $a$ é definida diretamente no parâmetro, a *equação de Bellman* para $Q$ fica um pouco mais simples:

$Q(s,a) = \displaystyle\sum_{s', r} p(s',r|s,a) \times (r + \gamma V(s'))$

Se a política for determinística, fica ainda mais simples:

$Q(s,a) = r + \gamma V(s')$

Onde:
- $r$ = recompensa recebida após fazer ação $a$ no estado $s$
- $s'$ = próximo estado, após fazer a ação $a$ no estado $s$

# 2. TD-Learning de 1 passo (para o Q)

Considere que $Q$ é um tipo de tabela (ou matriz) que guarda uma estimativa do valor teórico do $Q$.

## Parte 1

Os algoritmos que vimos, a cada passo, fazem uma nova estimativa do valor do estado atual, usando:
- a recompensa recebida
- algum valor do próximo estado calculado usando $Q$

$Q_{target} = r + \gamma V(s')$


Onde:

- *Q-Learning*: assume a política gulosa

$V(s') = \displaystyle \max_{a'} Q(s',a')$

- *Expected-SARSA*: usa as probabilidades da própria política

$V(s') = \displaystyle\sum_{a'} \pi(a'|s') Q(s',a')$

- *SARSA*: usa exatamente a próxima ação $a'$ escolhida

$V(s') = Q(s',a')$

## Parte 2

Atualiza a tabela $Q$ fazendo um tipo de média, onde o parâmetro $\alpha$ (taxa de aprendizagem) indica o peso do novo valor:

$Q(s,a) \leftarrow (1-\alpha) Q(s,a) + \alpha Q_{target}$

Desenvolvendo, podemos rearrumar assim esta equação:

$Q(s,a) \leftarrow Q(s,a) + \alpha (Q_{target} - Q(s,a))$

# 3. n-Step TD-Learning

Os métodos Monte-Carlo, e TD-Learning de 1 passo (Q-Learning e Expected-SARSA) visam atualizar o $Q(s,a)$, formando uma nova estimativa $Q_{target}$ e usando-a para atualizar $Q(s,a)$.

Porém, observe que esses métodos calculam $Q_{target}$ de formas distintas:
- No Monte-Carlo, é o retorno real $G_i$ calculado até o fim de um episódio
- No TD-Learning, é uma estimativa calculada com 1 recompensa assim: $(r + V(s'))$

Observe que são casos extremos! Será que podemos fazer algo intermediário?

Sim! Nos *métodos de de n passos* (n-step methods), nós vamos generalizar os métodos TD-Learning que vimos (Q-Learning e Expected-SARSA). Usaremos $n$ recompensas no cálculo do $Q_{target}$.

## Para n=2 passos

Por exemplo, com *n=2*, para estimar $Q(s,a)$:
- usamos essa experiência do episódio: $s, a, r_1, s_1, a_1, r_2, s_2, a_2$
- calculamos assim: $Q_{target} = r_1 + \gamma .r_2 + \gamma^2 .V(s_2)$

A forma de calcular $V(s_2)$ vai variar conforme o algoritmo, de maneira similar aos algoritmos de TD-Learning de 1 passo.

A vantagem de usar mais passos é que o valor do $Q_{target}$ usa mais dados reais, e se aproxima do valor do retorno $G_i$.

## Para n=3 passos

Com n=3, faríamos assim:
- usamos essa experiência do episódio: $s, a, r_1, s_1, a_1, r_2, s_2, a_2, r_3, s_3, a_3$
- $Q_{target} = r_1 + \gamma .r_2 + \gamma^2 .r_3 + \gamma^3 .V(s_3)$

## Para n qualquer

E assim sucessivamente, para valores maiores de $n$... O valor de $n$ vai ser um parâmetro do algoritmo.

E qual a vantagem?

A vantagem é podermos fazer estimativas melhores do $Q(s,a)$ usando mais experiência real. Em outras palavras, o valor do $Q_{target}$ usa mais recompensas e, assim, se aproxima do valor do retorno real $G_i$.

No limite (com $n=\infty$), o $Q_{target}$ se torna o próximo retorno $G_i$ e o método n-step torna-se o método Monte Carlo que vimos.