## La Función V y la ecuación de Bellman
---

### 1. Funciones de Valor
---

- #### Función V

La **función de Valor** (_Value function_), **V(s)**, representa **cómo de bueno** es para el agente encontrarse en un determinado estado. Es igual al **retorno** (recompensa total futura) empezando desde dicho estado _s_.

Dado que el retorno puede ser distinto en cada episodio, empleamos la **esperanza matemática** del retorno con descuento promediando múltiples episodios (sumatorio de la probabilidad de cada suceso aleatorio por el valor de dicho suceso).

Para un entorno estocástico, tendremos que:

<br><img src="funcion_v.png"/><br>

- #### Función Q

La **función de Valor de la Acción** (_Q function_), **Q(s,a)**, representa cómo de bueno es para el agente, que se encuentra en un estado concreto, es realizar una determinada acción en base a una política dada (π). Es igual al retorno (recompensa total futura) al realizar la acción **a**, empezando en el estado **s** en el _timestep_ **t** y siguiendo la política **π**.

<br><img src="funcion_q.png"/><br>

- #### Relación V/Q

Denotamos como **π(a|s)** la probabilidad de que una politíca **π** estocástica seleccione la acción _a_ cuando se encuentra en el estado _s_, cumpliéndose que la suma de las probabilidades de todas las acciones salientes de un estado dado siempre es igual a 1.

Así, podemos afirmar que la función de valor del estado es quivalente a la suma de las funciones de de valor de acción de todas las acciones _a_ salientes (de un estado _s_), multiplicada por la probabilidad de seleccionar cada acción respectica de acuerdo con la politica estocástica que guía al agente:

<br><img src="relacion_vq.png"/><br>

### 2. La ecuación de Bellman
---

- #### La ecuación de Bellman para la función V

Recordemos que el **retorno con descuento** en el _time step t_ viene dado por el sumatorio (con descuento) de las sucesivas recompensas hasta el final del episodio, podemos escribirlo como la siguiente relación recursiva:

<br><img src="bellman_G.png"/><br>

Del mismo modo, podemos escribir la **ecuación de Bellman para la función V** (para un entorno determinista) como:

<br><img src="bellman_V.png"/><br>

- #### La ecuación de Bellman para la función V en entornos estocásticos

En caso de hallarnos en un entorno estocástico, donde no podemos garantizar que, dada una acción _a_ en un estado _s_ acabemos siempre en el estado _s'_, modificaremos la ecuación anterior para incluir la **probabilidad P** de alcanzar el estado _s'_ desde el estado _s_ realizando la acción _a_. Es decir, estamos calculando la esperanza matemática a partir de cada potencial siguiente transición de estado.

<br><img src="bellman_V_ee.png"/><br>

- #### La ecuación de Bellman para la función V para políticas estocásticas

La ecuación anterior sería válida para entornos estocásticos pero políticas no estocásticas. En caso de una política estocástica, dado un estado _s_, seleccionamos una acción en base a cierta distribución de probabilidades.

Para incluir la naturaleza estocástica de la política en la ecuación de Bellman, podemos utilizar nuevamente la esperanza matemática, añadiendo a la esxpresión anterior la probabilidad de la acción correspondiente:

<br><img src="bellman_V_pe.png"/><br>

La ecuación anterior, también conocida como **_Bellman expectation equation_ de la función V**, que considera la estocasticidad tanto del entorno como de la política, suele escribirse como:

<br><img src="bellman_V_pe2.png"/><br>

- #### La ecuación de Bellman para la función Q

Del mismo modo, podemos definir las ecuaciones de Bellman para la **función Q** tanto para entornos deterministas como para entornos estocásticos y con políticas estocásticas:

<br><img src="bellman_Q.png"/><br>


### 3. La ecuación de Bellman óptima
---

- #### La Función V óptima

De las ecuaciones anteriores, observamos que el valor de un estado dependerá de la política seguida. Definiremos por tanto la **función V óptima V<sub>*</sub>(s)** como aquella que produce el valor máximo en comparación con todas las demás funciones de valor:

<br><img src="V_optima.png"/><br>

Podemos calcular la **ecuación de Bellman óptima para la función V** seleccionando aquella acción (de entre las posibles para el estado) que nos devuelve el valor máximo. Dado que no estamos utilizando ninguna política, podemos eliminar la esperanza matemática sobre la política π, resultando en la siguiente expresión: 

<br><img src="bellman_V_optima.png"/><br>

- #### La Función Q óptima

Del mismo modo, tendremos que la **función Q óptima Q<sub>*</sub>(s,a)** vendrá dada por:

<br><img src="Q_optima.png"/><br>

Para calcular la **ecuación de Bellman óptima para la función Q**, en lugar de usar la política para seleccionar la acción _a'_ en el siguiente estado _s'_, elegimos todas las acciones posibles y calculamos el valor máximo de Q(s',a'):

<br><img src="bellman_Q_optima.png"/><br>

- #### Relación V<sub>*</sub>/Q<sub>*</sub>

Finalmente, nos queda añadir el hecho de que el valor óptimo de un estado, V<sub>*</sub>(s), es igual a la mejor función de valor de acción que podamos obtener a partir de ese estado, es decir:

<br><img src="relacion_vq_optima.png"/><br>


