# Introducción al Aprendizaje por Refuerzos

### Curso Aprendizaje por Refuerzos, Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones

### FaMAF, 2018

#### Agenda Clase 1 Parte 2

* Aprendizaje por Diferencias Temporales (TD Learning).
* SARSA: On Policy TD Learning.
* Q-Learning: Off-Policy TD Learning
* Eligibility Traces: TD($\lambda$)
    * Uso de Trazas para la actualización de la Función de Valor.
        * Sarsa($\lambda$) para predicción de Valor.
        * Sarsa($\lambda$) para predicción de Acción-Valor.

## Aprendizaje por Diferencias Temporales (TD Learning).

* La idea principal es actualizar una predicción de la función de valor en base al cambio que existe en la misma de un momento al siguiente (**Diferencia Temporal o Temporal Difference**)
![](images/Diferencia_Temporal.png)

* Los algoritmos de aprendizaje basados en TD se emplean en mayor medida para realizar el CONTROL respecto de las acciones que ejecuta un agente que interactúa con su entorno.  
De esa manera, en lugar de aprender la función de estado-valor **V**, se orientan al aprendizaje de la función de acción-valor **Q**.

* En particular, existen dos enfoques principales para realizar el aprendizaje de funciones **Q**, ambos considerando el trade-off exploración/explotación: **on-policy** y **off-policy**.  
En particular, los métodos **on-policy** estiman $Q_{π}(s, a)$ para la política π que el agente se encuentra ejecutando, para todos los estados s y acciones a. 

* Dicha estimación puede ser realizada empleando el mismo método TD descripto anteriormente para actualizar $V_{π}$, an base a:

![](images/Actualizacion_QEstadoAccion.png)

## Ejemplo Función de Valor: Frozen Lake

![](images/FrozenLake.png)

## SARSA: On-Policy TD Learning

* El agente y su entorno interactúan a través de la ejecución de acciones, observación de estados y señales rewards.  
La inteligencia tendrá efecto sólo si el agente tiene claramente definidos objetivos o metas que persigue activamente mientras ocurre la interacción.

![](images/SARSA.png)

## Q-Learning: Off-Policy TD Learning

* Uno de los más importantes avances en RL fue el desarrollo del algoritmo **off-policy** conocido como Q-learning (Watkins, 1989).  
En su forma más simple, en Q-learning la actualización de la función de acción-valor realizada se define por:

![](images/QLearningUpdate.png)

* Es este caso, la función de acción-valor Q aproxima directamente q∗, es decir, la función de acción-valor correspondiente a la política óptima, independientemente de la política seguida por el agente (de ahí su clasificación como **off-policy**), la cuál tiene efecto en el proceso de selección de acciones y por lo tanto determina cuales pares estado-acción se actualizan.

![](images/QLearning.png)

## Ejemplo On-Policy vs. Off-Policy: The Cliff

![](images/onpolicyvsoffpolicy.png)

## Propagación de Valores en Q-Learning

![](images/QLearningPropagation.png)

## Elegibility Traces: TD($\lambda$)

* Las Elegibility Traces (trazas) constituyen uno de los mecanismos básicos del Aprendizaje por Refuerzos. 

* Prácticamente cualquier método de aprendizaje basado en diferencias temporales puede ser combinado con trazas para obtener un algoritmo más general que permite aprender de manera más eficiente.

* A nivel conceptual, una traza es un registro temporal de la ocurrencia de un evento, tal como la visita de un estado o la ejecución de una acción.  
La traza determina que dicho estado o acción es elegible en el momento de realizar una actualización de valor.

* Cuando ocurre una actualización basada en una diferencia temporal, sólo a los estados o acciones marcadas como elegibles se les asigna el crédito correspondiente.

* En TD($\lambda$), existe una variable adicional asociada o bien a un estado, o bien a un par estado-acción (traza del estado/estado-acción).

* La traza de un estado $s$ en $t$ se denota como $e_{t}(s) \in R^{+}$.  
En cada paso, la traza para todos los estados decae su valor de acuerdo a $\gamma\lambda$, y la traza asociada al estado visitado se incrementa en 1.

![](images/TraceValue.png)

* La actualización anterior ocurre para todos los estados $s \in S$, en donde $\gamma$ es el factor de descuento y $\lambda$ es el parámetro de decaimiento de traza.  
Este tipo de traza se denomina **traza de acumulación** porque acumula la cantidad de veces que el estado es visitado, disminuyendo gradualmente dicho valor a medida que el estado no recibe visitas, como se ilustra debajo:

![](images/TraceValueDecay.png)

* De esa manera, las trazas registran cuáles estados han sido visitados recientemente; **recientemente**, se define en términos de  $\gamma\lambda$.

### Uso de Trazas para la actualización de la Función de Valor

* La información provista por la traza se emplea en el proceso de actualización de la función de valor (V o Q).  
Si se considera que el valor de actualización por diferencia temporal es:

![](images/TDUpdate.png)

entonces dicha actualización se realiza en todos los estados de manera proporcional al valor de su traza.

![](images/TDUpdateAllStates.png)

### Sarsa($\lambda$) para predicción de Valor.

![](images/SarsaLambdaValue.png)

### Sarsa($\lambda$) para predicción de Acción-Valor.

![](images/TraceActionValue.png)

![](images/SarsaLambda.png)