# Introducción al Aprendizaje por Refuerzos

### Curso Aprendizaje por Refuerzos, Diplomatura en Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones

### FaMAF, 2019

#### Agenda

* Presentación Docentes
* Introducción. Diferencias entre Aprendizaje Supervisado, No Supervisado y Por Refuerzos
* Modelo Agente Entorno. Agente Situado. Arquitectura Actor-Crítico.
* Aprendizaje por Refuerzos. Elementos. Ciclo del Aprendizaje por Refuerzos. Definición Formal.
* Procesos de Decisión de Markov. Función de Valor. Ecuación de Bellman. Optimalidad.
* Diferencias Temporales
* SARSA y Q-Learning

## Docentes

* Jorge A. Palombarini
* Juan Cruz Barsce
* Ezequiel Beccaría

## Página y Libro Sutton

http://incompleteideas.net/

https://drive.google.com/file/d/1opPSz5AZ_kVa1uWOdOiveNiBFiEOHjkG/view

## Introducción: Diferencias entre Aprendizaje Supervisado, No Supervisado y Por Refuerzos

![](images/Aprendizaje.png)

## Entidad Inteligente -> Agente Situado

* La idea de aprender por interacción con nuestro entorno es quizás la primera en aparecer cuando pensamos acerca de la naturaleza del aprendizaje.

* Por ejemplo, cuando un niño juega, mueve sus brazos, o mira alrededor, no tiene un "maestro" explicito, pero posee una conexion sensorial y motora con su entorno.

* El ejercicio de dicha conexión produce información acerca de la relación causa-efecto y las consecuencias de las acciones que lleva a cabo, y respecto de qué hacer de manera tal de lograr objetivos. Así, *aprender por interacción* es una idea fundacional de muchas teorías del aprendizaje y la inteligencia.

*  En este curso, se explorará un **enfoque computacional dirigido por objetivos para *aprender por interacción***: el **Aprendizaje por Refuerzos (Reinforcement Learning)**.

## Agent-Environment Framework

* El desarrollo de la inteligencia requiere que la entidad o el agente esté situada/o en un entorno **(Measuring universal intelligence: Towards an anytime intelligence test, Hernandez-Orallo & Dowe, Artificial Intelligence, 2010).**
![](images/Situated_Agent.png)

* El agente y su entorno interactúan a través de la ejecución de acciones, observación de estados y señales de reward. La inteligencia tendrá efecto sólo si el agente tiene claramente definidos objetivos o metas que persigue activamente mientras ocurre la interacción.
![](images/AE_Interaction.png)

## Aprendizaje por Refuerzos (Reinforcement Learning)

* **Reinforcement learning** consiste en aprender **qué hacer** -mapear situaciones a acciones- de manera tal de **maximizar** una señal numérica de recompensa. 

* Al aprendiz (**agente**) no se le especifica cuáles acciones ejecutar, sino que debe descubrir a través de ***prueba y error*** cuáles acciones producen la mayor cantidad de recompensa acumulada. En los casos más interesantes, las acciones pueden afectar no solo la recompensa inmediata, sino solamente el estado, recibiéndose una recompensa sólo en algunos estados o bien al final del episodio (***Delayed-reward***).

* Se conoce simultaneamente como RL al problema de **aprender por interacción**, a las **métodos de solución** de dicho problema, y al **área de la IA que estudia el problema y los métodos de solución**.

* El problema de RL puede ser formalizado empleando **Procesos de Decisión de Markov**.

* La toma de decisiones secuencial involucra aprender sobre nuestro entorno y elegir acciones que maximizan el retorno esperado. El RL computacional, inspirado por estas ideas, las formalizo y produjo un impacto importante en robótica, machine learning y neurociencias.

> El Aprendizaje por Refuerzos (RL) consiste en un agente que se encuentra en algún estado $s \in S$ inmerso en un entorno $E$ y ejecuta acciones $a \in A$ en busca de una meta. El agente puede ser modelado formalmente como una función f, que toma un  historial de interacción como entrada, y devuelve una acción a tomar. Una manera conveniente para representar el agente es una medida de probabilidad sobre el set A de acciones, en base a un historial de interacción: $$ f(a_{n}|s_{1}a_{1} r_{2} s_{2}a_{2}...r_{n}s_{n}) $$ que representa la probabilidad de la acción a en el ciclo n dado un historial de interacción.

![](images/fox-rl.png)

* Problema RL: ***¿Cómo el agente produce la distribución de probabilidad sobre las acciones?***

* ***Dilema de exploración - explotación***: debido a que el Agente no recibe ejemplos de entrenamiento, debe probar alternativas, procesar los resultados de sus acciones y modificar su comportamiento en algún sentido. ¿Cuándo explotar este conocimiento vs. cuándo probar nuevas estrategias?

## Arquitectura Actor-Crítico
![](images/RL_Diagram.png)

## Elementos del Aprendizaje por Refuerzos
![](images/RL_Elements.png)

* **Policy (Política): **

Una política define la manera de comportarse de un agente, en cualquier momento de tiempo dado. Basicamente, es un mapeo de un estado o percepción s a una acción a, pudiendo ser estocásticas.

* **Reward Function (Función de Recompensa)**

Define cuantitativamente el objetivo del agente. Es un mapeo de un par estado-acción a un número real que indica "cuán deseable" es ejecutar dicha acción en ese estado. Asimismo, el único objetivo del agente es maximizar la recompensa total que recibe a lo large del tiempo. Cabe mencionar que, si bien la función de reward no puede ser alterada por el agente, provee las bases para cambiar la política del mismo.

* **Value function (Función de Valor)**

La función de valor se diferencia de la función de reward en el sentido de que indica "cuán deseable" es, a largo plazo, ejecutar una acción en un determinado estado. Así, el valor de un estado *s* es la cantidad total de reward que el agente espera obtener a futuro comenzando la interacción en el estado *s*.

* **Environment (Entorno)**

El entorno se encuentra constitutido por todo aquel elemento (real o simulado) que el agente no puede controlar. Es con quién el agente interactúa a partir de la ejecución de acciones de control.

## Ciclo del Aprendizaje por Refuerzos
![](images/RL_Cycle.png)




### Definición formal

* Si el problema de RL dado tiene un conjunto finito de estados y acciones y satisface la propiedad de Markov entonces puede definirse como un Proceso de Decisión de Markov

\begin{equation}
MDPFinito = (S, A, P(.), R(.), γ)
\end{equation}

donde

$$ S = {s_{1}, s_{2}, ..., s_{n}} $$
es un conjunto finito de estados.

![](images/ajedrez-estado.jpg)

![](images/doom-estado.png)

$$ A = {a_{1}, a_{2}, ..., a_{m}} $$
es un conjunto finito de acciones.
$$ P_{a}(s,s') = P(s_{t+1} = s | s_{t} = s, a_{t} = a) $$ 
es la probabilidad de que la acción a tomada en tiempo t y en estado s lleve al agente al estado s' en tiempo t+1
$$ R_{a}(s,s') $$
es la recompensa inmediata recibido tras transicionar, luego de tomar la acción a, desde el estado s al estado s'
$$\gamma \in  [0,1]$$ 
es el factor de descuento, representando la diferencia en la importancia de la recompensa a corto plazo vs la recompensa a largo plazo.


![](images/mdp_example.png)

* Un **episodio** (instancia) de este MDP forma una secuencia finita 
$$s_{0}, a_{0}, r_{1}, s_{1}, a_{1}, r_{2}, s_{2}, ... , s_{n-1}, a_{n-1}, r_{n}, s_{n} $$ 
donde $$s_{n}$$
es un estado final (o n es el tiempo de corte).

* La recompensa total del episodio está dado por 
$$ R = r_{1} + r_{2} + ... + r_{n} $$

* En consecuencia, la recompensa a futuro partiendo del tiempo $t$ está dado por 
$$R_{t} = r_{t} + r_{t+1} + ... $$

* Hay que considerar que el ambiente es estocástico en la mayor parte de los entornos reales y, por tanto, la recompensa suele diverger mientras más alejado se encuentre el instante de tiempo considerado. Es por esto que se utiliza un parámetro $γ$ llamado _factor de descuento_, para descontar el valor de las recompensas futuras. De esta manera,

\begin{equation} R_{t} = r_{t} + γr_{t+1} + γ^2r_{t+2} + γ^3r_{t+3} + ... = r_{t} + γ(r_{t+1} + γr_{t+2} + γ^2r_{t+3} ...) = r_{t} + γR_{t+1} \end{equation}

* Si utilizamos $γ=0$, el agente priorizará sólo la recompensa inmediata, mientras que $\gamma=1$ hará que considere todas los recompensas de la misma manera, independientemente del momento en donde las reciba.

![](images/RL_Problem_Statement.png)

* Dado un Proceso de Decisión de Markov, una Política (determinística) es una función $\pi$ que a partir de un estado $s \in S$, devuelve como resultado una acción $a \in A$. Una política estocástica devuelve, para un estado $s$ y una acción $a$, una probabilidad.

## Procesos de Decisión de Markov

**Resolver un problema de decisión modelado como un PDM implica encontrar los valores de la función de valor V**

### Función de Valor

* El valor de un estado es el retorno esperado por el agente, comenzando la interacción en dicho estado, dependiendo de la política ejecutada por el agente.

![](images/Funcion_de_Estado_Valor.png)

* El valor de la ejecución de una acción en un estado es el retorno esperado por el agente, comenzando la interacción en dicho estado a partir de la ejecución de dicha acción, dependiendo de la política ejecutada por el agente.

![](images/Funcion_de_Accion_Valor.png)

Una propiedad fundamental de las funciones de valor es que satisfacen ciertas propiedades recursivas. Para cualquier política  π y cualquier estado s, V(s) y Q(s,a) pueden ser definidas recursivamente en términos de la denominada *Ecuación de Bellman* ** (Bellman, 1957) **

### Ecuación de Bellman

* La idea básica es:

![](images/Retorno.png)

* Entonces,

![](images/Retorno_Valor.png)

* O, sin el operador de valor esperado:

![](images/Bellman_Equation.png)

La ecuación anterior refleja el hecho de que el valor de un estado se encuentra definido en términos de la recompensa inmediata y los valores de los estados siguientes ponderados en función de las probabilidades de transición, y adicionalmente un factor de descuento.

### Ecuación de Optimalidad de Bellman

La Ecuación de Optimalidad de Bellman refleja el hecho de que el Valor de un estado bajo la política óptima debe ser igual al retorno esperado para la mejor acción en dicho estado:

![](images/Ecuacion_de_Optimalidad_Valor.png)

Al mismo tiempo, la acción óptima para un estado s dada la función de valor, puede obtenerse mediante:

![](images/Accion_Optima.png)

La política anterior se denomina **Política Greedy**, dado que selecciona la mejor acción para cada estado, teniendo en cuenta la función de valor V(s). De manera análoga, la función de acción-valor óptima puede expresarse como:

![](images/Accion_Valor_Optima.png)

![](images/ComparacionPoliticas.png)

## Ejemplo MDP y Políticas (*)

![](images/GrafoPolitica.png)

![](images/GrafoPolitica1.png)

![](images/GrafoPolitica2.png)

![](images/GrafoPolitica3.png)

![](images/GrafoPolitica4.png)

![](images/GrafoPolitica5.png)

![](images/Training.png)

\(*) entorno de ejemplo basado en curso de Aprendizaje Profundo por Refuerzos, dictado por Juan Gómez Romero en la Escuela de Ciencias Informáticas 2019 - UBA

## Actividad 1

[RL Warm Up Lab!](lab_0_warmup_rl.ipynb)

## Aproximaciones para el aprendizaje de V y Q mediante Soluciones Tabulares

![](images/Aproximaciones al aprendizaje.png)

### Model Based vs. Model Free

* Model-free aprende Q/V directamente y presenta muy baja complejidad computacional.

* Model-based aprende T y R y usa un algoritmo de planning para encontrar la política. Uso eficiente de los datos/experiencia. Alto costo computacional.

## Aprendizaje por Diferencias Temporales (TD Learning).

* La idea principal es actualizar una predicción de la función de valor en base al cambio que existe en la misma de un momento al siguiente (**Diferencia Temporal o Temporal Difference**)
![](images/Diferencia_Temporal.png)

* Los algoritmos de aprendizaje basados en TD se emplean en mayor medida para realizar el CONTROL respecto de las acciones que ejecuta un agente que interactúa con su entorno. De esa manera, en lugar de aprender la función de estado-valor **V**, se orientan al aprendizaje de la función de acción-valor **Q**.

* En particular, existen dos enfoques principales para realizar el aprendizaje de funciones **Q**, ambos considerando el trade-off exploración/explotación: **on-policy** y **off-policy**. En particular, los métodos **on-policy** estiman $Q_{π}(s, a)$ para la política π que el agente se encuentra ejecutando, para todos los estados s y acciones a. 

* Dicha estimación puede ser realizada empleando el mismo método TD descripto anteriormente para actualizar $V_{π}$, an base a:

![](images/Actualizacion_QEstadoAccion.png)

## Trade-off exploración explotación

* Es el dilema en que incurre el agente al momento de **elegir entre distintas acciones**.

* Consiste en optar entre elegir una acción (a priori óptima) cuyos efectos son conocidos, esperando obtener un resultado similar (_explotar_) o elegir otra (posiblemente no óptima) cuyos efectos son desconocidos, pero que puede conducir a aprender más (_explorar_)?

## SARSA: On-Policy TD Learning

* El agente y su entorno interactúan a través de la ejecución de acciones, observación de estados y señales rewards. La inteligencia tendrá efecto sólo si el agente tiene claramente definidos objetivos o metas que persigue activamente mientras ocurre la interacción.

![](images/SARSA.png)

## Actividad 2

[Lab Introducción al RL](lab_1_intro_rl.ipynb)

## Bootstrapping

* Bootstrapping in RL puede entenderse como "emplear uno o más valores estimados en la actualización del mismo tipo de valor estimado".

* En el caso de los métodos TD:

![](images/Bootstrapping.png)


* Presenta la desventaja de estar sesgado hacia los valores iniciales de la función de valor Q o V (Problema importante si empleamos estimadores, el sistema se autorreferencia)

* Empleando trayectorias más largas (Métodos MC) tenemos el problema de la alta varianza -> Necesitamos mayor cantidad de ejemplos para converger



## Q-Learning: Off-Policy TD Learning

* Uno de los más importantes avances en RL fue el desarrollo del algoritmo **off-policy** conocido como Q-learning (Watkins, 1989). En su forma más simple, en Q-learning la actualización de la función de acción-valor realizada se define por:

![](images/QLearningUpdate.png)

* Es este caso, la función de acción-valor Q aproxima directamente q∗, es decir, la función de acción-valor correspondiente a la política óptima, independientemente de la política seguida por el agente (de ahí su clasificación como **off-policy**), la cuál tiene efecto en el proceso de selección de acciones y por lo tanto determina cuales pares estado-acción se actualizan.

![](images/QLearning.png)

## Ejemplo On-Policy vs. Off-Policy: The Cliff

![](images/onpolicyvsoffpolicy.png)