<a href="https://colab.research.google.com/github/llealgt/RL_Workshop_Guatemala/blob/master/Notebooks/Lecture1_IntroRL.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción a Reinforcement Learning

Veamos y juguemos un poco con RL para tener una idea mas clara de que puede hacer:



*   https://cs.stanford.edu/people/karpathy/reinforcejs/gridworld_td.html
*   https://cs.stanford.edu/people/karpathy/reinforcejs/waterworld.html
*   https://selfdrivingcars.mit.edu/deeptraffic/





## Descripción del Aprendizaje por Refuerzo

El **Aprendizaje por refuerzo (Reinforcement Learning)** intenta conseguir que un **agente** aprenda a decidir mediante su propia experiencia. Es decir, que ante una situación determinada, sea capaz de seleccionar por sí misma la mejor acción a ejecutar en ese momento mediante un **proceso interactivo de prueba y error** a base de reforzar positivamente cada vez que se aproxima o logra el objetivo.

*Fuente:* [MIT Technology Review](https://www.technologyreview.es/s/6824/tr10-aprendizaje-reforzado), [Advanced Tech](https://advancedtech.wordpress.com/2008/08/08/aprendizaje-por-refuerzo/), [Fernando Sancho Caparrini](http://www.cs.us.es/~fsancho/?e=109), [Clever Data](http://cleverdata.io/conceptos-basicos-machine-learning/)


## Facetas del Aprendizaje por refuerzo

![Aplicaciones del Aprendizaje por refuerzo](https://www.researchgate.net/profile/Ahmad_Hammoudeh3/publication/323178749/figure/fig1/AS:594073228423171@1518649503854/Reinforcement-Learning-faces-10.png)

*Fuente:* [ResearchGate](https://www.researchgate.net/profile/Ahmad_Hammoudeh3/publication/323178749/figure/fig1/AS:594073228423171@1518649503854/Reinforcement-Learning-faces-10.png)

## Ramas del Aprendizaje de máquina (Machine Learning)

![Ramas de Machine Learning](https://www.researchgate.net/profile/Ahmad_Hammoudeh3/publication/323178749/figure/fig2/AS:594073228439553@1518649503882/Reinforcement-Learning-standard-diagram-Fig-2-Machine-Learning-branches-10.png)

*Fuente:* [ResearchGate](https://www.researchgate.net/profile/Ahmad_Hammoudeh3/publication/323178749/figure/fig2/AS:594073228439553@1518649503882/Reinforcement-Learning-standard-diagram-Fig-2-Machine-Learning-branches-10.png)

## Características del Aprendizaje reforzado

¿Qué hace que el **Aprendizaje por refuerzo** sea diferente de otros paradigmas de aprendizaje de automático?


*   No hay supervisor, solo una señal de recompensa
*   La retroalimentación no es instantánea
*   El tiempo realmente importa
*   Las acciones del agente repercuten en los datos que se recibirán posteriormente



## Ejemplos de Aprendizaje reforzado

### Bipedal Robot


In [0]:
from IPython.display import YouTubeVideo
YouTubeVideo('UhXly-5tEkc')

### Google DeepMind's Deep Q-learning playing Atari Breakout

In [0]:
from IPython.display import YouTubeVideo
YouTubeVideo('V1eYniJ0Rnk')

### Double DQN for autonomous navigation


In [0]:
from IPython.display import YouTubeVideo
YouTubeVideo("VdHAi0ndfLM")

## Recompensas



*   Una recompensa $R_{t}$ es una señal de retroalimentación, escalar(solo un número).
*   Nos dice que tan bien se desempeña el **agente** en el paso **t**.
*   El objetivo del **agente** es maximizar la señal de recompensa acumulada(experiencia).
---

El aprendizaje reforzado se basa en la hipotesis de recompensa.

---
¿Todos los objetivos pueden ser descritos como la maximización de la recompensa acumulada esperada?

### Ejemplos

*   Enseñar a caminar a un Robot
  *  (+) movimiento continuo
  *  (-) cada vez que se caiga
*   Derrotar al campeón del mundo en Backgammon
  *  (+/-) recompensa por ganar/perder una partida
*   Aprender diferentes juegos de Atari mejor que los humanos
  *  (+/-) recompensa por aumentar/disminuir la puntuación en el juego






## Toma de decisiones Secuencialmente



*   **Objetivo:** Seleccionar las acciones que maximicen el total de la recompensa.
*   Las acciones elegidas tiene un impaco a largo plazo.
*   La recompensa puede demorarse
*   Puede ser mejor sacrificar la recompensa inmediata para obtener más recompensa a largo plazo.
*   **Ejemplos:**
  *  Una inversión financiera (puede tardar meses en madurar)
  *  Bloquear los movimientos del oponente (podría ayudar a ganar la posibilidad de muchos movimientos a partir de ahora)

## El Agente y el entorno

![Atari Game Agent and Environment](https://images.squarespace-cdn.com/content/532a7519e4b0b7a4666804ed/1515481086750-DD9KG7B9FECTHUCDU270/0_71d7JALfaEwIWmUn.png?content-type=image%2Fpng)


*Fuente:* [Sasha Sheng, RL Isomorphisms Part 1](http://www.sashasheng.com/blog/2018-1-6-reinforcement-learning-taxonomy)

En cada paso **t** el agente:
*   Ejecuta la acción $A_{t}$
*   Recibe la observación $O_{t}$
*   Recibe la recompensa $R_{t}$(escalar)

El entorno:
*   Recibe la acción $A_{t}$
*   Emite una observación $O_{t+1}$
*   Emite una recompensa $R_{t+1}$

$t$ incrementa al paso del entorno

## Historia y Estados
La **historia** es la secuencia de observaciones, acciones y recompensas.
> $H_{t}=O_{1},R_{1},A_{1},...,A_{t-1},O_{t},R_{t}$ 

* Todas las variables observables hasta el momento **t**.

Lo que sucede luego depende de la **historia**:
* El agente selecciona una **acción**.
* El entorno selecciona las **observaciones** y **recompensas**.

El **estado** es la información que se utiliza para determinar que sucede después.

Formalmente el **estado** es una función de la **historia** 
> $S_{t}=f(H_{t})$



## Estado del entorno


El estado del entorno $S_{t}^{e}$ es la representación privada del mismo.

Se define como cualquier información que utiliza el entorno para seleccionar la siguiente observación y/o recompensa.

Normalmente el estado del entorno no es visible desde el agente, incluso si fuera visible esta información es irrelevante para el agente.



## Estado del agente

![Agent State](https://www.gmse.de/wp/wp-content/uploads/2016/09/rl_process.png)

El estado del agente $S_{t}^{a}$ es la representación interna del agente.

Es cualquier información que el agente utiliza para seleccionar la siguiente acción.

Es la información que utilizan los algoritmos basados en aprendizaje por refuerzo.

Puede ser cualquier función de la historia:\
$S_{t}^{a}=f(H_{t})$


## Estado de información

Este contiene toda la información útil de la **historia**.

> $\mathbb{P}[S_{t+1}|S_{t}]=\mathbb{P}[S_{t+1}|S_{1},...,S_{t}]$

"El futuro es independiente del pasado dado el presente"\
Significa que el estado actual (representado por $S_{t}$) contiene toda la información relevante de los estados pasados ($S_{1}$,...,S_{t}), por lo tanto ya no nos serviría tener mayor información de los estados pasados.
> $H_{1:t}\mapsto S_{t}\mapsto H_{t+1:\infty}$

Una vez conocemos el **estado** la **historia** puede ser desechada.\
El **estado** es una estadística suficiente del futuro.\
El estado del entorno $S_{t}^{e}$ posee propiedades de los procesos de Markov.\
El estado del entorno $H_{t}$ posee propiedades de los procesos de Markov.

## Entornos completamente observables

![Fully Observable environments](https://images.squarespace-cdn.com/content/532a7519e4b0b7a4666804ed/1515481086750-DD9KG7B9FECTHUCDU270/0_71d7JALfaEwIWmUn.png?content-type=image%2Fpng)

El **agente** puede observar directamente el estado del **entorno**.

> $O_{t}=S_{t}^{a}=S_{t}^{e}$

Formalmente se define como un proceso de decisón de Markov (**MDP**).

## Entornos parcialmente observables

El **agente** observa indirectamente su entorno:
* Un robot que tiene una cámara no sabe su ubicación absoluta.

Se define como un proceso de decisión de Markov parcialmente observable (**POMDP**).

El agente debe construir su propia representación de estado $S_{t}^{a}$
* $S_{t}^{a}=H_{t}$
* $S_{t}^{a}=(\mathbb{P}[S_{t}^{e}=s^{1}], ... ,\mathbb{P}[S_{t}^{e}=s^{n}])$

## Componentes de un agente

Un agente debe tener uno o mas de los siguientes componentes:
* **Políticas:** función de comportamiento del agente.
  * Nos dice como actuar partiendo de un estado a ejecutar una acción.
    * $a=\pi(s)$ **Política determínistica**
    * $\pi(a|s)=\mathbb{P}[A_{t}=a|S_{t}=s]$ **Política estocastica**
* **Función de evaluación:** evaluar que tan bueno es un estado y/o acción del agente.
  * Es una predicción de la recompensa a futuro.
  * Se utiliza para evaluar los estados. ¿Bien o mal?
  * Seleccionar entre acciones
    * $v_{\pi}(s)=\mathbb{E}[R_{t+1}+\gamma R_{t+2}+\gamma^{2}R_{t+3}+...|S_{t}=s]$
* **Modelo:** representación del entorno.
  * Un modelo nos permite predecir cual será el siguiente paso en el entorno.
  * $\textit{P}$ predice el siguiente estado
  * $\textit{R}$ predice la siguiente recompensa (inmediata)
    * $\textit{P}_{ss'}^{a}=\mathbb{P}[S_{t+1}=s' | S_{t}=s, A_{t}=a]$
    * $\textit{R}_{s}^{a}=\mathbb{E}[R_{t+1} | S_{t}=s, A_{t}=a]$ 

## Taxonomía de un agente de RL

![Taxonomía](https://www.researchgate.net/profile/Philip_Odonkor5/publication/327733315/figure/fig2/AS:672329315131399@1537307208318/Reinforcement-Learning-Agent-Taxonomy.ppm)

## Aprendiendo y Planificando

Estos son dos problemas fundamentales en la toma de decisiones secuenciales.

* Aprendizaje por refuerzo:
  * Inicialmente no se conoce el entorno
  * El agente interactua con el entorno
  * El agente mejora sus politicas
* Planificación:
  * Se conoce el modelo del entorno 
  * El agente realiza operaciones computacionales con su modelo
  * El agente mejora sus politicas
  * Razonamiento, ponderación, introspección, busquedas

### Ejemplo: Atari
#### **Aprendizaje por refuerzo**
![Atari1](https://i1.wp.com/syncedreview.com/wp-content/uploads/2017/02/19.png?resize=950%2C694&ssl=1)

* El agente no sabe las reglas del juego
* Aprende de forma interactiva
* Toma acciones manipulando el control, observa la pantalla y el punteo

#### **Planificación**
![Atari2](https://images.deepai.org/converted-papers/1902.00566/x2.png)

* Se conocen las reglas del juego
* Se puede usar un emulador
  * Existe un modelo perfecto en el cerebro del agente
* Si tomo una acción *a* desde el estado *s*:
  * ¿Cuál será el siguiente estado?
  * ¿Cuál será la puntuación obtenida?
* Planificar con anticipación para encontrar una política óptima

## Exploración y explotación
* El aprendizaje por refuerzo es parecido a aprender mediante prueba y error
* El agente descubrira de su experiencia con el entorno una buena politica que rija su comportamiento de forma adecuada y sin perder mucha recompensa en el camino

* La **exploración** ayuda al agenta a obtener mas información de su entorno.
* La **explotación** aprovecha toda la información conocida hasta el momento para maximizar la **recompensa**.
* Es muy importante tener un balance entre estos 2 terminos.

**Ejemplos:**
* Selección de un restaurante para cenar
  * *Explotación* Ir a nuestro restaurante favorito
  * *Exploración* Probar un restaurante distinto
* Online advertising
  * *Explotación* Mostrar el anuncio mas exitoso
  * *Exploración* Mostrar otros anuncios para evaluar como con recibidos.
* Busqueda de petroleo
  * *Explotación* Excavar la mejor ubicación conocida al momento
  * *Exploración* Excavar nuevas ubicaciones
* Juegos y videojuegos
  * *Explotación* Realizar la jugada que creemos la mejor
  * *Exploración* Probar una jugada experimental.

## Predicción y Control

**Predicción:** Evaluar el futuro
* Dada una política de conducta
* Para una política fija, estimar el valor de esta (a través de sus funciones de evaluación)

**Control:** Optimizar el futuro
* Encontrar la mejor política
* Encontrar la política que mejore la interacción del agente con el entorno

## **Observaciones**
La información de este documento se obtuvo del curso de *Reinforcement Learning* impartido por el profesor **David Silver**. Pueden encontrar todo el material referente a este curso [aquí](http://www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.html)