Reinforcement Learning

[Stanford CS234](https://web.stanford.edu/class/cs234/schedule.html)

[Videos](https://www.youtube.com/watch?v=FgzM3zpZ55o&list=PLoROMvodv4rOSOPzutgyCTapiGlY2Nd8u&index=2&t=0s)

# Introducción
- ¿cómo puede un "agente inteligente" tomar las decisiones correctas?
- Secuencias de decisiones
- ¿Qué es una decisión **correcta**?
- ¿Cómo el agente aprende a tomar decisiones?
- Aplicaciones
    - Robótica
    - Videojuegos
        - Juegos educacionales
    - Salud
    - Problemas de optimización
- Implica
    - Optimizar
        - ¿Cómo tomar *buenas* decisiones?
        - ¿Buenas estrategias?
    - Consecuencias
        - Las decisiones que tomo ahora tienen consecuencas en mi contexto en el futuro.
        - Corto, mediano y largo plazo.
    - Exploración
        - ¿cómo conozco el mundo?
        - Solo se aprende de las acciones hechas y decisiones tomadas
        - El agente debe aprender por sí mismo
    - Generalizar
        - El modelo del mundo debe ser reutilizable 
        - Aprender directamente de la información
- Otros tipos de aprendizaje 
    - Aprendizaje por imitación
        - Aprendo a partir de ejemplos hechos por otros
    - Aprendizaje de planeación (AI)
    - Supervisado, no Supervisado.

# Toma secuencial de decisiones

<p align="center">
  <img src="imgs/RL1.png">
</p>

- Interacción entre el agente y el ambiente.

- Objetivo (del agente): Seleccionar acciones que maximicen la recompensa esperada a futuro.
    - Comportamiento estratégico
    - Puede requerir balancear entre la recompensa a corto (inmediata), mediano y largo plazo.

- El desempeño del agente depende principalmente de qué acciones puede tomar y qué recompensa debe conseguir.
- *Reward Hacking*
  - Buscar recompensas correctas para cumplir el objetivo de la problemática.

- Acciones en tiempo discreto
  - En cada paso del tiempo:
    - El agente emite una acción $a$
    - El ambiente recibe la acción y emite una observación y una recompensa
    - El agente recibe la observación del ambiente y la recompensa

- El ambiente es una *representación* del mundo en donde vive el agente.
  - No todo el ambiente es observable.
  - Buena generalización del sistema depende de qué tan confiable es el ambiente.

- Suposición de Markov:
  - Las decisiones que se toman dependen únicamente de la observación actual, no de observaciones pasadas.
  - Estado del mundo: observación actual.
  - Puede ser utilizada en cualquier sistema si se toma la historia completa del sistema como el estado actual.
  - En la práctica, generalmente la última observación es suficiente.

- El estado del agente puede ser diferente al estado del ambiente.
  - El agente puede construir su estado a partir de agregar, asumir, o transformar sus observaciones.  
    - Representaición interna: Estado del mundo $\neq$ Estado del agente
  - El agente puede tener observabilidad parcial del mundo.

- Las acciones del agente pueden no tener efecto sobre su ambiente
  - Recompensa inmediata

- Retos:
    - El agente no conoce cómo funciona el mundo, solo su observación o una representación de él
    - Se debe aprender cómo funciona el mundo a partir de su experiencia
        - De manera implícita o explícita
    - El agente debe aprender su propia política de acciones para obtener altas recompensas
        - El agente aprende directamente al tomar varias acciones y "ver qué pasa"
        - Balance exploración/explotación
            - Exploración: Buscar nuevas experiencias que puedan tener altas recompensas a futuro
            - Explotación: Utilizar las acciones ya aprendidas y que puedan tener altas recompensas según su experiencia
            - Si tengo tiempo *infinito* para aprender: acción no depende de cuánto tiempo voy o cuánto tiempo me queda.
            - Si tengo tiempo limitado (horizonte finito): acción depende de en qué tiempo voy. (ej. Si estoy de viaje en San Francisco, el último día no voy a explorar porque no puedo ganar nada a futuro)
            - ¿Qué pasa si tengo un horizonte indefinido?: Hallar probabilidades para los estados en los que la situación terminaría (*sink states*).

## Componentes de un agente
- Política ($\pi(s)$):
  - ¿cómo el agente escoge sus acciones?
    - Depende del estado actual
    - Distribución (para procesos estocásticos)
    - Función (para procesos determinísticos)
- Modelo
    - Modelo del entorno
        - Representación que el agente tiene de su universo
        - Cómo el entorno cambia según las acciones que toma el agente
    - Modelo de la recompensa
        - Qué recompensa obtendrá el agente tras efectuar cierta acción
- Función de valor:
    - Define qué recompensas va a obtener el agente se encuentra en cierto estado y sigue cierta política
    - *Discounted Sum Of Rewards*
        - Calcula la suma de recompensas según el componente $\gamma$, que indica el valor de las recompensas futuras con respecto a la recompensa inmediata

# Procesos de Markov
- El agente solo se concentra en el estado actual del entorno
    - No toma decisiones basadas en su historia
    - "El estado actual es suficiente para tomar decisiones correctas"
<p align="center">
  <img src="imgs/rl3.png">
</p>
## Cadenas de Markov
- Secuencia de estados aleatorios
- Conjunto finito de estados
- No hay políticas ni recompensas
    - El cambio de estado no depende de una acción, únicamente del estado actual.
- La distribución de probabilidades de cambio de estado siempre converge a un estado estable.
- Es posible representarlas con una matriz de transición entre estados $P$, con cierta *distribución de estado estable* (las probabilidades de cambiar a otro estado estando en el estado actual)
    - Donde, $p(s_{i+1})=s_i*P$
        - $P$ es una matriz $nxn$ donde $n$ representa el número total de estados
        - $p(s_{i+1})$ indica la probabilidad de que estando en el estado $s_i$, se pase al estado $s_{i+1}$

## Proceso de recompensa de Markov
- Cadena de Markov con recompensas
- No hay acciones
- Horizonte: Número de pasos de tiempo en un *episodio*.
    - Puede ser infinito
- Valor
    - Para un factor de descuento $\gamma\in [0,1]$, en un instante de tiempo $t$ se define el valor de retorno $G$ como:
    $$
    G_t=r_t+\gamma r_{t+1}+\gamma^2 r_{t+2}+\gamma^3 r_{t+3}+...
    $$
    - Equivalente a la recompensa del estado actual, sumada a valores disminuidos de las recompensas a futuro.
    - Para procesos estocásticos, se define el valor de un estado $V(s)$ como la distribución de los posibles valores de retorno a partir de ese estado.
    $$
    V(s=s_t)=E[G_t]
    $$
    - Es posible computar el valor de un estado mediante
        - Simulación (Montecarlo)
        - Ecuación de Bellman
        - Programación dinámica (Optimización)

## Procesos de decisión de Markov
- Proceso de recompensa de Markov con acciones
- La política indica qué acción tomar mientras se está en un estado: $\pi(a|s)$
    - Puede ser determinística o estocástica
- Si se define una política para el proceso de decisión, este puede ser modelado como un proceso de recompensa
- El número de políticas posibles dentro de un proceso de decisión es: $|A|^{|S|}$
    - Donde $|A|$ es el número de acciones posibles y $|S|$ es el número de estados del proceso.
    - Asumiendo que todas las acciones son legales para todos los estados.
    - Ej. para 2 estados ($s_1$,$s_2$) y dos acciones posibles ($a_1$,$a_2$), existen las siguientes políticas posibles:
    
<center>

| $a_1$ | $a_1$ |
|-------|-------|
| $a_1$ | $a_2$ |
| $a_2$ | $a_1$ |
| $a_2$ | $a_2$ |

</center>

### Control    
- Función de valor de un estado:
    - Se sigue una política $\pi$ y se calcula el valor del estado
    - Representada como
    $$
    V^\pi(s)
    $$
- Valor de estado-acción
    - Se toma una acción $a$ y se toma la recompensa inmediata, luego se sigue la política $\pi$
    - Representado como
    $$
    Q^\pi(s,a)
    $$
- Para un proceso de decisión de Markov con horizonte infinito, la política óptima es determinística, pero no única.
    - Hay un único valor óptimo para cada estado
    - Este valor óptimo puede ser alcanzable por una o más políticas. 
- ¿Cómo hallar una política óptima? ***Policy Search***
    - *Policy Iteration*
        - Algoritmo iterativo
        - Garantiza hallar una política óptima global
    - *Value Iteration*
    - Técnicas basadas en gradiente


# Evaluación de políticas

Si se fija una política, ¿qué tan buena es?

- Siendo $\hat\theta$ los parámetros hallados que estiman los parámetros reales (\theta) de una distribución y E[x] un valor esperado (media, mediana..)
  - Bias: $E[\hat\theta] -\theta$
    - ¿cómo se calcula si no se conoce $\theta$?
  - Varianza: $E[(\hat\theta-E[\hat\theta])^2]$
  - MSE: $Var(\hat\theta)+Bias(\hat\theta)^2$

<p align="center">
  <img src="imgs/rl2.png">
</p>

## Modelo conocido
- Programación dinámica
- Ecuaciones de Bellman
- Se asume criterio de Markov

## Modelo desconocido
### Montecarlo
- El valor de la política es igual al promedio de los retornos esperados si se sigue la política.
- Simular el sistema siguiente una política múltiples veces y hallar el promedio.
- Cada episodio del sistema debe finalizar.
- Alta varianza
  - Requiere grandes cantidades de datos
- El retorno esperado aún es $G_t$
- No asume Markov
- Algoritmos:
  - *First-visit Montecarlo for Policy Evaluation*
  - *Every-visit Montecarlo for Policy Evaluation*
  - *Incremental Montecarlo for Policy Evaluation*
    - Útil para dominios no estacionarios (cuando el modelo del mundo cambia con el tiempo)
### Temporal Difference (TD) Learning
- *Sutton y Barto (2017)*
- Combinación entre Montecarlo y programación dinámica
  - Montecarlo: Siempre toma la verdadera muestra de la recompensa (desde la simulación)
  - Programación dinámica: Toma el *valor esperado* de la recompensa (*bootstraping*).
- Funciona para sistemas con episodios o con horizonte infinito
- No requiere modelo del mundo ni de recompensa
- Es Incremental: se actualiza después de cada cambio de estado del agente
- Alto bias y varianza pero rápido y flexible
- Markov


# Notas
- *Machine Teaching*
  - Cooperación entre agentes
  - Los agentes saben que están cooperando entre sí.