# Facultad Regional Villa María

## 5to año - Ingeniería en Sistemas de Información

### Introducción al Aprendizaje por Refuerzos

* Introducción. Modelo Agente Entorno. Agente Situado. Arquitectura Actor-Crítico.
* Aprendizaje por Refuerzos. Elementos. Ciclo del Aprendizaje por Refuerzos. Definición Formal.
* Procesos de Decisión de Markov. Función de Valor. Ecuación de Bellman. Optimalidad.
* Aproximaciones al Aprendizaje. Model Free y Model Based.
    * Iteración de Política.
    * Iteración de Valor.



## Introducción: Entidad Inteligente -> Agente Situado
* El desarrollo de la inteligencia requiere que la entidad o el agente esté situada/o en un entorno **(Measuring universal intelligence: Towards an anytime intelligence test, Hernandez-Orallo & Dowe, Artificial Intelligence, 2010).**
![](images/Situated Agent.png)


## Agent-Environment Framework
* El agente y su entorno interactúan a través de la ejecución de acciones, observación de estados y señales de reward (recompensa). La inteligencia tendrá efecto sólo si el agente tiene claramente definidos objetivos o metas que persigue activamente mientras ocurre la interacción.
![](images/AE Interaction.png)

## Arquitectura Actor-Crítico
![](images/RL Diagram.png)

## Aprendizaje por Refuerzos

* La toma de decisiones secuencial involucra aprender sobre nuestro entorno y elegir acciones que maximizan el retorno esperado. El RL computacional, inspirado por estas ideas, las formalizo y produjo un impacto importante en robótica, machine learning y neurociencias.

* El Aprendizaje por Refuerzos (RL) consiste en un agente que se encuentra en algún estado $s \in S$ inmerso en un entorno $E$ y toma acciones $a \in A$ en busca de una meta. El agente puede ser modelado formalmente como una función f, que toma un  historial de interacción como entrada, y devuelve una acción a tomar. Una manera conveniente para representar el agente es una medida de probabilidad sobre el set A de acciones, en base a un historial de interacción: $$ f(a_{n}|s_{1}a_{1} r_{2} s_{2}a_{2}...r_{n}s_{n}) $$ que representa la probabilidad de la acción a en el ciclo n dado un historial de interacción.

* Problema RL: ¿Cómo el agente produce la distribución de probabilidad sobre las acciones?

* Dilema de exploración - explotación: debido a que el Agente no recibe ejemplos de entrenamiento, debe probar alternativas, procesar los resultados de sus acciones y modificar su comportamiento en algún sentido. ¿Cuándo explotar este conocimiento vs. cuándo probar nuevas estrategias?

## Elementos del Aprendizaje por Refuerzos
![](images/RL Elements.png)

* **Policy (Política): **

Una política define la manera de comportarse de un agente, en cualquier momento de tiempo dado. Basicamente, es un mapeo de un estado o percepción s a una acción a, pudiendo ser estocásticas.

* **Reward Function (Función de Recompensa)**

Define cuantitativamente el objetivo del agente. Es un mapeo de un par estado-acción a un número real que indica "cuán deseable" es ejecutar dicha acción en ese estado. Asimismo, el único objetivo del agente es maximizar la recompensa total que recibe a lo large del tiempo. Cabe mencionar que, si bien la función de reward no puede ser alterada por el agente, provee las bases para cambiar la política del mismo.

* **Value function (Función de Valor)**

La función de valor se diferencia de la función de reward en el sentido de que indica "cuán deseable" es, a largo plazo, ejecutar una acción en un determinado estado. Así, el valor de un estado s es la cantidad total de reward que el agente espera obtener a futuro comenzando la interacción en el estado s.

* **Environment (Entorno)**

El entorno se encuentra constitutido por todo aquel elemento (real o simulado) que el agente no puede controlar. Es con quién el agente interactúa a partir de la ejecución de acciones de control.

## Ciclo del Aprendizaje por Refuerzos
![](images/RL Cycle.png)




### Definición formal

* Si el problema de RL dado tiene un conjunto finito de estados y acciones y satisface la propiedad de Markov entonces puede definirse como un Proceso de Decisión de Markov

\begin{equation}
MDPFinito = (S, A, P(.), R(.), γ)
\end{equation}

donde

$$ S = {s_{1}, s_{2}, ..., s_{n}} $$
es un conjunto finito de estados.
$$ A = {a_{1}, a_{2}, ..., a_{m}} $$
es un conjunto finito de acciones.
$$ P_{a}(s,s') = P(s_{t+1} = s | s_{t} = s, a_{t} = a) $$ 
es la probabilidad de que la acción a tomada en tiempo t y en estado s lleve al agente al estado s' en tiempo t+1
$$ R_{a}(s,s') $$
es la recompensa inmediata recibido tras transicionar, luego de tomar la acción a, desde el estado s al estado s'
$$\gamma \in  [0,1]$$ 
es el factor de descuento, representando la diferencia en la importancia de la recompensa a corto plazo vs la recompensa a largo plazo.


![](images/mdp_example.png)

* Un episodio (instancia) de este MDP forma una secuencia finita 
$$s_{0}, a_{0}, r_{1}, s_{1}, a_{1}, r_{2}, s_{2}, ... , s_{n-1}, a_{n-1}, r_{n}, s_{n} $$ 
donde $$s_{n}$$
es un estado final (o n es el tiempo de corte).

* La recompensa total del episodio está dado por 
$$ R = r_{1} + r_{2} + ... + r_{n} $$

* En consecuencia, la recompensa a futuro partiendo del tiempo $t$ está dado por 
$$R_{t} = r_{t} + r_{t+1} + ... $$

* Hay que considerar que el ambiente es estocástico en la mayor parte de los entornos reales y, por tanto, la recompensa suele diverger mientras más alejado se encuentre el instante de tiempo considerado. Es por esto que se utiliza un parámetro $γ$ llamado _factor de descuento_, para descontar el valor de las recompensas futuras. De esta manera,

\begin{equation} R_{t} = r_{t} + γr_{t+1} + γ^2r_{t+2} + γ^3r_{t+3} + ... = r_{t} + γ(r_{t+1} + γr_{t+2} + γ^2r_{t+3} ...) = r_{t} + γR_{t+1} \end{equation}

* Si utilizamos $γ=0$, el agente priorizará sólo la recompensa inmediata, mientras que $\gamma=1$ hará que considere todas los recompensas de la misma manera, independientemente del momento en donde las reciba.
![](images/RL Problem Statement.png)
![](images/Policy Definition.png)





## Procesos de Decisión de Markov

### Función de Valor

* El valor de un estado es el retorno esperado por el agente, comenzando la interacción en dicho estado, dependiendo de la política ejecutada por el agente.

![](images/Funcion de Estado Valor.png)

* El valor de la ejecución de una acción en un estado es el retorno esperado por el agente, comenzando la interacción en dicho estado a partir de la ejecución de dicha acción, dependiendo de la política ejecutada por el agente.

![](images/Funcion de Accion Valor.png)

Una propiedad fundamental de las funciones de valor es que satisfacen ciertas propiedades recursivas. Para cualquier política  π y cualquier estado s, V(s) y Q(s,a) pueden ser definidas recursivamente en términos de la denominada *Ecuación de Bellman* ** (Bellman, 1957) **

### Ecuación de Bellman

* La idea básica es:

![](images/Retorno.png)

* Entonces,

![](images/Retorno - Valor.png)

* O, sin el operador de valor esperado:

![](images/Bellman Equation.png)

La ecuación anterior refleja el hecho de que el valor de un estado se encuentra definido en términos de la recompensa inmediata y los valores de los estados siguientes ponderados en función de las probabilidades de transición, y adicionalmente un factor de descuento.

### Ecuación de Optimalidad de Bellman

La Ecuación de Optimalidad de Bellman refleja el hecho de que el Valor de un estado bajo la política óptima debe ser igual al retorno esperado para la mejor acción en dicho estado:

![](images/Ecuacion de Optimalidad Valor.png)

Al mismo tiempo, la acción óptima para un estado s dada la función de valor, puede obtenerse mediante:

![](images/Accion Optima.png)

La política anterior se denomina **Política Greedy**, dado que selecciona la mejor acción para cada estado, teniendo en cuenta la función de valor V(s). De manera análoga, la función de acción-valor óptima puede expresarse como:

![](images/Accion Valor Optima.png)

## Aproximaciones para el aprendizaje de V y Q

![](images/Aproximaciones al aprendizaje.png)

### Model Based vs. Model Free

* Model-free aprende Q/V directamente y presenta muy baja complejidad computacional.

* Model-based aprende T y R y usa un algoritmo de planning para encontrar la política. Uso eficiente de los datos/experiencia. Alto costo computacional.

### Programación Dinámica: Iteración de Valor e Iteración de Política (Model Based)

#### Iteración de Valor

![](images/Iteracion de Valor.png)

#### Iteración de Política

![](images/Iteracion de Politica.png)