# Introducción al Aprendizaje por Refuerzos

* Introducción. Modelo Agente Entorno. Agente Situado. Arquitectura Actor-Crítico.
* Aprendizaje por Refuerzos. Elementos. Ciclo del Aprendizaje por Refuerzos. Definición Formal.
* Procesos de Decisión de Markov. Función de Valor. Ecuación de Bellman. Optimalidad.
* Aproximaciones al Aprendizaje. Model Free y Model Based.
    * Iteración de Política.
    * Iteración de Valor.
* Ejercicios.

## 5to año - Ingeniería en Sistemas de Información

### Facultad Regional Villa María

## Introducción: Entidad Inteligente -> Agente Situado
* El desarrollo de la inteligencia requiere que la entidad o el agente esté situada/o en un entorno **(Measuring universal intelligence: Towards an anytime intelligence test, Hernandez-Orallo & Dowe, Artificial Intelligence, 2010).**
![](images/Situated Agent.png)


## Agent-Environment Framework
* El agente y su entorno interactúan a través de la ejecución de acciones, observación de estados y señales rewards. La inteligencia tendrá efecto sólo si el agente tiene claramente definidos objetivos o metas que persigue activamente mientras ocurre la interacción.
![](images/AE Interaction.png)

## Arquitectura Actor-Crítico
![](images/RL Diagram.png)

## Aprendizaje por Refuerzos

* La toma de decisiones secuencial involucra aprender sobre nuestro entorno y elegir acciones que maximizan el retorno esperado. El RL computacional, inspirado por estas ideas, las formalizo y produjo un impacto importante en robótica, machine learning y neurociencias.

* El Aprendizaje por Refuerzos (RL) consiste en un agente que se encuentra en algún estado $s \in S$ inmerso en un entorno $E$ y toma acciones $a \in A$ en busca de una meta. El agente puede ser modelado formalmente como una función f, que toma un  historial de interacción como entrada, y devuelve una acción a tomar. Una manera conveniente para representar el agente es una medida de probabilidad sobre el set A de acciones, en base a un historial de interacción: $$ f(a_{n}|s_{1}a_{1} r_{2} s_{2}a_{2}...r_{n}s_{n}) $$ que representa la probabilidad de la acción a en el ciclo n dado un historial de interacción.

* Problema RL: ¿Cómo el agente produce la distribución de probabilidad sobre las acciones?

* Dilema de exploración - explotación: debido a que el Agente no recibe ejemplos de entrenamiento, debe probar alternativas, procesar los resultados de sus acciones y modificar su comportamiento en algún sentido. ¿Cuándo explotar este conocimiento vs. cuándo probar nuevas estrategias?

## Elementos del Aprendizaje por Refuerzos
![](images/RL Elements.png)

* **Policy (Política): **

Una política define la manera de comportarse de un agente, en cualquier momento de tiempo dado. Basicamente, es un mapeo de un estado o percepción s a una acción a, pudiendo ser estocásticas.

* **Reward Function (Función de Recompensa)**

Define cuantitativamente el objetivo del agente. Es un mapeo de un par estado-acción a un número real que indica "cuán deseable" es ejecutar dicha acción en ese estado. Asimismo, el único objetivo del agente es maximizar la recompensa total que recibe a lo large del tiempo. Cabe mencionar que, si bien la función de reward no puede ser alterada por el agente, provee las bases para cambiar la política del mismo.

* **Value function (Función de Valor)**

La función de valor se diferencia de la función de reward en el sentido de que indica "cuán deseable" es, a largo plazo, ejecutar una acción en un determinado estado. Así, el valor de un estado s es la cantidad total de reward que el agente espera obtener a futuro comenzando la interacción en el estado s.

* **Environment (Entorno)**

El entorno se encuentra constitutido por todo aquel elemento (real o simulado) que el agente no puede controlar. Es con quién el agente interactúa a partir de la ejecución de acciones de control.

## Ciclo del Aprendizaje por Refuerzos
![](images/RL Cycle.png)




### Definición formal

* Si el problema de RL dado tiene un conjunto finito de estados y acciones y satisface la propiedad de Markov entonces puede definirse como un Proceso de Decisión de Markov

\begin{equation}
MDPFinito = (S, A, P(.), R(.), γ)
\end{equation}

donde

$$ S = {s_{1}, s_{2}, ..., s_{n}} $$
es un conjunto finito de estados.
$$ A = {a_{1}, a_{2}, ..., a_{m}} $$
es un conjunto finito de acciones.
$$ P_{a}(s,s') = P(s_{t+1} = s | s_{t} = s, a_{t} = a) $$ 
es la probabilidad de que la acción a tomada en tiempo t y en estado s lleve al agente al estado s' en tiempo t+1
$$ R_{a}(s,s') $$
es la recompensa inmediata recibido tras transicionar, luego de tomar la acción a, desde el estado s al estado s'
$$\gamma \in  [0,1]$$ 
es el factor de descuento, representando la diferencia en la importancia de la recompensa a corto plazo vs la recompensa a largo plazo.


![](images/mdp_example.png)

* Un episodio (instancia) de este MDP forma una secuencia finita 
$$s_{0}, a_{0}, r_{1}, s_{1}, a_{1}, r_{2}, s_{2}, ... , s_{n-1}, a_{n-1}, r_{n}, s_{n} $$ 
donde $$s_{n}$$
es un estado final (o n es el tiempo de corte).

* La recompensa total del episodio está dado por 
$$ R = r_{1} + r_{2} + ... + r_{n} $$

* En consecuencia, la recompensa a futuro partiendo del tiempo $t$ está dado por 
$$R_{t} = r_{t} + r_{t+1} + ... $$

* Hay que considerar que el ambiente es estocástico en la mayor parte de los entornos reales y, por tanto, la recompensa suele diverger mientras más alejado se encuentre el instante de tiempo considerado. Es por esto que se utiliza un parámetro $γ$ llamado _factor de descuento_, para descontar el valor de las recompensas futuras. De esta manera,

\begin{equation} R_{t} = r_{t} + γr_{t+1} + γ^2r_{t+2} + γ^3r_{t+3} + ... = r_{t} + γ(r_{t+1} + γr_{t+2} + γ^2r_{t+3} ...) = r_{t} + γR_{t+1} \end{equation}

* Si utilizamos $γ=0$, el agente priorizará sólo la recompensa inmediata, mientras que $\gamma=1$ hará que considere todas los recompensas de la misma manera, independientemente del momento en donde las reciba.
![](images/RL Problem Statement.png)
![](images/Policy Definition.png)





## Procesos de Decisión de Markov

### Función de Valor

* El valor de un estado es el retorno esperado por el agente, comenzando la interacción en dicho estado, dependiendo de la política ejecutada por el agente.

![](images/Funcion de Estado Valor.png)

* El valor de la ejecución de una acción en un estado es el retorno esperado por el agente, comenzando la interacción en dicho estado a partir de la ejecución de dicha acción, dependiendo de la política ejecutada por el agente.

![](images/Funcion de Accion Valor.png)

Una propiedad fundamental de las funciones de valor es que satisfacen ciertas propiedades recursivas. Para cualquier política  π y cualquier estado s, V(s) y Q(s,a) pueden ser definidas recursivamente en términos de la denominada *Ecuación de Bellman* ** (Bellman, 1957) **

### Ecuación de Bellman

* La idea básica es:

![](images/Retorno.png)

* Entonces,

![](images/Retorno - Valor.png)

* O, sin el operador de valor esperado:

![](images/Bellman Equation.png)

La ecuación anterior refleja el hecho de que el valor de un estado se encuentra definido en términos de la recompensa inmediata y los valores de los estados siguientes ponderados en función de las probabilidades de transición, y adicionalmente un factor de descuento.

### Ecuación de Optimalidad de Bellman

La Ecuación de Optimalidad de Bellman refleja el hecho de que el Valor de un estado bajo la política óptima debe ser igual al retorno esperado para la mejor acción en dicho estado:

![](images/Ecuacion de Optimalidad Valor.png)

Al mismo tiempo, la acción óptima para un estado s dada la función de valor, puede obtenerse mediante:

![](images/Accion Optima.png)

La política anterior se denomina **Política Greedy**, dado que selecciona la mejor acción para cada estado, teniendo en cuenta la función de valor V(s). De manera análoga, la función de acción-valor óptima puede expresarse como:

![](images/Accion Valor Optima.png)

## Aproximaciones para el aprendizaje de V y Q

![](images/Aproximaciones al aprendizaje.png)

### Model Based vs. Model Free

* Model-free aprende Q/V directamente y presenta muy baja complejidad computacional.

* Model-based aprende T y R y usa un algoritmo de planning para encontrar la política. Uso eficiente de los datos/experiencia. Alto costo computacional.

### Programación Dinámica: Iteración de Valor e Iteración de Política (Model Based)

#### Iteración de Valor

![](images/Iteracion de Valor.png)

#### Iteración de Política

![](images/Iteracion de Politica.png)

## Ejercicios

Fecha de entrega: **14/06/2017**

Nota: la resolución de los ejercicios es **individual**; en el caso de que dos ejercicios enviados contengan un código igual o muy similar (sin considerar los comentarios), se los considerará a ambos como desaprobados. La reutilización del código de los notebooks está permitida (por ejemplo para confeccionar gráficos).

1. Un entorno denominado **"gridworld"** consiste en un agente que se mueve en una grilla formada por un conjunto de celdas, cada una de las cuales se corresponde con un estado. En cada una de las celdas, el agente puede ejecutar una entre cuatro acciones posibles: norte, sur, este y oeste, las que producen el efecto de mover el agente hacia la celda adyacente de acuerdo a la acción ejecutada (de manera determinística). Aquella acción que lleva al agente fuera de la grilla, tiene el efecto de mantener al mismo en la misma celda, pero producen una recompensa de -1. Las demás acciones producen una recompensa de 0, excepto aquellas que mueven al agente fuera de los estados especiales denominados A y B. Desde el estado A, las cuatro acciones producen una recompensa de 10, y el efecto es que el esado siguiente siempre es A'. Lo mismo ocurre con el estado B, excepto que la recompensa es 5 y el estado siguiente es B' (Ver figura inferior a)).

![](images/Gridworld.png)

La parte b) de la figura, muestra la función de valor calculada para un agente que actúa de manera aleatoria, es decir, aquel que siempre elige las acciones de manera equiprobable, obtenidas a partir de la aplicación de la siguiente implementación de Iteración de Valor:

In [1]:
from __future__ import print_function
from python_utils.import_ import import_global
import numpy as np

# Límites de la grilla y posiciones especiales
WORLD_SIZE = 5
A_POS = [0, 1]
A_PRIME_POS = [4, 1]
B_POS = [0, 3]
B_PRIME_POS = [2, 3]
discount = 0.9

world = np.zeros((WORLD_SIZE, WORLD_SIZE))

# acciones left, up, right, down
actions = ['L', 'U', 'R', 'D']

# se agrega en actionProb la probabilidad de las acciones para la política
actionProb = []
for i in range(0, WORLD_SIZE):
    actionProb.append([])
    for j in range(0, WORLD_SIZE):
        actionProb[i].append(dict({'L':0.25, 'U':0.25, 'R':0.25, 'D':0.25}))

# se setea la función de transición y la función de reward        
nextState = []
actionReward = []
for i in range(0, WORLD_SIZE):
    nextState.append([])
    actionReward.append([])
    for j in range(0, WORLD_SIZE):
        next = dict()
        reward = dict()
        if i == 0:
            next['U'] = [i, j]
            reward['U'] = -1.0
        else:
            next['U'] = [i - 1, j]
            reward['U'] = 0.0

        if i == WORLD_SIZE - 1:
            next['D'] = [i, j]
            reward['D'] = -1.0
        else:
            next['D'] = [i + 1, j]
            reward['D'] = 0.0

        if j == 0:
            next['L'] = [i, j]
            reward['L'] = -1.0
        else:
            next['L'] = [i, j - 1]
            reward['L'] = 0.0

        if j == WORLD_SIZE - 1:
            next['R'] = [i, j]
            reward['R'] = -1.0
        else:
            next['R'] = [i, j + 1]
            reward['R'] = 0.0

        if [i, j] == A_POS:
            next['L'] = next['R'] = next['D'] = next['U'] = A_PRIME_POS
            reward['L'] = reward['R'] = reward['D'] = reward['U'] = 10.0

        if [i, j] == B_POS:
            next['L'] = next['R'] = next['D'] = next['U'] = B_PRIME_POS
            reward['L'] = reward['R'] = reward['D'] = reward['U'] = 5.0

        nextState[i].append(next)
        actionReward[i].append(reward)

#Iteración de Valor
while True:
    # Se itera hasta lograr la convergencia
    newWorld = np.zeros((WORLD_SIZE, WORLD_SIZE))
    for i in range(0, WORLD_SIZE):
        for j in range(0, WORLD_SIZE):
            for action in actions:
                newPosition = nextState[i][j][action]
                # Actualización basada en Bellman
                newWorld[i, j] += actionProb[i][j][action] * (actionReward[i][j][action] + discount * world[newPosition[0], newPosition[1]])
    if np.sum(np.abs(world - newWorld)) < 1e-4:
        print('Política Aleatoria')
        print(newWorld)
        break
    world = newWorld

Política Aleatoria
[[ 3.30902999  8.78932551  4.42765281  5.3224012   1.49221235]
 [ 1.52162172  2.9923515   2.25017358  1.90760531  0.5474363 ]
 [ 0.05085614  0.73820423  0.67314689  0.35821982 -0.40310755]
 [-0.97355865 -0.43546179 -0.35484864 -0.58557148 -1.18304148]
 [-1.8576669  -1.34519762 -1.22923364 -1.42288454 -1.97514545]]


1.1 Genere una gráfica que muestre la evolución del cálculo "np.sum(np.abs(world - newWorld))", para cada paso de actualización realizado hasta lograr la convergencia.

1.2 Modifique el algoritmo anterior para encontrar el valor de la política óptima. Genere una gráfica que muestre la evolución del cálculo "np.sum(np.abs(world - newWorld))", para cada paso de actualización realizado hasta lograr la convergencia.

2\. Un robot de reciclaje de residuos debe decidir, en cada instante de tiempo, si busca activamente un contenedor de residuos, si permanece en el lugar en que se encuentra a la espera de que alguien le traiga un contenedor de residuos, o bien si debe volver a su base para recargar la batería. La mejor forma de encontrar contenedores es buscarlos, pero dicha acción reduce la carga de la batería, mientras que la acción de esperar no. Por otra parte, en cualquier caso en que el robot se encuentre buscando contenedores, existe la posibilidad de que la batería se agote. En este caso, el robot se apaga y necesita ser rescatado (produciendo una recompensa muy baja). Asuma que el problema puede ser modelado de la manera que se muestra en la figura siguiente (Diagrama y función de transición de estados), en donde $R_{search}$ es el número esperado de contenedores que se espera encontrar mientras se ejecuta search, y $R_{wait}$ es el número esperado de contenedores que se espera recibir mientras se ejecuta wait, y $R_{search} > R_{wait}$.

![](images/Recycling Robot.png)

2.1 Implemente un algoritmo de Iteración de Valor para obtener la política óptima del robot de reciclaje.

2.2 Utilice el algoritmo implementado en (2.1) para evaluar cómo cambia el valor de la política óptima a partir de alterar  $\alpha$, $\beta$ para un valor de $R_{search}=5 $ y $R_{wait} = 2$. Para dicha evaluación, emplee una gráfica que permita determinar cuáles son los valores de dichas variables que maximizan el retorno esperado por el agente en cada estado. AYUDA: Varíe algoritmicamente los valores de $\alpha$ y $\beta$ y calcule la política óptima correspondiente. La gráfica debería presentar tres ejes: $\alpha$, $\beta$, y una variable que totalice los valores de los estados.

2.3 Con los mejores valores de $\alpha$ y $\beta$ obtenidos en 2.2, realice la misma operación variando $R_{search} $  con un tope de 10, manteniendo $R_{wait}$ = en 4. 

3\. Un agente debe aprender a llegar en la menor cantidad de pasos desde la posición S a la posición G en una grilla como la que sigue.

![](images/Gridworld Labyrinth.png)

Las acciones disponibles en cada estado son las mismas que las descriptas para el agente del Ejercicio 1. El efecto de una acción que llevaría al agente fuera de la grilla, es que el agente vuelve al estado S.

3.1 Plantee una función de recompensa que permita al agente aprender a lograr el objetivo expresado en 3.

3.2 Implemente un algoritmo basado en Iteración de Valor para aprender la política óptima en el entorno especificado.

3.3 Realice una gráfica que permita evaluar como cambia el valor de la política óptima en relación al factor de descuento $\gamma$.

4\. Implemente la solución de los ejercicios anteriores empleando Iteración de Política. Puede utilizar como base de implementación el siguiente código fuente:

In [2]:
import numpy as np

"""Este es el pseudocódigo correspondiente al algoritmo implementado más abajo.

1: Procedure Policy_Iteration(S,A,P,R)
2:           Inputs
3:                     S is the set of all states
4:                     A is the set of all actions
5:                     P is state transition function specifying P(s'|s,a)
6:                     R is a reward function R(s,a,s')
7:           Output
8:                     optimal policy π
9:           Local
10:                     action array π[S]
11:                     Boolean variable noChange
12:                     real array V[S]
13:           set π arbitrarily
14:           repeat
15:                     noChange ←true
16:                     Solve V[s] = ∑s'∈S P(s'|s,π[s])(R(s,a,s')+γV[s'])
17:                     for each s∈S do
18:                               Let QBest=V[s]
19:                               for each a ∈A do
20:                                         Let Qsa=∑s'∈S P(s'|s,a)(R(s,a,s')+γV[s'])
21:                                         if (Qsa > QBest) then
22:                                                   π[s]←a
23:                                                   QBest ←Qsa
24:                                                   noChange ←false
25:           until noChange
26:           return π
"""

# aquí se setea un entorno de ejemplo
states = [0,1,2,3,4]
actions = [0,1]
N_STATES = len(states)
N_ACTIONS = len(actions)
P = np.zeros((N_STATES, N_ACTIONS, N_STATES))  # Probabilidades de Transición
R = np.zeros((N_STATES, N_ACTIONS, N_STATES))  # Rewards

P[0,0,1] = 1.0
P[1,1,2] = 1.0
P[2,0,3] = 1.0
P[3,1,4] = 1.0
P[4,0,4] = 1.0


R[0,0,1] = 1
R[1,1,2] = 10
R[2,0,3] = 100
R[3,1,4] = 1000
R[4,0,4] = 1.0

# factor de descuento
gamma = 0.75

# inicializa la política y la función de valor
policy = [0 for s in range(N_STATES)]
V = np.zeros(N_STATES)

print("Política Inicial")
print(policy)

is_value_changed = True
iterations = 0
while is_value_changed:
    is_value_changed = False
    iterations += 1
    # corre la iteración de valor para cada estado 
    for s in range(N_STATES):
        V[s] = sum([P[s,policy[s],s1] * (R[s,policy[s],s1] + gamma*V[s1]) for s1 in range(N_STATES)])
        
    # realiza la mejora de la política
    for s in range(N_STATES):
        q_best = V[s]
        for a in range(N_ACTIONS):
            q_sa = sum([P[s, a, s1] * (R[s, a, s1] + gamma * V[s1]) for s1 in range(N_STATES)])
            if q_sa > q_best:
                print("State", s, ": q_sa", q_sa, "q_best", q_best)
                policy[s] = a
                q_best = q_sa
                is_value_changed = True

    print ("Iteracion:", iterations)

print ("Política Final")
print (policy)
print (V)

Política Inicial
[0, 0, 0, 0, 0]
State 1 : q_sa 85.0 q_best 0.0
State 3 : q_sa 1000.75 q_best 0.0
State 4 : q_sa 1.75 q_best 1.0
Iteracion: 1
State 0 : q_sa 64.75 q_best 1.0
State 2 : q_sa 850.5625 q_best 100.0
State 3 : q_sa 1001.3125 q_best 1000.75
State 4 : q_sa 2.3125 q_best 1.75
Iteracion: 2
State 1 : q_sa 647.921875 q_best 85.0
State 2 : q_sa 850.984375 q_best 850.5625
State 3 : q_sa 1001.734375 q_best 1001.3125
State 4 : q_sa 2.734375 q_best 2.3125
Iteracion: 3
State 0 : q_sa 486.94140625 q_best 64.75
State 1 : q_sa 648.23828125 q_best 647.921875
State 2 : q_sa 851.30078125 q_best 850.984375
State 3 : q_sa 1002.05078125 q_best 1001.734375
State 4 : q_sa 3.05078125 q_best 2.734375
Iteracion: 4
State 0 : q_sa 487.178710938 q_best 486.94140625
State 1 : q_sa 648.475585938 q_best 648.23828125
State 2 : q_sa 851.538085938 q_best 851.30078125
State 3 : q_sa 1002.28808594 q_best 1002.05078125
State 4 : q_sa 3.2880859375 q_best 3.05078125
Iteracion: 5
State 0 : q_sa 487.356689453 q_best