# Módulo: Otros Tópicos
## Aprendizaje por Refuerzo

# Introducción 

<center>
    <img src="figures/rl-1.png" width="1000"/>
</center>

<center>
    <img src="figures/refuerzo-1.png" width="900"/>
</center>

# Fundamentos del aprendizaje por refuerzo

## Generalidades
Un agente aprende en un ambiente interactivo mediante ensayo y error usando retroalimentación de sus propias acciones y experiencias.

<center>
    <img src="figures/rl-2.png" width="700"/>
</center>

En el aprendizaje por refuerzo se premia o se castiga al modelo dependiendo si sus acciones conectan bien las entradas (atributos) y las salidas (objetivos).

## Elementos básicos
- Ambiente: mundo físico en que opera el agente
- Estado: situación actual del agente
- Recompensa: retroalimentación del ambiente al agente
- Política: método que conecta el estado del agente a acciones
- Valor: recompensa futura que el agente recibiría al tomar determinada acción

<center>
    <img src="figures/pacman-1.gif" width="800"/>
</center>

Dada una serie $S_i$ de posibles estados del agente

<center>
    <img src="figures/pacman-4.png" width="500"/>
</center>

y dadas las posibles acciones $a_i$ que este puede tomar para cada estado

<center>
    <img src="figures/pacman-5.png" width="500"/>
</center>

, la política $\pi$ mapea la probabilidad de tomar determinada acción dado un estado con el objetivo de maximizar la recompensa futura

\begin{align}
    \pi (a,s) = P(a_t | s_t)
\end{align}

<center>
    <img src="figures/refuerzo-2.png" width="900"/>
</center>

La política puede ser determinística (siempre seguir el mismo camino), o bien puede ser probabilística.

<center>
    <img src="figures/refuerzo-3.png" width="700"/>
</center>

## Exploración y beneficio
Para formar la política correcta, el agente enfrenta el dilema de explorar nuevos estados mientras maximiza la recompensa total. Para balancear ambos, la estrategia puede involucrar sacrificios de corto plazo.

<center>
    <img src="figures/refuerzo-4.png" width="300"/>
</center>

El agente debe poder recoger suficiente información para poder tomar la mejor decisión futura.

<center>
    <img src="figures/refuerzo-5.png" width="800"/>
</center>

## Con o sin modelo

El modelo consiste en la simulación de la dinámica del ambiente, por lo que el agente aprende "cómo" es el ambiente para planear mejor sus acciones.

<center>
    <img src="figures/refuerzo-6.png" width="800"/>
</center>

Sin un modelo, el agente solo aprende por ensayo y error para mejorar su conocimiento del ambiente.

Esto suele ser impracticable dado el desconocimiento de las probabilidades a priori y a lo computacionalmente costoso de almacenar todas estas transiciones.


## Algunos algoritmos para aprendizaje por refuerzo
- Q-learning
- Diferencia temporal
- Redes neuronales antagónicas (adversarial networks)
- Estado-acción-recompensa-estado-acción (SARSA)
- Monte Carlo

# Q-learning

## Generalidades
Es una técnica sin modelo que se basa en optimizar un llamado valor $Q$

$Q$ representa la calidad en términos de qué tan útil es una acción en ganar alguna recompensa futura

<center>
    <img src="figures/refuerzo-7.png" width="800"/>
</center>

La técnica aprende el valor de la política óptima independiente de las acciones del agente


**Tabla $Q$**: estructura para calcular la máxima recompensa esperada por la acción en cada estado. Inicialmente los valores son cero.

<center>
    <img src="figures/robot-1.png" width="400"/>
</center>

| E/A | Arriba | Abajo | Izquierda | Derecha |
| --- | --- | --- | --- | --- |
|   Inicio   | 0 | 0 | 0 | 0 |
|   Inactivo   | 0 | 0 | 0 | 0 |
|   Potenciador   | 0 | 0 | 0 | 0 |
|   Mina   | 0 | 0 | 0 | 0 |
|   Fin   | 0 | 0 | 0 | 0 |



**Algoritmo**
<center>
    <img src="figures/q-learning-1.png" width="700"/>
</center>

**Exploración VS Beneficio**

La tabla-Q se actualiza mediante exploración y/o beneficio según una probabilidad $\epsilon$

<center>
    <img src="figures/q-learning-2.png" width="700"/>
</center>

&#10148; Si la iteración es de exploración, el agente elige una acción al azar.

&#10148; Si la iteración es de beneficio, el agente elige la mejor acción basada en la tabla-Q actual.

**Actualización de valores**: se lleva a cabo mediante el uso de la ecuación de Bellman: <br>

\begin{split}
    Q_{new}(s,a) = Q(s,a) + \alpha \left\{ R_{t} + \gamma \max Q(s_{t+1},a) - Q(s,a) \right\}
\end{split}

$Q(s,a)$ : valor actual <br>
$\alpha$ : tasa de aprendizaje <br>
$\gamma$ : factor de descuento <br>
$R_{t}$ : recompensa por tomar acción en el estado <br>
$\max Q(s_{t+1},a)$ : estimado del valor óptimo futuro  <br>

En el ejemplo del Robot se podría definir una recompensa de +1 al llegar al potenciador, de -100 al tocar una mina y de +100 al llegar a la meta.

**Optimización**

&#10148; Al principio del entrenamiento el agente toma principalmente acciones para 
explorar el ambiente ($\epsilon$ alto)

&#10148; Luego, el agente comienza más a beneficiarse del ambiente sabiendo las acciones que dan mayor recompensa ($\epsilon$ bajo)

&#10148; Finalmente la tabla-Q podría quedar como sigue:

| E/A | Arriba | Abajo | Izquierda | Derecha |
| --- | --- | --- | --- | --- |
|   Inicio   | 0 | 0 | 0 | 1 |
|   Inactivo   | 0 | 0 | 0 | 1 |
|   Potenciador   | 0 | 20 | 0 | 0 |
|   Mina   | 0 | 2 | 0 | 0 |
|   Fin   | 0 | 5 | 0 | 0 |

# Ejemplo implementación Q-learning


## Caso de análisis
En un tablero el agente debe pasar a buscar un objeto y luego dejarlo en un punto determinado.

Hay 6 posibles acciones que el agente puede realizar.

<center>
    <img src="figures/ex-q-learning-1.png" width="800"/>
</center>

Se definen las siguientes recompensas según los posibles estados:
- Salirse del tablero -10
- Moverse en el tablero -1
- Recoger el objeto erróneamente -10
- Recoger el objeto exitósamente +20
- Dejar el objeto erróneamente -10
- Dejar el objeto exitósamente +20

<center>
    <img src="figures/ex-q-learning-1.png" width="500"/>
</center>

In [1]:
import random
import numpy as np

class Field:
    def __init__(self, size, item_pickup, item_drop_off, start_position):
        self.size = size
        self.item_pickup = item_pickup
        self.item_drop_off = item_drop_off
        self.position = start_position
        self.item_in_car = False
        
    def get_number_of_states(self):
        return self.size*self.size*self.size*self.size*2
    
    def get_state(self):
        state = self.position[0]*self.size*self.size*self.size*2
        state = state + self.position[1]*self.size*self.size*2
        state = state + self.item_pickup[0]*self.size*2
        state = state + self.item_pickup[1]*2
        if self.item_in_car:
            state = state + 1
        return state
        
    def make_action(self, action):
        (x, y) = self.position
        if action == 0:  # Go South
            if y == self.size - 1:
                return -10, False
            else:
                self.position = (x, y + 1)
                return -1, False
        elif action == 1:  # Go North
            if y == 0:
                return -10, False
            else:
                self.position = (x, y - 1)
                return -1, False
        elif action == 2:  # Go East
            if x == 0:
                return -10, False
            else:
                self.position = (x - 1, y)
                return -1, False
        elif action == 3:  # Go West
            if x == self.size - 1:
                return -10, False
            else:
                self.position = (x + 1, y)
                return -1, False
        elif action == 4:  # Pickup item
            if self.item_in_car:
                return -10, False
            elif self.item_pickup != (x, y):
                return -10, False
            else:
                self.item_in_car = True
                return 20, False
        elif action == 5:  # Drop off item
            if not self.item_in_car:
                return -10, False
            elif self.item_drop_off != (x, y):
                self.item_pickup = (x, y)
                self.item_in_car = False
                return -10, False
            else:
                return 20, True

In [2]:
def naive_solution():
    size = 10
    item_start = (0, 0)
    item_drop_off = (9, 9)
    start_position = (0, 9)
    
    field = Field(size, item_start, item_drop_off, start_position)
    done = False
    steps = 0
    
    while not done:
        action = random.randint(0, 5)
        reward, done = field.make_action(action)
        steps = steps + 1
    
    return steps

In [3]:
print( naive_solution() )

35615


In [4]:
runs = [naive_solution() for _ in range(100)]
print(sum(runs)/len(runs))

145056.63


In [5]:
size = 10
item_start = (0, 0)
item_drop_off = (9, 9)
start_position = (0, 9)
field = Field(size, item_start, item_drop_off, start_position)
number_of_states = field.get_number_of_states()
number_of_actions = 6
q_table = np.zeros((number_of_states, number_of_actions))
epsilon = 0.1
alpha = 0.4
gamma = 0.9
for _ in range(1000):
    field = Field(size, item_start, item_drop_off, start_position)
    done = False
    
    while not done:
        state = field.get_state()
        if random.uniform(0, 1) < epsilon:
            action = random.randint(0, 5)
        else:
            action = np.argmax(q_table[state])
            
        reward, done = field.make_action(action)
        
        new_state = field.get_state()
        new_state_max = np.max(q_table[new_state])
        
        q_table[state, action] = q_table[state, action] + alpha*(reward + gamma*new_state_max - q_table[state, action])

In [6]:
def reinforcement_learning():
    epsilon = 0.1
    alpha = 0.4
    gamma = 0.9
    
    field = Field(size, item_start, item_drop_off, start_position)
    done = False
    steps = 0
    
    while not done:
        state = field.get_state()
        if random.uniform(0, 1) < epsilon:
            action = random.randint(0, 5)
        else:
            action = np.argmax(q_table[state])
            
        reward, done = field.make_action(action)
        
        new_state = field.get_state()
        new_state_max = np.max(q_table[new_state])
        
        q_table[state, action] = q_table[state, action] + alpha*(reward + gamma*new_state_max - q_table[state, action])
        steps = steps + 1
    
    return steps

In [7]:
print( reinforcement_learning() )

954


In [8]:
runs_rl = [reinforcement_learning() for _ in range(100)]
print(sum(runs_rl)/len(runs_rl))

2218.65


# Sumario
- En el aprendizaje por refuerzo existe interacción entre un agente y el ambiente.
- El agente aprende las mejores acciones a tomar en base a prueba y error o en base a un modelo que aprende.
- El algoritmo de Q-learning se basa en aprender una tabla con las recompensas a obtener para cada estado y acción.