# Introducción al Aprendizaje por Refuerzos

* Introducción

5to año - Ingeniería en Sistemas de Información

Facultad Regional Villa María

## Introducción

En la presente clase vamos a introducir algunas de las herramientas disponibles para trabajar con aprendizaje por refuerzos (RL). A nivel de implementación, a diferencia de lo que sucede con el aprendizaje supervisado y no supervisado, RL resulta más complejo porque su implementación depende mucho del dominio del problema.

Esto se debe a que en RL no realizamos el aprendizaje a partir de datasets fijos sino por medio de la interacción con el entorno, el cual puede ser real o simulado. El "dataset" en RL está dado por las trazas de ejecución

$$T_0 = (s_{00}, a_{00}, r_{01}, s_{01}, a_{01}, \dots, r_{0t}, s_{0t})$$
$$T_1 = (s_{10}, a_{10}, r_{11}, s_{11}, a_{11}, \dots, r_{1r}, s_{1r})$$
$$\dots$$
$$T_N = (\dots)$$



Pese a su complejidad, existen una serie de librerías tanto de entornos como de agentes que nos permiten empezar a entrenar nuestros algoritmos de arranque.

## Ejemplo: Librería OpenAI Gym

[OpenAI Gym](https://gym.openai.com/) (Brockman et. al., 2016) es una librería de OpenAI que ofrece entornos y una interfaz estándar con la cuál probar nuestros agentes. Su objetivo es proveer benchmarks unificados para ver el desempeño de algoritmos en el entorno y así poder saber con facilidad cómo es su desempeño comparado con los demás. Parte de la siguiente sección está basada en la documentación oficial de OpenAI.

Vamos a instalar el gym...

In [1]:
# vamos a instalar el gym

try:
    from pip import main as pipmain
except:
    from pip._internal import main as pipmain

from IPython.display import clear_output

pipmain(['install', 'gym'])
clear_output()

La interfaz principal de los ambientes de gym es la interfaz Env. La misma posee tres métodos principales (info. basada en la documentación oficial de Gym):


    reset(self): Reinicia el estado del entorno, a su estado inicial, devolviendo una observación de dicho estado.
    step(self, action): "Avanza" un timestep del ambiente. Devuelve: observation, reward, done, info.
    render(self): Muestra en pantalla una parte del ambiente.
    close(self): Finaliza con la instancia del agente.
    seed(self): Establece la semilla aleatoria del generador de números aleatorios del presente entorno.


Por otra parte, cada entorno posee los siguientes tres atributos principales:

    action_space: El objeto de tipo Space correspondiente al espacio de acciones válidas.
    observation_space: El objeto de tipo Space correspondiente a todos los rangos posibles de observaciones.
    reward_range: Tupla que contiene los valores mínimo y máximo de recompensa posible.

In [11]:
import gym
env = gym.make('CartPole-v0')
env.reset()
for _ in range(1000):
    env.render()
    observation, reward, done, info = env.step(env.action_space.sample()) # se ejecuta una acción aleatoria
    if done:
        env.reset()
env.close()

[33mWARN: gym.spaces.Box autodetected dtype as <class 'numpy.float32'>. Please provide explicit dtype.[0m


In [6]:
clear_output()
env = gym.make('MountainCar-v0')
for i_episode in range(20):
    observation = env.reset()
    for t in range(100):
        env.render()
        print(observation)
        action = env.action_space.sample()
        observation, reward, done, info = env.step(action)
        if done:
            print("Episode finished after {} timesteps".format(t+1))
            break
env.close()
clear_output()

In [4]:
print(env.action_space)

Discrete(3)


## Optimización de híper-parámetros de RL

Optimizar los híper-parámetros $\theta$ en algoritmos de aprendizaje por refuerzos es un desafío considerable, debido a que de los mismos depende la generación de .

Ray RLlib

http://ray.readthedocs.io/en/latest/rllib.html

## Trabajo práctico 6

###

### Ejercicios extra

https://github.com/devsisters/DQN-tensorflow

In [None]:
import numpy as np
import cart_pole_tabular_agent.CartPoleTabularAgent as cP

random_state = np.random.RandomState(20)
cutoff_time = 200

agent = cP.CartPoleTabularAgent()
agent.display_video = True

seed_agent = True
if seed_agent:
    agent.set_random_state(random_state)

agent.set_cutoff_time(cutoff_time)

# sets the function used to calculate f(theta)
agent._measure_function = agent.calculate_f_steps_of_episode_measure
agent.init_agent()

agent.restart_agent_learning()
agent.run(100)

