<figure>
<img src="../Imagenes/logo-final-ap.png"  width="80" height="80" align="left"/> 
</figure>

# <span style="color:blue"><left>Aprendizaje Profundo</left></span>

# <span style="color:red"><center>Introducción al ambiente Gym-CartPole</center></span>

<figure>
<center>
<img src="../Imagenes/curricle.jpg" width="400" height="400" align="center"/>
</center>
</figure>

Fuente [curricle - Wiki commons](https://commons.wikimedia.org/w/index.php?search=cart+pole&title=Special:MediaSearch&go=Go&type=image)

##   <span style="color:blue">Autores</span>

- Alvaro  Montenegro, PhD, ammontenegrod@unal.edu.co
- Daniel  Montenegro, Msc, dextronomo@gmail.com 

##   <span style="color:blue">Asesora Medios y Marketing digital</span>
 

- Maria del Pilar Montenegro, pmontenegro88@gmail.com 

## <span style="color:blue">Referencias</span>

1. [OpenAI Gym - Github](https://github.com/openai/gym)
1. [Alvaro Montenegro y Daniel Montenegro, Inteligencia Artificial y Aprendizaje Profundo, 2021](https://github.com/AprendizajeProfundo/Diplomado)
1. [Maxim Lapan, Deep Reinforcement Learning Hands-On: Apply modern RL methods to practical problems of chatbots, robotics, discrete optimization, web automation, and more, 2nd Edition, 2020](http://library.lol/main/F4D1A90C476A576238E8FE1F47602C67)
1. [Richard S. Sutton, Andrew G. Barto, Reinforcement learning: an introduction, 2nd edition, 2020](http://library.lol/main/6502B74CE247C4CD4D4FB54747AD7C7E)
1. [Praveen Palanisamy - Hands-On Intelligent Agents with OpenAI Gym_ Your Guide to Developing AI Agents Using Deep Reinforcement Learning, 2020](http://library.lol/main/E4FD128CF9B93E0F7A542B053330517A)
1. [Turing Paper 1936](http://www.thocp.net/biographies/papers/turing_oncomputablenumbers_1936.pdf)

## <span style="color:blue">Contenido</span>

* [Introducción](#Introducción)
* [Una sesión con CartPole](#Una-sesión-con-CartPole)
    * [Observaciones en CartPole](#Observaciones-en-CartPole)
    * [Clase Agent](#Clase-Agent)
    * [Ejecución de un episodio](#Ejecución-de-un-episodio)
* [Envolturas para el ambiente (wrappers)](#Envolturas-para-el-ambiente-(wrappers))
    * [Clase RandomActionWrapper](#Clase-RandomActionWrapper)
    * [Corriendo un episodio](#Corriendo-un-episodio)
    * [Ejercicio](#Ejercicio)
    * [Monitor](#Monitor)

## <span style="color:blue">Introducción</span>

<figure>
<center>
<img src="../Imagenes/Ejemplo_polea.gif" width="400" height="300" align="center"/>
</center>
</figure>
<center>Ejemplo CartPole en OpenAI Gym</center>

Fuente [OpenAI Gym](https://gym.openai.com/)

Este primer  ejemplo de OpneAI Gym conocido como *CartPole* es un clásico en la teoría de control. En la animación *gif* arriba, se  observa el objeto de interés. Es un palo, sostenido en la parte inferior por un pasador unido a una base. Ignoramos posibles complicaciones como la fricción. Es decir suponemos que el palo se mueve libremente sobre el pasador. 

Obviamente el palo puede caer muy fácilmente, por lo que el propósito es mover la base hacia la izquierda o hacia la derecha para evitar que el palo caiga. Ese es el problema a resolver. El problema puede ser abordado como un problema de control que lleva a diseñar un modelo en ecuaciones diferenciales. Pero en aprendizaje reforzado buscamos resolver el problema, sin utilizar los conceptos correspondientes de la física . De momento vamos a explorar un poco el  ambiente.

## <span style="color:blue">Una sesión con CartPole</span>

### <span style="color:#4CC9F0">Observaciones en CartPole</span>

In [2]:
# Observaciones del ambiente CartPole
import gym

# crea una instancia del ambiente y lo configura en el estado inicial
e = gym.make('CartPole-v1')
obs = e.reset()
obs

array([-0.04493975,  0.00877326, -0.04641033, -0.01915632], dtype=float32)

El ambiente ha regresado una observación que consiste de una línea cuyos valores corresponden respectivamente a 

* coordenada del centro de masas,
* velocidad,
* ángulo con respecto a la plataforma, y
* velocidad angular.

### <span style="color:#4CC9F0">Clase Agent</span>

El constructor de la clase recibe un ambiente con el cual interactuará. Un objeto *Agent* mantiene la cuenta de la recompensa total recibida, el número de pasos que ha ejecutado en el episodioy la actual observación. El método *action()* solicita al ambiente una acción aleatoria. El método *take_action()* solicita una acción y la entrega al ambiente a través del método *step()* del ambiente. El ambiente regresa la lista conteniendo *[observación, recompensa, is_done, info]*. El último elemento de la lista es un diccionario que en este caso viene vacío. Los demás componentes son obvios.

In [4]:
class Agent:
    """Define una clase Agent básica. 
    lleva la cuenta de la recompensa acumulada"""
    def __init__(self, env):
        self.total_reward = 0.0
        self.total_steps = 0
        self.current_observation = None
        self.env = env
        
        
    def action(self):
        return self.env.action_space.sample()
    
    def take_action(self):
        action = self.action()
        observation, reward, is_done, info = self.env.step(action)
        self.total_reward += reward
        self.current_observation = observation
        self.total_steps += 1
        return is_done
    
    def get_total_reward(self):
        return self.total_reward
    
    def get_current_observation(self):
        return self.current_observation
    
    def get_total_steps(self):
        return self.total_steps
    

### <span style="color:#4CC9F0">Ejecución de un episodio</span>

En este experimento no entrenaremos al agente. Solamente vdeseamos que  interactúe con el ambiente de forma aleatoria. Por ello, no diseñaremos ningún entrenador (*Trainer*).

In [5]:
import gym
# crea el ambiente
env = gym.make('CartPole-v1')

# inicializa el ambiente
_ = env.reset()

# crea el agente y ejecuta una primera acción
agent = Agent(env)
is_done = agent.take_action()
    
while not is_done:
    is_done = agent.take_action()

print("Recompensa total recibida: %.4f" % agent.get_total_reward())
print("Posición final: ", agent.get_current_observation())
print("número de pasos en el episodio", agent.get_total_steps())

Recompensa total recibida: 25.0000
Posición final:  [-0.24828029 -0.54381543  0.21167627  0.93399453]
número de pasos en el episodio 25


## <span style="color:blue">Envolturas para el ambiente (wrappers)</span>

Esta funcionalidad de Gym permite reescribir el comportamiento del ambiente. Observe que la clase *Wrapper* se deriva (envuelve) a la clase Env. Las clases *ObservationWrapper*, *RewardWrapper* y *ActionWrapper*, derivan de Wrapper y permiten extender las respectivas funcionalidades. En general, nosotros implementamos esta clases para hacer modificaciones al comportamiento implementado originalmente en el respectivo ambiente.

<figure>
<center>
<img src="../Imagenes/wrappers.png" width="600" height="600" align="center"/>
</center>
<caption><center>Jerarquía de las clases Wrapper de OpenAI Gym. </center></caption>
</figure>

Fuente: Alvaro Montenegro

Para ejemplificar, vamos a crear una clase derivada de *ActionWrapper* la cual modifica la acción determinada en el ambiente CartPole. La idea es la siguiente.

1. Establecemos un umbral $\epsilon$, que es un número en el intervalo abierto (0.0, 1.0). Por defecto colocaremos $\epsilon=0.1$.
2. Con probabilidad $\epsilon$ cambiamos la acción solicitada por una seleccionada aleatoriamente por el ambiente.
3. Cada vez que se cambie la acción por otra seleccionada por el ambiente en forma aleatoria imprimimos la palabra *Random*, para informar que ocurrió un cambio aleatorio en la elección de la acción.

Veamos:

### <span style="color:#4CC9F0">Clase RandomActionWrapper</span>

In [6]:
import gym
from typing import TypeVar
import random

Action = TypeVar('Action')

class RandomActionWrapper(gym.ActionWrapper):
    def __init__(self, env, epsilon=0.1):
        super(RandomActionWrapper, self).__init__(env)
        self.epsilon = epsilon
    
    def action(self, action: Action) -> Action:
        if random.random() < self.epsilon:
            print('Random!')
            return self.env.action_space.sample()
        return action
        

### <span style="color:#4CC9F0">Corriendo un episodio</span>

In [7]:
# Crea el ambiente con la envoltura RandomActionWrapper
env = RandomActionWrapper(gym.make('CartPole-v1'))

# inicializa el ambiente
_ = env.reset()

# crea el agente y ejecuta una primera acción
agent = Agent(env)
is_done = agent.take_action()
    
while not is_done:
    is_done = agent.take_action()

print("Recompensa total recibida: %.4f" % agent.get_total_reward())
print("Posición final: ", agent.get_current_observation())
print("número de pasos en el episodio", agent.get_total_steps())

Random!
Recompensa total recibida: 15.0000
Posición final:  [-0.16114676 -1.0257902   0.20952614  1.7508649 ]
número de pasos en el episodio 15


Observe que en uno de los 15 pasos la acción entregada por el ambiente fue cambiada por una selección aleatoria de otra acción.

### <span style="color:#4CC9F0">Ejercicio</span>

Escriba un clase que modifique la recompensa. Ejecute el correspondiente episodio.

### <span style="color:#4CC9F0">Monitor</span>

Monitor es un tipo de Wrapper que permite monitorar gráficamente un episodio. Por ejemplo, podemos grabar un episodio en formato mp4.

In [None]:
# conda install -c conda-forge pyglet

In [8]:
# crea el ambiente
from gym import wrappers
env = gym.make("CartPole-v1")
env = gym.wrappers.Monitor(env, "recording")

# inicializa el ambiente
_ = env.reset()

# crea el agente y ejecuta una primera acción
agent = Agent(env)
is_done = agent.take_action()
    
while not is_done:
    is_done = agent.take_action()

print("Recompensa total recibida: %.4f" % agent.get_total_reward())
print("Posición final: ", agent.get_current_observation())
print("número de pasos en el episodio", agent.get_total_steps())


Recompensa total recibida: 11.0000
Posición final:  [ 0.21101531  1.3672142  -0.23490441 -2.1950264 ]
número de pasos en el episodio 11


In [9]:
env.close()
