# CartPole

También conocido como el *problema péndulo invertido*, consiste en un poste, atado a un carro en superficie sin fricción con un centro de gravedad encima de su punto de pivoteo, que requiere ser estabilizado. El objetivo del agente es no dejar caer el poste, aplicando la fuerza apropiada al punto de pivoteo.

El episodio termina cuando el poste se mueve 15º del eje verical o cuando el carro se mueve más de 2.4 unidades del centro.

Para resolver el problema, haremos uso de la biblioteca de *Open AI* ``gym`` donde podemos encontrar el ambiente de Cart Pole junto con una visualización del problema.

In [2]:
import gym
import matplotlib.pyplot as plt
%matplotlib inline

env = gym.make('CartPole-v0')

En el siguiente código se muestra la visualización de un episodio donde se toman acciones aleatorias:

In [1]:
import gym
env.reset()

for _ in range(500):
    action = env.action_space.sample()
    obs, reward, done, info = env.step(action)
    env.render()



## Observaciones y acciones

El Cart Pole tiene cuatro observaciones que se me muestran en la siguiente tabla:

|Num| Observation         |Min |Max |
|---|---------------------|----|----|
| 0 | Cart position       |-4.8| 4.8|
| 1 | Cart velocity       |-Inf| Inf|
| 2 | Pole angle          |-24º| 24º|
| 3 | Pole velocity at tip|-Inf| Inf|

Al iniciar el ambiente, se obtine un vector de observaciones como se muestra a continuación:

In [7]:
obs = env.reset()
obs

array([-0.04173305, -0.03951904, -0.01593346,  0.03068002])

Son dos acciones posibles las que se pueden tomar en este pronblema como se muestra a continuación:

|Num|Action                |
|---|----------------------|
| 0 |Push cart to the left |
| 1 |Push cart to the right|

In [6]:
env.action_space

Discrete(2)

A apartir de cada accion que se ejecuta, es decir por cada ``step`` que realizamos recibimos información proporcionada por el ambiente  como se muestra a continuación:

In [8]:
env.step(0) 

(array([-0.04252343, -0.23440891, -0.01531985,  0.31829349]), 1.0, False, {})

La información que nos proporciona es la siguiente:


*   Un vector que representa a las observaciones.
*   Una recompensa de valor  $1.0$.
*   La señal  ``done flag = False``, que significa que el episodio no ha terminado.
*   ``info`` ¿Un diccionario vacío?


In [9]:
env.action_space.sample() 

1

In [10]:
env.observation_space.sample()

array([-3.4710703e+00, -2.8120660e+38,  2.3025870e-01, -9.8757861e+37],
      dtype=float32)

El código anterior nos da una muetra como usar el método ``sample()`` de la clase ``Space``sobre ``action_space`` y ``observation_space``,  lo que hace es tomar de forma aleatoria acciones y observaciones, respectivamente. En particular tomar acciones de forma aleatoria es de gran utilidad cuando no se sabe como actuar para tener un mejor desempeño.

## The random CartPole agent

El siguiente código muetra como inicializar un agente que se comporte de forma aleatoria, en este caso no son relavantes las observaciones.

In [11]:
if __name__ == "__main__":
    total_reward = 0.0
    total_steps = 0
    obs = env.reset()
    while True:
        action = env.action_space.sample()
        obs, reward, done, _ = env.step(action)
        total_reward += reward 
        total_steps += 1
        if done:
            break
    
    print("Episodio terminado en %d pasos con recompensa de % .2f" % (total_steps, total_reward))

Episodio terminado en 20 pasos con recompensa de  20.00


## Cross-entropy on CartPole 

El método de *cross entropy* aplicado a Reinforcement Learning se clasifica como *model-free* y *policy-based*. Recordemos que los métodos en RL se pueden clasificar de la siguiente manera:

* *Model-free* o *model-based*: La diferencia radica en que el primero toma las observaciones actuales para tomar una acción, por el

* *Value-based* o *policy-based*
* *On-policy* o *off-policy*


In [13]:
import torch.nn as nn 

HIDDEN_SIZE = 128
BATCH_SIZE = 16
PERCENTILE = 70

ModuleNotFoundError: No module named 'torch'

In [None]:
class Net(nn.Module):
    def __init__(self, obs_size, hidden_size, n_actions):
        super(Net, self).__init__()
        self.net = nn.Sequential(
            nn.Linear(obs_size, hidden_size), 
            nn.ReLU(),
            nn.Linear(hidden_size, n_actions)
        )
        
    def forward(self, x):
        return self.net(x)