# OpenAI - Lunar Lander

La plataforma de aterrizaje siempre está en las coordenadas (0,0). Las coordenadas son los dos primeros números en el vector de estado. La recompensa por moverse desde la parte superior de la pantalla a la plataforma de aterrizaje y la velocidad cero es de aproximadamente 100 a 140 puntos. Si el módulo de aterrizaje se aleja de la plataforma de aterrizaje, pierde la recompensa. El episodio termina si el módulo de aterrizaje se estrella o se detiene, recibiendo -100 o +100 puntos adicionales. Cada contacto con el suelo de la pierna es +10. Disparar el motor principal es -0.3 puntos cada cuadro. Resuelto son 200 puntos. Es posible aterrizar fuera de la plataforma de aterrizaje. El combustible es infinito, por lo que un agente puede aprender a volar y luego aterrizar en su primer intento. Cuatro acciones discretas disponibles: no hacer nada, disparar el motor de orientación izquierda, disparar el motor principal, disparar el motor de orientación derecha.


**Este notebook corre en Google Colab**

Observaciones al Ambiente (Estado):

- [0] posicion X
- [1] posicion Y
- [2] velocity horizional
- [3] velocidad vertical
- [4] angulo en el espacio
- [5] velocidad angular

Acciones:

- 0 = no hace nada
- 1 = propulsor izquierdo
- 2 = propulsor principal (abajo)
- 3 = propulsor derecho


https://gym.openai.com/envs/LunarLander-v2/

In [2]:
# Instalacion de dependencias para que pueda correr en Colab

%%bash
# dependencias del sistema
apt-get install -y xvfb x11-utils
# dependencias de Open AI y de Python
pip install gym[box2d]==0.17.* pyvirtualdisplay==0.2.* PyOpenGL==3.1.* PyOpenGL-accelerate==3.1.*

Reading package lists...
Building dependency tree...
Reading state information...
The following additional packages will be installed:
  libxxf86dga1
Suggested packages:
  mesa-utils
The following NEW packages will be installed:
  libxxf86dga1 x11-utils xvfb
0 upgraded, 3 newly installed, 0 to remove and 37 not upgraded.
Need to get 993 kB of archives.
After this operation, 2,982 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/main amd64 libxxf86dga1 amd64 2:1.1.4-1 [13.7 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/main amd64 x11-utils amd64 7.7+3build1 [196 kB]
Get:3 http://archive.ubuntu.com/ubuntu bionic-updates/universe amd64 xvfb amd64 2:1.19.6-1ubuntu4.10 [784 kB]
Fetched 993 kB in 1s (1,032 kB/s)
Selecting previously unselected package libxxf86dga1:amd64.
(Reading database ... 155229 files and directories currently installed.)
Preparing to unpack .../libxxf86dga1_2%3a1.1.4-1_amd64.deb ...
Unpacking libxxf86dga1:amd64 (2:1.1.4-1) ...


In [3]:
import pyvirtualdisplay
import gym
import matplotlib.pyplot as plt
from IPython import display
from matplotlib.pyplot import figure

figure(figsize=(8, 6), dpi=80)

# use False con Xvfb 
_display = pyvirtualdisplay.Display(visible=False, size=(1400, 900))
_ = _display.start()

# Se crea el ambiente
env = gym.make("LunarLander-v2")

<Figure size 640x480 with 0 Axes>

In [13]:
import random 

# aqui se almacenan todas las imagenes de cada paso de la ejecucion...
frames = []

observation = env.reset()
steps = 500

# Desplegar en pantalla (captura inicial del ambiente)
#img = plt.imshow(env.render(mode='rgb_array'))

for t in range(steps):

    # tome una accion aleatoria...
    action = random.randint(1, 3)

    observation, reward, done, info = env.step(action)

    if t % 100 == 0:
      print("Observaciones:", observation)
      print("Reward:", reward)

    # Pantalla
    frame = env.render(mode='rgb_array')
    frames.append(frame)
    #img.set_data(frame) 
    #plt.axis('off')
    #display.display(plt.gcf())
    #display.clear_output(wait=True)

    if done:
        print("Termino!")
        break

Observaciones: [-0.01187992  1.4160676  -0.60757494  0.12174699  0.01274428  0.11885668
  0.          0.        ]
Reward: -2.7813575724229223
Observaciones: [-0.88072276  0.05528077 -1.1932333  -1.3004206   0.42367843 -0.00485008
  0.          1.        ]
Reward: 8.060082076971025
Se estrello!


In [14]:
# se crea una animacion y se despliega como un video.

from matplotlib.animation import FuncAnimation

def update_scene(num, frames, patch):
    patch.set_data(frames[num])
    return patch,

def plot_animation(frames, repeat=False, interval=40):
    fig = plt.figure()
    patch = plt.imshow(frames[0])
    plt.axis('off')
    anim = FuncAnimation(
        fig, update_scene, fargs=(frames, patch),
        frames=len(frames), repeat=repeat, interval=interval)
    plt.close()
    return anim

anim = plot_animation(frames)

from IPython.display import HTML
HTML(anim.to_html5_video())