# **Lunar Lander con Q-Learning**

### **1. Bibliotecas**

In [1]:
import sys
import gymnasium as gym
import numpy as np
import matplotlib.pyplot as plt
from collections import deque
import random

### **2. Jugando a mano**

A continuación se puede jugar un episodio del lunar lander. Se controlan los motores con el teclado. Notar que solo se puede realizar una acción a la vez (que es parte del problema), y que en esta implementación, izq toma precedencia sobre derecha, que toma precedencia sobre el motor principal.

In [2]:
import pygame
from pygame.locals import *

# Inicializar pygame (para el contro|l con el teclado) y el ambiente
pygame.init()
env = gym.make('LunarLander-v2', render_mode='human')
env.reset()
pygame.display.set_caption('Lunar Lander')

clock = pygame.time.Clock()
done = False

while not done:
    for event in pygame.event.get():
        if event.type == QUIT:
            done = True
            break

    keys = pygame.key.get_pressed()

    # Map keys to actions
    if keys[K_LEFT]:
        action = 3  # Fire left orientation engine
    elif keys[K_RIGHT]:
        action = 1 # Fire right orientation engine
    elif keys[K_UP]:
        action = 2  # Fire main engine
    else:
        action = 0  # Do nothing

    _, _, terminated, truncated, _ = env.step(action)
    env.render()
    clock.tick(10)

    if terminated or truncated:
        done = True

env.close()
pygame.quit()

## **3. Discretizando el estado**

El estado consiste de posiciones y velocidades en (x,y,theta) y en información de contacto de los pies con la superficie.

Como varios de estos son continuos, tenemos que discretizarlos para aplicar nuestro algoritmo de aprendizaje por refuerzo tabular.

In [3]:
# Cuántos bins queremos por dimensión
# Pueden considerar variar este parámetro
bins_per_dim = 20

# Estado:
# (x, y, x_vel, ely_v, theta, theta_vel, pie_izq_en_contacto, pie_derecho_en_contacto)
NUM_BINS = [bins_per_dim, bins_per_dim, bins_per_dim, bins_per_dim, bins_per_dim, bins_per_dim, 2, 2]

env = gym.make('LunarLander-v2')
env.reset()

# Tomamos los rangos del env
OBS_SPACE_HIGH = env.observation_space.high
OBS_SPACE_LOW = env.observation_space.low
OBS_SPACE_LOW[1] = 0 # Para la coordenada y (altura), no podemos ir más abajo que la zona dea aterrizae (que está en el 0, 0)

# Los bins para cada dimensión
bins = [
    np.linspace(OBS_SPACE_LOW[i], OBS_SPACE_HIGH[i], NUM_BINS[i] - 1)
    for i in range(len(NUM_BINS) - 2) # last two are binary
]
# Se recomienda observar los bins para entender su estructura
#print ("Bins: ", bins)

def discretize_state(state, bins):
    """Discretize the continuous state into a tuple of discrete indices."""
    state_disc = list()
    for i in range(len(state)):
        if i >= len(bins):  # For binary features (leg contacts)
            state_disc.append(int(state[i]))
        else:
            state_disc.append(
                np.digitize(state[i], bins[i])
            )
    return tuple(state_disc)

In [4]:
# Ejemplos
print(discretize_state([0.0, 0.0, 0, 0, 0, 0, 1, 1], bins)) # En la zona de aterrizaje y quieto
print(discretize_state([0, 1.5, 0, 0, 0, 0, 0, 0], bins)) # Comenzando la partida, arriba y en el centro

(np.int64(10), np.int64(1), np.int64(10), np.int64(10), np.int64(10), np.int64(10), 1, 1)
(np.int64(10), np.int64(19), np.int64(10), np.int64(10), np.int64(10), np.int64(10), 0, 0)


## **4. Agentes y la interacción con el entorno**

Vamos a definir una interfaz para nuestro agente:

In [5]:
class Agente:
    def elegir_accion(self, estado, max_accion, explorar = True) -> int:
        """Elegir la accion a tomar en el estado actual y el espacio de acciones
            - estado_anterior: el estado desde que se empezó
            - estado_siguiente: el estado al que se llegó
            - accion: la acción que llevo al agente desde estado_anterior a estado_siguiente
            - recompensa: la recompensa recibida en la transicion
            - terminado: si el episodio terminó
        """
        pass

    def aprender(self, estado_anterior, estado_siguiente, accion, recompensa, terminado):
        """Aprender a partir de la tupla 
            - estado_anterior: el estado desde que se empezó
            - estado_siguiente: el estado al que se llegó
            - accion: la acción que llevo al agente desde estado_anterior a estado_siguiente
            - recompensa: la recompensa recibida en la transicion
            - terminado: si el episodio terminó en esta transición
        """
        pass
    def fin_episodio(self):
        """Actualizar estructuras al final de un episodio"""
        pass


Para un agente aleatorio, la implementación sería:

In [6]:
import random

class AgenteAleatorio(Agente):
    def elegir_accion(self, estado, max_accion, explorar = True) -> int:
        # Elige una acción al azar
        return random.randrange(max_accion)

    def aprender(self, estado_anterior, estado_siguiente, accion, recompensa, terminado):
        # No aprende
        pass

Luego podemos definir una función para ejecutar un episodio con un agente dado:

In [7]:
def ejecutar_episodio(agente, aprender = True, render = None, max_iteraciones=500):
    entorno = gym.make('LunarLander-v2').env

    iteraciones = 0
    recompensa_total = 0

    termino = False
    truncado = False
    estado_anterior, info = entorno.reset()
    while iteraciones < max_iteraciones and not termino and not truncado:
        # Le pedimos al agente que elija entre las posibles acciones (0..entorno.action_space.n)
        accion = agente.elegir_accion(estado_anterior, entorno.action_space.n, not aprender)
        # Realizamos la accion
        estado_siguiente, recompensa, termino, truncado, info = entorno.step(accion)
        # Le informamos al agente para que aprenda
        if (aprender):
            agente.aprender(estado_anterior, estado_siguiente, accion, recompensa, termino)

        estado_anterior = estado_siguiente
        iteraciones += 1
        recompensa_total += recompensa
    if (aprender):
        agente.fin_episodio()
    entorno.close()

    return recompensa_total

In [8]:
# Nota: hay que transformar esta celda en código para ejecutar (Esc + y)

# Ejecutamos un episodio con el agente aleatorio y modo render 'human', para poder verlo
ejecutar_episodio(AgenteAleatorio(), render = 'human')

np.float64(-433.0707472229256)

Podemos ejecutar este ambiente muchas veces y tomar métricas al respecto

In [9]:
agente = AgenteAleatorio()
recompensa_episodios = []

exitos = 0
num_episodios = 100
for i in range(num_episodios):
    recompensa = ejecutar_episodio(agente)
    # Los episodios se consideran exitosos si se obutvo 200 o más de recompensa total
    if (recompensa >= 200):
        exitos += 1
    recompensa_episodios += [recompensa]

import numpy
print(f"Tasa de éxito: {exitos / num_episodios}. Se obtuvo {numpy.mean(recompensa_episodios)} de recompensa, en promedio")

Tasa de éxito: 0.0. Se obtuvo -184.9525852756085 de recompensa, en promedio


### **5. Programando un agente que aprende**

La tarea a realizar consiste en programar un agente de aprendizaje por refuerzos:

In [10]:
import numpy as np
import random

class AgenteRL(Agente):
    def __init__(self, bins, num_acciones, episodios, epsilon=1.0, epsilon_min=0.1):
        super().__init__()
        self.epsilon = epsilon  # Factor de exploración
        self.epsilon_min = epsilon_min  # Valor mínimo de epsilon
        self.bins = bins  # Bins para discretizar el estado
        self.q_table = np.zeros((*[len(b) + 1 for b in bins], 2, 2, num_acciones))  # Q-table
        self.visit_counts = np.zeros_like(self.q_table)  # Tabla para contar visitas de estado-acción
        self.epsilon_decay = self.epsilon_min**(1/episodios)  # Decaimiento de epsilon
        print(self.epsilon_decay)
    def elegir_accion(self, estado, max_accion, explorar=True) -> int:
        # Discretizamos el estado antes de elegir una acción
        estado_discreto = discretize_state(estado, self.bins)
        
        # Política epsilon-greedy para elegir acción
        if explorar and np.random.rand() < self.epsilon:
            # Explorar: elige una acción aleatoria
            return np.random.randint(max_accion)
        else:
            # Explotar: elige la acción con el mayor valor Q para el estado actual
            return np.argmax(self.q_table[estado_discreto])

    def aprender(self, estado_anterior, estado_siguiente, accion, recompensa, terminado):
        # Discretizamos los estados antes de actualizar la Q-table
        estado_anterior_discreto = discretize_state(estado_anterior, self.bins)
        estado_siguiente_discreto = discretize_state(estado_siguiente, self.bins)
        
        # Incrementamos el contador de visitas para el par (estado, acción)
        self.visit_counts[estado_anterior_discreto + (accion,)] += 1
        
        # Calculamos alpha dinámicamente como 1 / número de visitas
        visitas = self.visit_counts[estado_anterior_discreto + (accion,)]
        alpha = 1 / visitas
        
        # Actualiza la Q-table usando la ecuación de Q-Learning
        max_accion_siguiente = np.max(self.q_table[estado_siguiente_discreto])  # Mejor acción posible en el siguiente estado
        q_actual = self.q_table[estado_anterior_discreto + (accion,)]  # Valor actual de Q para el estado y la acción
        
        # Si el episodio terminó, no hay valor futuro, de lo contrario aplicamos la ecuación de Bellman
        if terminado:
            q_nuevo = recompensa  # Si terminó, la recompensa es lo único que importa
        else:
            q_nuevo = recompensa + max_accion_siguiente  # Bellman update

        # Actualizamos la Q-table con el nuevo valor Q
        self.q_table[estado_anterior_discreto + (accion,)] += alpha * (q_nuevo - q_actual)

        # Reducimos epsilon para que exploremos menos con el tiempo (decaimiento)


    def fin_episodio(self):
        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay
        # Función que se llama al final de cada episodio para realizar tareas adicionales si es necesario
        pass


Y ejecutar con el muchos episodios:

In [None]:
# Nota: hay que transformar esta celda en código para ejecutar (Esc + y)
# Advertencia: este bloque es un loop infinito si el agente se deja sin implementar
from tqdm import tqdm 
entorno = gym.make('LunarLander-v2').env
num_episodios = 100000
agente = AgenteRL(bins=bins, num_acciones=entorno.action_space.n, episodios=num_episodios)
exitos = 0
recompensa_episodios = []
with tqdm(total=num_episodios) as pbar:
    for i in range(num_episodios):
        recompensa = ejecutar_episodio(agente)
        if (recompensa >= 200):
            print(f"Episodio {i} exitoso, recompensa: {recompensa}, Se obtuvo {numpy.mean(recompensa_episodios)} de recompensa, en promedio")
            exitos += 1
        recompensa_episodios += [recompensa]
        pbar.set_postfix(recompensa=recompensa, promedio=numpy.mean(recompensa_episodios))
        pbar.update(1)
print(f"Tasa de éxito: {exitos / num_episodios}. Se obtuvo {numpy.mean(recompensa_episodios)} de recompensa, en promedio")

0.9999769744141629


  1%|          | 890/100000 [00:28<58:49, 28.08it/s, promedio=-155, recompensa=-89.2]  

Episodio 883 exitoso, recompensa: 260.628244432988, Se obtuvo -155.48702700562959 de recompensa, en promedio


  2%|▏         | 1779/100000 [00:58<57:45, 28.34it/s, promedio=-143, recompensa=-118]    

Episodio 1773 exitoso, recompensa: 222.7882646133673, Se obtuvo -143.42896457746983 de recompensa, en promedio


  3%|▎         | 3322/100000 [01:50<55:22, 29.10it/s, promedio=-132, recompensa=23.9]   

Episodio 3316 exitoso, recompensa: 210.95005426873064, Se obtuvo -132.00566050969152 de recompensa, en promedio


  4%|▎         | 3551/100000 [01:57<54:28, 29.50it/s, promedio=-130, recompensa=-128]   

Episodio 3544 exitoso, recompensa: 220.81082127363996, Se obtuvo -130.52328107255624 de recompensa, en promedio


  6%|▌         | 6206/100000 [03:26<58:58, 26.51it/s, promedio=-124, recompensa=-226]   

Episodio 6202 exitoso, recompensa: 226.4380553175409, Se obtuvo -124.02036021172115 de recompensa, en promedio


  7%|▋         | 6726/100000 [03:43<49:20, 31.51it/s, promedio=-123, recompensa=47]     

Episodio 6719 exitoso, recompensa: 218.32306680926513, Se obtuvo -122.75301252993245 de recompensa, en promedio


  8%|▊         | 8207/100000 [04:33<58:40, 26.07it/s, promedio=-120, recompensa=-204]   

Episodio 8202 exitoso, recompensa: 261.11290830800544, Se obtuvo -120.43755829251631 de recompensa, en promedio


  9%|▊         | 8733/100000 [04:51<56:19, 27.01it/s, promedio=-120, recompensa=-113]    

Episodio 8727 exitoso, recompensa: 234.5316955642149, Se obtuvo -119.65546249487139 de recompensa, en promedio


  9%|▉         | 8990/100000 [05:00<54:52, 27.64it/s, promedio=-119, recompensa=-102] 

Episodio 8985 exitoso, recompensa: 253.95209562363542, Se obtuvo -119.05292304594582 de recompensa, en promedio
Episodio 8987 exitoso, recompensa: 256.48345652473586, Se obtuvo -119.00267228886298 de recompensa, en promedio


 10%|▉         | 9637/100000 [05:22<45:42, 32.95it/s, promedio=-118, recompensa=-309]   

Episodio 9632 exitoso, recompensa: 232.27127306624885, Se obtuvo -118.20078403529916 de recompensa, en promedio


 10%|▉         | 9738/100000 [05:26<50:55, 29.54it/s, promedio=-118, recompensa=-77.7]  

Episodio 9731 exitoso, recompensa: 257.82496405131917, Se obtuvo -118.07757600925456 de recompensa, en promedio


 10%|▉         | 9807/100000 [05:28<58:17, 25.79it/s, promedio=-118, recompensa=-140]   

Episodio 9802 exitoso, recompensa: 262.36763482793503, Se obtuvo -117.91348523589343 de recompensa, en promedio


 10%|█         | 10216/100000 [05:43<55:26, 26.99it/s, promedio=-118, recompensa=-103]   

Episodio 10211 exitoso, recompensa: 244.34750234238163, Se obtuvo -117.78227540686379 de recompensa, en promedio


 11%|█         | 10742/100000 [06:00<45:22, 32.79it/s, promedio=-117, recompensa=-84.1]   

Episodio 10736 exitoso, recompensa: 238.95115931212933, Se obtuvo -117.22059983795648 de recompensa, en promedio


 11%|█▏        | 11488/100000 [06:27<1:01:45, 23.89it/s, promedio=-116, recompensa=-74.5]

Episodio 11483 exitoso, recompensa: 233.69962019463284, Se obtuvo -116.2204944204511 de recompensa, en promedio


 12%|█▏        | 12294/100000 [06:56<46:19, 31.55it/s, promedio=-116, recompensa=-89.4]  

Episodio 12288 exitoso, recompensa: 237.28914888130885, Se obtuvo -115.58214041754457 de recompensa, en promedio


 13%|█▎        | 13272/100000 [07:29<53:54, 26.82it/s, promedio=-115, recompensa=-36.3]  

Episodio 13266 exitoso, recompensa: 220.21787193915358, Se obtuvo -115.15700173490767 de recompensa, en promedio


 13%|█▎        | 13362/100000 [07:33<55:38, 25.95it/s, promedio=-115, recompensa=-91.8]

Episodio 13357 exitoso, recompensa: 275.6089661399514, Se obtuvo -115.02700588034507 de recompensa, en promedio


 14%|█▍        | 13755/100000 [07:47<55:08, 26.07it/s, promedio=-115, recompensa=59.9]   

Episodio 13750 exitoso, recompensa: 247.8407610217761, Se obtuvo -114.97501275985444 de recompensa, en promedio


 14%|█▍        | 13810/100000 [07:49<47:26, 30.28it/s, promedio=-115, recompensa=-269] 

Episodio 13804 exitoso, recompensa: 244.32702585036031, Se obtuvo -114.85698821515734 de recompensa, en promedio


 14%|█▍        | 14211/100000 [08:03<52:09, 27.41it/s, promedio=-115, recompensa=-73.3]  

Episodio 14205 exitoso, recompensa: 205.11746692826853, Se obtuvo -114.59426316726092 de recompensa, en promedio


 14%|█▍        | 14408/100000 [08:10<1:02:30, 22.82it/s, promedio=-114, recompensa=-287] 

Episodio 14403 exitoso, recompensa: 207.43263232908816, Se obtuvo -114.320692512008 de recompensa, en promedio


 15%|█▍        | 14755/100000 [08:23<49:55, 28.46it/s, promedio=-114, recompensa=-135]   

Episodio 14750 exitoso, recompensa: 220.83303757515932, Se obtuvo -114.12996983057515 de recompensa, en promedio


 15%|█▌        | 15300/100000 [08:42<51:38, 27.34it/s, promedio=-114, recompensa=-59.7]  

Episodio 15296 exitoso, recompensa: 213.484646873455, Se obtuvo -113.78580932262686 de recompensa, en promedio


 15%|█▌        | 15337/100000 [08:44<52:11, 27.04it/s, promedio=-114, recompensa=-250] 

Episodio 15332 exitoso, recompensa: 257.66952215292486, Se obtuvo -113.73785415197041 de recompensa, en promedio


 16%|█▌        | 15878/100000 [09:03<48:04, 29.16it/s, promedio=-113, recompensa=-50.2]  

Episodio 15873 exitoso, recompensa: 247.71233204639316, Se obtuvo -113.47437069536366 de recompensa, en promedio


 16%|█▌        | 16189/100000 [09:14<49:41, 28.11it/s, promedio=-113, recompensa=-129]   

Episodio 16184 exitoso, recompensa: 267.43765378065615, Se obtuvo -113.15246989516628 de recompensa, en promedio


 17%|█▋        | 16727/100000 [09:33<53:13, 26.07it/s, promedio=-113, recompensa=-44.8]  

Episodio 16722 exitoso, recompensa: 250.1396817408288, Se obtuvo -112.85209108650065 de recompensa, en promedio


 17%|█▋        | 16886/100000 [09:39<49:00, 28.26it/s, promedio=-113, recompensa=-90.3]  

Episodio 16879 exitoso, recompensa: 226.5002365365529, Se obtuvo -112.75306898774187 de recompensa, en promedio


 17%|█▋        | 17407/100000 [09:58<44:18, 31.07it/s, promedio=-112, recompensa=-50]   

Episodio 17401 exitoso, recompensa: 223.92182733060653, Se obtuvo -112.48423384896128 de recompensa, en promedio


 17%|█▋        | 17498/100000 [10:01<55:22, 24.83it/s, promedio=-112, recompensa=-88.7] 

Episodio 17494 exitoso, recompensa: 216.69030927235724, Se obtuvo -112.40521763205994 de recompensa, en promedio


 18%|█▊        | 17561/100000 [10:04<48:20, 28.43it/s, promedio=-112, recompensa=9.37] 

Episodio 17555 exitoso, recompensa: 260.8761363142298, Se obtuvo -112.32589380012814 de recompensa, en promedio


 18%|█▊        | 18256/100000 [10:29<46:15, 29.45it/s, promedio=-112, recompensa=-129]   

Episodio 18250 exitoso, recompensa: 269.7115322531773, Se obtuvo -112.06884157102958 de recompensa, en promedio


 19%|█▊        | 18515/100000 [10:38<47:00, 28.89it/s, promedio=-112, recompensa=-107] 

Episodio 18508 exitoso, recompensa: 216.2770496576975, Se obtuvo -111.9791642303 de recompensa, en promedio


 19%|█▉        | 19190/100000 [11:02<43:44, 30.79it/s, promedio=-112, recompensa=-7.73]  

Episodio 19184 exitoso, recompensa: 250.6154999224641, Se obtuvo -111.57947121909723 de recompensa, en promedio


 19%|█▉        | 19242/100000 [11:04<48:47, 27.58it/s, promedio=-112, recompensa=-10.4]

Episodio 19236 exitoso, recompensa: 233.42957589969737, Se obtuvo -111.55236487925299 de recompensa, en promedio


 21%|██        | 20561/100000 [11:54<49:26, 26.78it/s, promedio=-111, recompensa=-82.3]  

Episodio 20555 exitoso, recompensa: 231.74557973408395, Se obtuvo -111.19002229848785 de recompensa, en promedio


 21%|██        | 20852/100000 [12:04<44:19, 29.76it/s, promedio=-111, recompensa=-119]   

Episodio 20848 exitoso, recompensa: 246.82725929089756, Se obtuvo -111.11538334964801 de recompensa, en promedio


 21%|██        | 20872/100000 [12:05<40:58, 32.19it/s, promedio=-111, recompensa=-78.9] 

Episodio 20866 exitoso, recompensa: 233.5402725395008, Se obtuvo -111.0636585277461 de recompensa, en promedio


 21%|██        | 20948/100000 [12:07<42:37, 30.91it/s, promedio=-111, recompensa=-64.4]

Episodio 20941 exitoso, recompensa: 228.0991114024607, Se obtuvo -111.06065594547997 de recompensa, en promedio


 21%|██        | 21249/100000 [12:19<53:31, 24.52it/s, promedio=-111, recompensa=-41.8] 

Episodio 21243 exitoso, recompensa: 202.30929426021447, Se obtuvo -110.90883891842071 de recompensa, en promedio


 22%|██▏       | 21820/100000 [12:41<49:44, 26.19it/s, promedio=-111, recompensa=-121]   

Episodio 21814 exitoso, recompensa: 266.08334799174474, Se obtuvo -110.74037841676872 de recompensa, en promedio


 23%|██▎       | 22591/100000 [13:09<49:46, 25.92it/s, promedio=-111, recompensa=-333] 

Episodio 22586 exitoso, recompensa: 277.8762601767337, Se obtuvo -110.56392750029276 de recompensa, en promedio


 23%|██▎       | 22610/100000 [13:10<46:32, 27.71it/s, promedio=-111, recompensa=-54]  

Episodio 22605 exitoso, recompensa: 262.85260850529244, Se obtuvo -110.55194423023467 de recompensa, en promedio


 23%|██▎       | 23094/100000 [13:28<50:21, 25.45it/s, promedio=-110, recompensa=-146]   

Episodio 23090 exitoso, recompensa: 220.32468120835804, Se obtuvo -110.43356420603705 de recompensa, en promedio


 23%|██▎       | 23222/100000 [13:33<53:02, 24.13it/s, promedio=-110, recompensa=-105] 

Episodio 23218 exitoso, recompensa: 267.70108389044697, Se obtuvo -110.40982864314422 de recompensa, en promedio


 24%|██▍       | 24274/100000 [14:12<46:00, 27.44it/s, promedio=-110, recompensa=-104] 

Episodio 24268 exitoso, recompensa: 229.2589099489195, Se obtuvo -110.15765064500624 de recompensa, en promedio


 25%|██▌       | 25288/100000 [14:48<40:59, 30.38it/s, promedio=-110, recompensa=-95.2] 

Episodio 25281 exitoso, recompensa: 220.2549718440203, Se obtuvo -110.04713390021038 de recompensa, en promedio


 25%|██▌       | 25360/100000 [14:51<41:48, 29.76it/s, promedio=-110, recompensa=-90.4]

Episodio 25354 exitoso, recompensa: 247.95637412447422, Se obtuvo -110.02274317255727 de recompensa, en promedio


 25%|██▌       | 25449/100000 [14:54<40:59, 30.32it/s, promedio=-110, recompensa=-63.9]

Episodio 25443 exitoso, recompensa: 204.83365830384946, Se obtuvo -109.99655058925651 de recompensa, en promedio


 26%|██▌       | 25651/100000 [15:01<43:04, 28.77it/s, promedio=-110, recompensa=-120]  

Episodio 25646 exitoso, recompensa: 205.29777616294524, Se obtuvo -109.93256088334773 de recompensa, en promedio


 27%|██▋       | 27066/100000 [15:53<38:24, 31.65it/s, promedio=-110, recompensa=-77]   

Episodio 27060 exitoso, recompensa: 260.1118468376093, Se obtuvo -109.6051022261919 de recompensa, en promedio


 27%|██▋       | 27274/100000 [16:01<42:05, 28.80it/s, promedio=-110, recompensa=25.7] 

Episodio 27269 exitoso, recompensa: 251.4293648950944, Se obtuvo -109.566988966479 de recompensa, en promedio


 27%|██▋       | 27460/100000 [16:07<43:19, 27.90it/s, promedio=-110, recompensa=-188] 

Episodio 27455 exitoso, recompensa: 203.98929182908574, Se obtuvo -109.52230635272961 de recompensa, en promedio


 28%|██▊       | 28195/100000 [16:34<46:06, 25.96it/s, promedio=-109, recompensa=-114]  

Episodio 28190 exitoso, recompensa: 239.15223593814937, Se obtuvo -109.4591615230698 de recompensa, en promedio


 29%|██▊       | 28656/100000 [16:52<40:59, 29.01it/s, promedio=-109, recompensa=-68.7]

Episodio 28649 exitoso, recompensa: 247.96175332801903, Se obtuvo -109.35689344627806 de recompensa, en promedio


 31%|███       | 31041/100000 [18:20<46:00, 24.98it/s, promedio=-109, recompensa=-42.3]   

Episodio 31037 exitoso, recompensa: 243.6535877200297, Se obtuvo -109.2200066945919 de recompensa, en promedio


 31%|███▏      | 31453/100000 [18:37<44:56, 25.42it/s, promedio=-109, recompensa=-297] 

Episodio 31449 exitoso, recompensa: 249.42083710544387, Se obtuvo -109.19140251536938 de recompensa, en promedio


 33%|███▎      | 33116/100000 [19:37<36:40, 30.40it/s, promedio=-109, recompensa=-73.6]  

Episodio 33109 exitoso, recompensa: 263.04506365591635, Se obtuvo -109.06820507215413 de recompensa, en promedio


 34%|███▎      | 33702/100000 [19:58<41:20, 26.73it/s, promedio=-109, recompensa=-59.2]

Episodio 33695 exitoso, recompensa: 256.8890894404929, Se obtuvo -109.05589459819728 de recompensa, en promedio


 34%|███▍      | 33876/100000 [20:05<42:41, 25.81it/s, promedio=-109, recompensa=-128] 

Episodio 33871 exitoso, recompensa: 223.52802542887426, Se obtuvo -109.01598767858079 de recompensa, en promedio


 34%|███▍      | 34070/100000 [20:13<40:10, 27.36it/s, promedio=-109, recompensa=-119]  

Episodio 34064 exitoso, recompensa: 247.37652985574871, Se obtuvo -109.03149640393394 de recompensa, en promedio


 35%|███▍      | 34577/100000 [20:32<37:26, 29.12it/s, promedio=-109, recompensa=-68.7] 

Episodio 34571 exitoso, recompensa: 255.44551537042383, Se obtuvo -108.94861911209217 de recompensa, en promedio


 35%|███▌      | 35288/100000 [20:59<45:46, 23.56it/s, promedio=-109, recompensa=-186] 

Episodio 35283 exitoso, recompensa: 217.46714817769703, Se obtuvo -108.86153218747673 de recompensa, en promedio


 35%|███▌      | 35430/100000 [21:04<46:11, 23.30it/s, promedio=-109, recompensa=-28.2] 

Episodio 35425 exitoso, recompensa: 251.28343658873928, Se obtuvo -108.83890897851356 de recompensa, en promedio


 36%|███▌      | 35714/100000 [21:15<44:33, 24.05it/s, promedio=-109, recompensa=-145]  

Episodio 35710 exitoso, recompensa: 261.7391850123091, Se obtuvo -108.78138726545698 de recompensa, en promedio


 36%|███▌      | 35819/100000 [21:19<44:37, 23.97it/s, promedio=-109, recompensa=-49.8]

Episodio 35814 exitoso, recompensa: 249.41977592793137, Se obtuvo -108.77644197801247 de recompensa, en promedio


 36%|███▌      | 36225/100000 [21:34<45:34, 23.32it/s, promedio=-109, recompensa=-123] 

Episodio 36220 exitoso, recompensa: 205.2138718552534, Se obtuvo -108.76254260772927 de recompensa, en promedio


 36%|███▋      | 36347/100000 [21:39<42:49, 24.77it/s, promedio=-109, recompensa=0.987]

Episodio 36342 exitoso, recompensa: 222.93651374049827, Se obtuvo -108.69498701618167 de recompensa, en promedio


 37%|███▋      | 36821/100000 [21:56<41:23, 25.44it/s, promedio=-109, recompensa=-130]  

Episodio 36817 exitoso, recompensa: 245.05924469658453, Se obtuvo -108.59920060451849 de recompensa, en promedio


 38%|███▊      | 38452/100000 [22:57<37:35, 27.29it/s, promedio=-108, recompensa=-132]  

Episodio 38446 exitoso, recompensa: 278.3987561099417, Se obtuvo -108.41380369201605 de recompensa, en promedio


 39%|███▊      | 38503/100000 [23:00<44:27, 23.06it/s, promedio=-108, recompensa=-118] 

Episodio 38498 exitoso, recompensa: 230.8985057314297, Se obtuvo -108.38478365299214 de recompensa, en promedio


 39%|███▊      | 38548/100000 [23:01<43:00, 23.81it/s, promedio=-108, recompensa=-73]  

Episodio 38544 exitoso, recompensa: 226.94704938337276, Se obtuvo -108.36066764658968 de recompensa, en promedio


 39%|███▊      | 38726/100000 [23:08<35:51, 28.48it/s, promedio=-108, recompensa=-164] 

Episodio 38721 exitoso, recompensa: 263.1239864573208, Se obtuvo -108.31345809495086 de recompensa, en promedio


 39%|███▉      | 39442/100000 [23:35<38:09, 26.45it/s, promedio=-108, recompensa=18.3] 

Episodio 39436 exitoso, recompensa: 236.33166509137763, Se obtuvo -108.23589060870678 de recompensa, en promedio


 40%|███▉      | 39824/100000 [23:50<42:56, 23.36it/s, promedio=-108, recompensa=53]   

Episodio 39819 exitoso, recompensa: 217.60420598033798, Se obtuvo -108.1813211869884 de recompensa, en promedio


 41%|████      | 40504/100000 [24:16<36:10, 27.41it/s, promedio=-108, recompensa=-151] 

Episodio 40498 exitoso, recompensa: 204.97404557338965, Se obtuvo -108.03145139197918 de recompensa, en promedio


 41%|████▏     | 41255/100000 [24:44<34:34, 28.31it/s, promedio=-108, recompensa=-158]  

Episodio 41250 exitoso, recompensa: 235.2473656901657, Se obtuvo -107.93433612582997 de recompensa, en promedio


 41%|████▏     | 41456/100000 [24:52<41:59, 23.24it/s, promedio=-108, recompensa=-117] 

Episodio 41451 exitoso, recompensa: 233.05139965066556, Se obtuvo -107.9571358761535 de recompensa, en promedio


 41%|████▏     | 41466/100000 [24:53<39:31, 24.68it/s, promedio=-108, recompensa=-130] 

Episodio 41461 exitoso, recompensa: 235.36328883124312, Se obtuvo -107.95707047912532 de recompensa, en promedio


 43%|████▎     | 42560/100000 [25:34<34:45, 27.54it/s, promedio=-108, recompensa=-157]  

Episodio 42555 exitoso, recompensa: 271.67703794113606, Se obtuvo -107.98207975083523 de recompensa, en promedio


 43%|████▎     | 42846/100000 [25:45<40:19, 23.62it/s, promedio=-108, recompensa=-168] 

Episodio 42842 exitoso, recompensa: 245.59796809414303, Se obtuvo -107.92434961904775 de recompensa, en promedio


 44%|████▎     | 43508/100000 [26:11<38:38, 24.37it/s, promedio=-108, recompensa=-224] 

Episodio 43503 exitoso, recompensa: 257.3908097169487, Se obtuvo -107.9219605722141 de recompensa, en promedio


 44%|████▎     | 43547/100000 [26:12<32:19, 29.10it/s, promedio=-108, recompensa=-168] 

Episodio 43541 exitoso, recompensa: 262.4182698856757, Se obtuvo -107.9259527028494 de recompensa, en promedio


 44%|████▍     | 44244/100000 [26:39<35:51, 25.91it/s, promedio=-108, recompensa=-56.8] 

Episodio 44239 exitoso, recompensa: 218.07012567510077, Se obtuvo -107.8504365093334 de recompensa, en promedio


 44%|████▍     | 44307/100000 [26:41<37:26, 24.79it/s, promedio=-108, recompensa=-208] 

Episodio 44303 exitoso, recompensa: 201.70749248745705, Se obtuvo -107.85483956474272 de recompensa, en promedio


 45%|████▍     | 44627/100000 [26:53<34:01, 27.12it/s, promedio=-108, recompensa=-280]  

Episodio 44622 exitoso, recompensa: 290.0854037373577, Se obtuvo -107.82529856249624 de recompensa, en promedio


 46%|████▋     | 46339/100000 [27:59<40:35, 22.03it/s, promedio=-108, recompensa=-137]  

Episodio 46335 exitoso, recompensa: 202.60153718468504, Se obtuvo -107.74689971137546 de recompensa, en promedio


 46%|████▋     | 46437/100000 [28:02<36:27, 24.48it/s, promedio=-108, recompensa=-169] 

Episodio 46431 exitoso, recompensa: 263.85080198021996, Se obtuvo -107.73899386139328 de recompensa, en promedio


 48%|████▊     | 47770/100000 [28:55<32:51, 26.50it/s, promedio=-108, recompensa=8.48]   

In [13]:
# Nota: hay que transformar esta celda en código para ejecutar (Esc + y)
# Advertencia: este bloque es un loop infinito si el agente se deja sin implementar

entorno = gym.make('LunarLander-v2').env
exitos = 0
recompensa_episodios = []
num_episodios = 1000
for i in range(num_episodios):
    recompensa = ejecutar_episodio(agente,aprender=False)
    # Los episodios se consideran exitosos si se obutvo 200 o más de recompensa total
    if (recompensa >= 200):
        print(f"Episodio {i} exitoso, recompensa: {recompensa}")
        exitos += 1
    recompensa_episodios += [recompensa]
print(f"Tasa de éxito: {exitos / num_episodios}. Se obtuvo {numpy.mean(recompensa_episodios)} de recompensa, en promedio")

Tasa de éxito: 0.0. Se obtuvo -114.92617420767856 de recompensa, en promedio


Analizar los resultados de la ejecución anterior, incluyendo:
 * Un análisis de los parámetros utilizados en el algoritmo (aprendizaje, política de exploración)
 * Un análisis de algunos 'cortes' de la matriz Q y la política (p.e. qué hace la nave cuando está cayendo rápidamente hacia abajo, sin rotación)
 * Un análisis de la evolución de la recompensa promedio
 * Un análisis de los casos de éxito
 * Un análisis de los casos en el que el agente falla
 * Qué limitante del agente de RL les parece que afecta más negativamente su desempeño. Cómo lo mejorarían? 

In [13]:
# Analizar los resultados aqui
