![logo](./img/TheBridge_RL.png)

# Taxi Autónomo (Smartcab), sin RL

## Contenidos

* [Definicion del Problema](#Definicion-del-Problema)  
* [Creando el entorno](#Creando-el-entorno)  
* [Sin aprendizaje por refuerzo](#Sin-aprendizaje-por-refuerzo)  
* [Visualizacion](#Visualizacion)  


### Definicion del Problema  
[al indice](#Contenidos)  


__Hay 4 ubicaciones (etiquetadas con diferentes letras) y nuestro trabajo es recoger al pasajero en una ubicación y dejarlo en otra.__

<img src="./img/Reinforcement_Learning_Taxi_Env.png" alt="drawing" width="600"/>


Recuerda, que las recompensas y castigos estan fijadas en este entorno de la siguiente manera:__   
__* Recibimos +20 puntos por un traslado exitoso.__  
__* Perdemos 1 punto por cada intervalo de tiempo que tarda.__  
__* También hay una penalización de 10 puntos por acciones de recogida y dejada ilegales.__  
__* Un movimiento que de lugar a un "choque" tiene la penalización de perder tiempo (el taxi no se desplaza pero se recibe la penalización de duración)__

### Creando el entorno  
[al indice](#Contenidos)  


Tenemos 6 posibles acciones (sur, norte, este, oeste, recoger, dejar) y 500 posibles estados (que combinan la posición del taxi, el punto de recogida, el de entrega, la situación del pasajero) codificados del 0 al 499

### Sin aprendizaje por refuerzo  
[al indice](#Contenidos)  


En tiempo de ejecución de código no ha sido nada... Pero imagina por un momento que hubiera sido una prueba en un entorno real... Recuerda que esta es una de las razones por las que se usan entornos simulados para aprender. Aunque no siempre es posible o recomendable (los coches autónomos de verdad aprenden sobre el terreno)

### Visualizacion  
[al indice](#Contenidos)  


Para poder ver qué es lo que realmente está haciendo el "smart"cab, vamos a crearnos una función que pinte cada frame, dejando un intervalo de tiempo entre frame y frame para crear el efecto de animación.

In [None]:
# Importamos dos comandos necesarios para limpiar la pantalla y para generar el intervalo entre frames
from IPython.display import clear_output 
from time import sleep

def episode_animation(frames):
    for i, frame in enumerate(frames): # Recorremos todo el conjunto de frames
        clear_output(wait=True) # Limpiamos la "pantalla"
        print(frame['frame']) # Visualizamos el "pantallazo" resultado de cada acción
        print(f"Timestep: {i + 1}") # Aumentamos el contador de pasos/steps
        # Imprimimos el resto de valores correspondientes a cada frame y que hemos guardado al realizar el "aprendizaje"
        print(f"State: {frame['state']}") 
        print(f"Action: {frame['action']}")
        print(f"Reward: {frame['reward']}")
        print(f"Elapsed time (sec.): {frame['elapsed']}")
        sleep(.1) # "Dormimos" el programa un tiempo para que nuestro ojo pueda ver la imagen antes de borrarla y mostrar la siguiente
        


In [None]:
episode_animation(frames[max(0,len(frames)-500):]) # Lanzamos la animacion, pero asegurándonos de que sólo mostramos como mucho 500 frames. Si quieres verla entera (para gustos los colores...), sólo tienes que quitar indexado y volver a ejecutar.

Cómo puedes comprobar este mecanimo, aunque cumple con el cometido, tiene severas limitaciones:
- Los tiempos son inaceptables
- No se guarda el "aprendizaje", pero aunque lo hiciéramos, sólo valdría para la situación de partida (el taxi en la posición 3,1. Recoger en Y entregar en R)

Necesitamos un mecanismo de mejora de la estrategia que no sólo reduzca los tiempos y los optimice al máximo, sino que además sea flexible como para poder aplicarse en cualquier situación. Ese es el objetivo de la siguiente sesión: Q-Learning.

## Ahora tú

Aunque a continuación tienes un ejercicio específico, ¿por qué no inventas una política más acertada para nuestro SmartCab? Por ejemplo puedes jugar con la variable info, ya que eso no es hacer trampa. Nuestro SmartCab tendría su LIDAR y otros sensores para detectar paredes y cuando se acaba el terreno por ejemplo. Es decir viendo la action_mask podría evitarse acciones "inútiles"