![logo](./img/TheBridge_RL.png)

# Taxi Autónomo (Smartcab)

## Contenidos

* [Objetivo](#Objetivo)  
* [Recompensas (Rewards)](#Recompensas-(Rewards))  
* [Espacio de Estados (State Space)](#Espacio-de-Estados-(State-Space))  
* [Action space](#Action-space)  
* [Implementacion](#Implementacion)  


### Objetivo
  
[al indice](#Contenidos)  

El trabajo del Smartcab es recoger al pasajero en un lugar y dejarlo en otro. Algunos detalles que nos encantaría que nuestro Smartcab tenga en cuenta serían:

* Dejar al pasajero en la ubicación correcta.  
* Ahorrar tiempo al pasajero dedicando el mínimo tiempo posible para dejarlo.  
* Cuidar la seguridad del pasajero y respetar las normas de tráfico.


### Recompensas (Rewards)  
[al indice](#Contenidos)  


* El agente debería recibir una alta recompensa positiva por una entrega del cliente exitosa porque este comportamiento es de los más importantes que queremos que aprenda.
* El agente debería ser penalizado si intenta dejar a un pasajero en destinos incorrectos.
* El agente debería recibir una ligera recompensa negativa por no llegar a destino después de cada intervalo de tiempo. "Ligera" negativa porque preferiríamos que nuestro agente llegue tarde en lugar de hacer movimientos erróneos tratando de llegar al destino lo más rápido posible."

Para nuestro pequeño ejercicio vamos a establecer las siguientes "recompensas":
* Recibimos +20 puntos por un traslado exitoso.  
* Perdemos 1 punto por cada intervalo de tiempo que tarda.  
* También hay una penalización de 10 puntos por acciones de recogida y dejada ilegales. 



### Espacio de Estados (State Space)  
[al indice](#Contenidos)  


El __Espacio de Estados__ es el conjunto de todas las posibles situaciones en las que nuestro taxi podría estar. El estado además debe contener información útil que el agente necesite para tomar la acción correcta.

<img src="./img/Reinforcement_Learning_Taxi_Env.png" alt="drawing" width="600"/>

Supongamos que Smartcab es el único vehículo en este circuito de aprendizaje. Nuestro circuito está dividido en __una cuadrícula de 5x5__, lo que nos da __25 posibles ubicaciones__ para el taxi (posiciones (0,0) a (5,5)). Estas 25 ubicaciones __son una parte de nuestro espacio de estados__. Observa que la __ubicación actual__ de nuestro taxi es la __coordenada (3, 1)__.

También puedes ver que hay __cuatro (4) ubicaciones__ en las que podemos __recoger y dejar__ a un pasajero: R, G, Y, B o [(0,0), (0,4), (4,0), (4,3)] en coordenadas (fila, columna).  

También debemos tener en cuenta un (1) estado adicional del pasajero de estar dentro del taxi.



¿cómo codificaríamos el estado anterior de la forma más compacta:

In [None]:
[3,1,2,0]

Teniendo en cuenta lo anterior, ¿cuántos estados posibles hay en nuestro State Space?

In [None]:
5*5*5*4 #5 filas x 5 columnas x 5 estados del pasajero (4 posiciones de recogida + el taxi) y 4 posibles valores de destino

El entorno nos devolverá un índice entre 0 y 500 para representar el estado al que se llega después de ejecutar una acción (invocando el método step())

Extra: 
* Si quisieramos generalizar y tener como destino y origen cualquiera de las cuadrículas de nuestro circuito, ¿cuántos estados tendría nuestro espacio de estados?
* Considerando los 500 estados que tenemos, ¿cuántos realmente se pueden visitar por partida? (Pista: Si al inicializar el entorno el pasajero está ya en su destino, ¿qué ocurre?)

In [None]:
5*5*26*25

### Action space  
[al indice](#Contenidos)  


El agente se encuentra con uno de los 500 estados y toma una acción. La acción en nuestro caso puede ser moverse en una dirección o decidir recoger/dejar a un pasajero.

En otras palabras, tenemos seis posibles acciones:
1. sur
2. norte
3. este
4. oeste
5. recoger
6. dejar


Según la ilustración, el taxi no puede realizar ciertas acciones en ciertos estados debido a las paredes (por ejemplo mover de la posición (3,1) a la (3,0)).  



<img src = "./img/Reinforcement_Learning_Taxi_Env.png" />

El entorno proporciona una penalización de -1 por cada movimiento no permitido y el taxi no se moverá a ningún lado. Como siguiente estado devuelve el mismo de partida.

### Implementacion  
[al indice](#Contenidos)  


In [None]:
import gym
import matplotlib.pyplot as plt

env = gym.make("Taxi-v3", render_mode="ansi").env #saltarnos la limitación de 200 pasos que viene por defecto en gym

state,info = env.reset(seed = 19)

print(env.render())
#plt.imshow(env.render())

* El cuadrado relleno representa el taxi, que es de color amarillo sin un pasajero y verde con un pasajero. En este caso, comenzaríamos con nuestro taxi situado en (2,0).
* La barra ("|") representa una pared que el taxi no puede cruzar.
* R, G, Y, B son las posibles ubicaciones de recogida y destino. La letra azul representa la ubicación actual de recogida del pasajero, y la letra morada es el destino actual. Es decir hay que recogerlo de Y y entregarlo en R, para este ejemplo generado al resetear el entorno con la semilla ajustada al valor 19.

In [None]:
print("Estado inicial:",state)
print("Info extra:",info)

In [None]:
list(env.decode(208))

Si quisieramos camibar la posición de partida de nuestro taxi y llevarlo a la de la figura, podemos moverlo con las acciones e ignorar las recompensas. Bastaría con moverlo al este y luego al sur.

In [None]:
movements = [2,0]
for action in movements:
    env.step(action)
    print(env.render())