# Entrega 3, Grupo 02 - Aprendizaje por Refuerzos

- Santiago Alaniz,  5082647-6, santiago.alaniz@fing.edu.uy
- Bruno De Simone,  4914555-0, bruno.de.simone@fing.edu.uy
- María Usuca,      4891124-3, maria.usuca@fing.edu.uy

Módulo útil para graficar los datos.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

def calcular_promedios(iteraciones, penalizaciones):
    print(f"Se realizaron {np.mean(iteraciones)} iteraciones, en promedio")
    print(f"Se recibieron {np.mean(penalizaciones)} penalizaciones, en promedio")

def dibujar_grafico(episodios, datos, subindice, etiqueta_y, titulo, color='blue', escala_log_x=False, escala_log_y=False):
    plt.subplot(3, 1, subindice)
    plt.plot(episodios, datos, color=color)
    
    plt.xlabel('Episodio')
    plt.ylabel(etiqueta_y)
    plt.title(titulo)
    
    if escala_log_x: plt.xscale('log')
    if escala_log_y: plt.yscale('log')

    plt.grid(True)

Importamos la biblioteca Gymnassium, que vamos a usar como framework de RL

In [None]:
!pip3 install cmake gymnasium scipy
import gymnasium as gym

Creamos un ambiente y lo mostramos en pantalla. Para esto definimos una función para imprimir nuestro ambiente.

In [None]:
# La semilla usada para crear el ambiente
semilla = 1

entorno = gym.make("Taxi-v3", render_mode='ansi').env
entorno.reset(seed = semilla)

# Una funcion de ayuda para imprimir el estado de nuestro mundo
def print_env(estado):
  env_str = estado.render()
  print(env_str.strip())

print_env(entorno)


El rectángulo de color representa el taxi, amarillo cuando va sin pasajero y verde con pasajero.
'|' representa una pared que el taxi no puede cruzar, es decir.
R, G, Y, B son los puntos de interés, es decir, las posibles ubicaciones de recogida y destino. La letra azul representa la ubicación actual de recogida de pasajeros, y la letra púrpura es el destino actual.

Si cambiamos la semilla, cambia el estado del ambiente.

In [None]:
# Una semilla diferente
semilla = 2

entorno = gym.make("Taxi-v3", render_mode='ansi').env
entorno.reset(seed = semilla)

print_env(entorno)

Exploremos el espacio de estados y de acciones:

In [None]:
print(f"Espacio de Acciones {entorno.action_space}")
print(f"Espacio de Estados {entorno.observation_space}")

Hay 6 acciones, que corresponden a:
 * 0 = ir al Sur
 * 1 = ir al Norte
 * 2 = ir al Este
 * 3 = ir al Oeste
 * 4 = recoger pasajero
 * 5 = dejar pasajero

Los puntos cardinales siguen la convención Norte hacia arriba. Recoger/dejar al pasajero solo tienen efecto si el taxi está en la misma casilla que el pasajero, y en uno de los puntos de interés.

Nuestro agente deberá elegir la acción a tomar en cada paso. Gymnassium nos expone funciones para esto. Si queremos movernos al sur, por ejemplo:

In [None]:
semilla = 1
entorno = gym.make("Taxi-v3", render_mode='ansi').env
entorno.reset(seed = semilla)
print_env(entorno)
print()

accion = 0 # Sur
entorno.step(accion)

print_env(entorno)

Ahora estamos listos para programar un agente. Empezando por uno random. Se puede ejecutar el codigo abajo varias veces para ver como cambia en cada ejecución.

In [None]:
import random 

def episodio_random(semilla_ambiente = 1):
    entorno = gym.make("Taxi-v3", render_mode='ansi').env
    entorno.reset(seed = semilla_ambiente)

    iteraciones = 0
    penalizaciones, recompensa = 0, 0

    marcos = [] # para la animación

    termino = False
    truncado = False

    while not termino and not truncado:
        #  selecciona una acción aleatoria del conjunto de todas las posibles acciones
        accion = entorno.action_space.sample() 
        estado, recompensa, termino, truncado, info = entorno.step(accion)

        # El agente trato de dejar/recoger al pasajero incorrectamente
        if recompensa == -10:
            penalizaciones += 1

        # Put each rendered frame into dict for animation
        marcos.append({
            'marco': entorno.render(),
            'estado': estado,
            'accion': accion,
            'recompensa': recompensa
            }
        )

        iteraciones += 1


    print(f"Iteraciones: {iteraciones}")
    print(f"Penalizaciones: {penalizaciones}")

    return marcos

marcos = episodio_random()

Podemos ver el episodio completo abajo. Notar que seleccionamos la semillia de selector de acciones para que la corrida sea 'buena'.

In [None]:
from IPython.display import clear_output
from time import sleep
import sys

def print_frames(marcos, delay=0.01):
    for i, marco in enumerate(marcos):
        clear_output()
        print(marco['marco'])
        print(f"Iteracion: {i + 1}")
        print(f"Estado: {marco['estado']}")
        print(f"Accion: {marco['accion']}")
        print(f"Recompensa: {marco['recompensa']}")
        sys.stdout.flush()
        # Aumentar este tiempo para ver mejor la animación
        sleep(delay)

print_frames(marcos)

Ahora queremos programar un agente inteligente, para eso nos vamos a atener a la siguiente interfaz.

In [None]:
class Agente:
    def elegir_accion(self, estado, max_accion) -> int:
        """Elegir la accion a tomar en el estado actual y el espacio de acciones"""
        pass

    def aprender(self, estado_anterior, estado_siguiente, accion, recompensa):
        """Aprender a partir de la tupla 
            - estado_anterior: el estado desde que se empezó
            - estado_siguiente: el estado al que se llegó
            - accion: la acción que llevo al agente desde estado_anterior a estado_siguiente
            - recompensa: la recompensa recibida en la transicion
        """
        pass

Para nuestro agente aleatorio, esto sería:

In [None]:
import random

class AgenteAleatorio(Agente):
    def elegir_accion(self, estado, max_accion) -> int:
        # Elige una acción al azar
        return random.randrange(max_accion)

    def aprender(self, estado_anterior, estado_siguiente, accion, recompensa):
        # No aprende
        pass

Poniendolo a jugar:

In [None]:
import pdb
semilla = 1
entorno = gym.make("Taxi-v3", render_mode='ansi').env

agente = AgenteAleatorio()

iteraciones = 0
penalizaciones, recompensa = 0, 0

marcos = [] # for animation

termino = False
truncado = False
estado_anterior, info = entorno.reset(seed = semilla)
while not termino and not truncado:
    # Le pedimos al agente que elija entre las posibles acciones (0..entorno.action_space.n)
    accion = agente.elegir_accion(estado_anterior, entorno.action_space.n)

    # Realizamos la accion
    estado_siguiente, recompensa, termino, truncado, info = entorno.step(accion)

    # Le informamos al agente para que aprenda
    agente.aprender(estado_anterior, estado_siguiente, accion, recompensa)

    # El agente trato de dejar/recoger al pasajero incorrectamente
    if recompensa == -10:
        penalizaciones += 1

    # Put each rendered frame into dict for animation
    marcos.append({
        'marco': entorno.render(),
        'estado': estado_siguiente,
        'accion': accion,
        'recompensa': recompensa
        }
    )

    estado_anterior = estado_siguiente
    iteraciones += 1

print(f"Iteraciones: {iteraciones}")
print(f"Penalizaciones: {penalizaciones}")

Podemos encapsular lo anterior en una función 

In [None]:
def ejecutar_episodio(agente, semilla):
    entorno = gym.make("Taxi-v3", render_mode='ansi').env

    iteraciones = 0
    penalizaciones, recompensa = 0, 0

    marcos = [] # for animation

    termino = False
    truncado = False
    estado_anterior, info = entorno.reset(seed = semilla)
    while not termino and not truncado:
        # Le pedimos al agente que elija entre las posibles acciones (0..entorno.action_space.n)
        accion = agente.elegir_accion(estado_anterior, entorno.action_space.n)
        # Realizamos la accion
        estado_siguiente, recompensa, termino, truncado, info = entorno.step(accion)
        # Le informamos al agente para que aprenda
        agente.aprender(estado_anterior, estado_siguiente, accion, recompensa)

        # El agente trato de dejar/recoger al pasajero incorrectamente
        if recompensa == -10:
            penalizaciones += 1

        # Put each rendered frame into dict for animation
        marcos.append({
            'marco': entorno.render(),
            'estado': estado_siguiente,
            'accion': accion,
            'recompensa': recompensa
            }
        )

        estado_anterior = estado_siguiente
        iteraciones += 1
        
    return iteraciones, penalizaciones, marcos


y correrlo varias veces para ver el rendimiento promedio

In [None]:
agente = AgenteAleatorio()
semilla = 1
num_iteraciones_episodios = []

for i in range(10):
    num_iteraciones, _, _ = ejecutar_episodio(agente, semilla)
    num_iteraciones_episodios += [num_iteraciones]

Y obtener métricas al respecto

In [None]:
import numpy
import random

print(f"Se realizaron {numpy.mean(num_iteraciones_episodios)} iteraciones, en promedio")

### La tarea a realizar consiste en programar un agente de aprendizaje por refuerzos:

#### Modelo de la realidad:

El modelado de la realidad en la cual se entrena al agente es definido por el framework `gymnasium`, escenario `taxi`. Obtenido de la [documentación](https://gymnasium.farama.org/environments/toy_text/taxi/) además de las posibles acciones se tiene que la ubicación del pasajero y los posibles destinos se representan:

**Ubicaciones del pasajero:**
* 0: Rojo
* 1: Verde
* 2: Amarillo
* 3: Azul
* 4: En taxi

**Destinos:**
* 0: Rojo
* 1: Verde
* 2: Amarillo
* 3: Azul

También de la documentación del framework vemos que define los estados con la siguiente ecuación:
```
((taxi_row * 5 + taxi_col) * 5 + passenger_location) * 4 + destination
```
Se observa que parte de lo que define un estado, y por lo cual se podría considerar que el taxi tiene visión global del escenario en el que se encuentra, es la ubicación del pasajero y su destino. Dado que se conoce el destino la cadena de Markov de la cual se quiere conocer la política óptima, sabemos que la misma es no conexa ya que dado cualquier estado para el cual el destino sea `Rojo` nunca se va a poder pasar a un estado para el cual el destino sea `Verde`.

<img src="img/diagrama-destinos.png" align="center"/>

Además, al saber la ubicación del pasajero se observa que dado un destino `X` y una ubicación `Y` distinta de 4, que significa que el pasajero está en el taxi, solo se puede pasar a un estado que tenga el mismo destino y ubicación O a uno que tenga el mismo destino y ubicación 4. Además, si se tiene ubicación de pasajero 4 nunca va a poder cambiar la ubicación del pasajero.

<img src="img/diagrama-ubicacion-pasajero.png" align="center"/>

Se ve entonces que si entrenamos en un escenario cuyo destino es `X` luego para cualquier escenario en el cual el destino sea distinto de `X` el taxista no va a saber qué hacer sin entrenamiento ya que nunca pasó por dicho estado ni va a pasar por ningún estado en el cual el destino sea `X`. Lo mismo ocurre al entrenar para un escenario con ubicación inicial del pasajero `Y`, luego al estar en un escenario con ubicación inicial distinta hasta que no recoja al pasajero siempre va a pasar por estados desconocidos.

#### **Clase `AgenteRL`**

Esta implementación está fuertemente inspirada en los conceptos presentados en el libro de Mitchell, *Machine Learning* (1997) y las clases impartidas por el equipo docente.

El agente interactúa con un entorno provisto por el cuerpo docente, donde debemos mover un taxi en un mapa para recoger y dejar pasajeros. El objetivo es que el taxi aprenda la política óptima, es decir, recoger y dejar al pasajero con la menor cantidad de pasos y con la menor cantidad de penalizaciones.

##### **Variables de instancia**:
- `self.gamma`: Un factor de descuento, generalmente denotado como gamma (`γ`), que determina cuánto valor le da el agente a las recompensas futuras en comparación con las inmediatas. Toma como valor constante `0.9`. A diferencia de `self.k` y `self.delta_t`, no cambia con el tiempo, aunque somos conscientes de que agentes más vanguardistas aplican técnicas de perfeccionamiento de este valor a lo largo del tiempo.

- `self.delta_t`: Es una discretización del tiempo. Se inicializa en 0 y se incrementa en 1 cada vez que el agente toma una acción.

- `self.k`: Es el atributo pivotal que re-define la función de distribución `X_s_a` que se utiliza para elegir una acción. `self.k` es la función creciente `f(x) = 1 + log10(delta_t)`, con `delta_t = 0` vale `1` y aumenta en orden logarítmico. Esto último es una decisión de diseño para beneficiar a la exploración en etapas iniciales. Queremos que el agente explore el entorno y no se quede estancado en un mínimo local, por lo que le damos más peso a la exploración en etapas iniciales, y a medida que el agente va aprendiendo, le damos más peso a la explotación.

- `self.Q`: Una tabla Q inicializada como una matriz de ceros. Las dimensiones de la matriz dependen del número de estados (`entorno.observation_space.n`) y el número de acciones (`entorno.action_space.n`) en el entorno en el que se encuentra el agente.

##### **Métodos**:

- `__init__(self, entorno) -> None`: El constructor de la clase que inicializa las variables de instancia.

- `elegir_accion(self, estado, max_accion) -> int`: Calcula los nuevos valores del `self.k` y `self.delta_t` y define la función de distribución `X_s_a` para elegir una acción. Luego, elige una acción de acuerdo a la función de distribución `X_s_a` y la devuelve.

- `aprender(self, estado_anterior, estado_siguiente, accion, recompensa)`: Este método actualiza la tabla Q utilizando la ecuación de actualización (Bellman). Aquí `Q_max` es el valor máximo de Q para el `estado_siguiente`. La tabla Q para el `estado_anterior` y la `accion` tomada se actualiza considerando la `recompensa` recibida y el valor descontado de `Q_max`.

In [None]:
import numpy as np

# Mitchell 97. Chapter 13
class AgenteRL(Agente):
    def __init__(self, entorno) -> None:
        super().__init__()
        
        self.gamma = 0.9
        self.delta_t = 0
        self.k = 0
        self.Q = np.zeros((entorno.observation_space.n, entorno.action_space.n))
    
    def elegir_accion(self, estado, max_accion) -> int:
        # Aumento delta_t y k (tiempo y factor de "confianza")
        self.delta_t += 1
        self.k = 1 + np.log10(self.delta_t)
        
        # Exploracion vs Explotacion, Mitchell 97. p.379
        aux = np.power(np.ones(max_accion) * self.k , self.Q[estado])
        X_s_a = aux / np.sum(aux)
        
        # Elegimos una accion con distribucion X_s_a
        return np.random.choice(max_accion, 1, p= X_s_a)[0]
    
    def aprender(self, estado_anterior, estado_siguiente, accion, recompensa):
        # Actualizamos la tabla Q con la ecuacion de Bellman 
        Q_max_estado_siguiente = np.max(self.Q[estado_siguiente])
        self.Q[estado_anterior, accion] = recompensa + self.gamma * Q_max_estado_siguiente

### Ejecutar con el muchos episodios con la misma semilla:

In [None]:
# Advertencia: este bloque es un loop infinito si el agente se deja sin implementar

agente = AgenteRL(entorno)
semilla = 1
num_iteraciones_episodios = []
num_penalizaciones_episodios = []
marcos_episodios = []

for i in range(1000):
    num_iteraciones, penalizaciones, marcos = ejecutar_episodio(agente, semilla)
    num_iteraciones_episodios += [num_iteraciones]
    num_penalizaciones_episodios += [penalizaciones]
    marcos_episodios += [marcos]



In [None]:
episodios = list(range(1, len(num_iteraciones_episodios) + 1))
    
calcular_promedios(num_iteraciones_episodios, num_penalizaciones_episodios)

plt.figure(figsize=(8, 12))

dibujar_grafico(
    episodios, 
    num_iteraciones_episodios, 
    1, 
    'Iteraciones', 
    'Iteraciones por episodio (escala logarítmica x,y)', 
    escala_log_x=True, 
    escala_log_y=True
)

dibujar_grafico(episodios,
 num_penalizaciones_episodios,
 2,
 'Penalizaciones',
 'Penalizaciones por episodio (escala logarítmica x)',
 escala_log_x=True,
 color='red',
)

plt.subplots_adjust(hspace=0.5)
plt.show()

#### Analizar los resultados de la ejecución anterior.
En nuestro algoritmo, hemos implementado una **estrategia de exploración que evoluciona a lo largo del tiempo**, lo que ha demostrado ser efectivo en el proceso de aprendizaje por refuerzo. Inicialmente, favorecemos la exploración, al ponderar la selección de acciones en función del conocimiento actual del agente y variando el parámetro `k` con el número de iteraciones. Esto permite al agente realizar exploración intensiva al principio y luego cambiar gradualmente hacia la explotación de conocimientos adquiridos. 

Los vestigios de exploración se pueden ver en los "picos" iniciales en la cantidad de iteraciones por episodio, esto da cuenta de la exploración intensiva que realiza el agente al principio. A medida que el agente acumula conocimiento sobre el entorno, la cantidad de iteraciones por episodio disminuye, llegado a un punto en el tiempo donde el agente se vuelve más eficiente en su toma de decisiones y la cantidad de iteraciones por episodio se estabiliza, que además coincide con la convergencia de la política óptima.

En nuestros resultados se puede observar que la **cantidad de penalizaciones disminuye** a medida que aumenta el número de episodios. Este comportamiento es esperado, ya que el agente va acumulando conocimiento sobre el entorno y aprende a evitar las acciones que conllevan penalizaciones. Además, el agente se vuelve más eficiente en su toma de decisiones, lo que se refleja en una disminución en la cantidad de iteraciones necesarias para alcanzar su objetivo.

En **comparación con el agente aleatorio**, el agente de aprendizaje por refuerzo logra reducir considerablemente la cantidad de iteraciones requeridas para alcanzar sus objetivos. Esto subraya la eficacia del aprendizaje por refuerzo en la mejora del desempeño del agente y su capacidad para tomar decisiones más informadas a lo largo del tiempo.

Para poder apreciar mejor la evolución del agente, se puede ejecutar el siguiente código que muestra una serie de episodios de interés.

In [None]:
import numpy as np

arr = np.unique(num_iteraciones_episodios)[:10][::-1]

index_episodios = [num_iteraciones_episodios.index(x) for x in arr]

for i in index_episodios:
  delay = max(0.01, 6/len(marcos_episodios[i]))
  print_frames(marcos_episodios[i], delay=delay)

### Se mantiene el rendimiento si cambiamos la semilla? ¿Por qué?

Como se vio anteriormente el ambiente en el cual nuestro agente realiza sus tareas, formalmente, es un **DMDP, Deterministic Markov Decision Process**. Esto significa que dado un estado y una acción, el ambiente siempre responde de la misma manera. Esto se modela fácilmente en el código de la sección anterior.

Sin embargo, si en cada una de las 1000 iteraciones se cambia la semilla, el taxi se va a encontrar con estados en los cuales nunca estuvo durante su entrenamiento previo. Entonces para cualquiera de las posibles acciones a tomar en esos caso el taxista va a pensar que la recompensa es la misma, por lo cual se va a comportar de manera aleatoria hasta que entrene lo suficiente en escenarios similares. Dado lo visto previamente el taxista deberá entrenarse en todos los subconjuntos de cadenas de markov que tiene el modelo del problema.

Tomando en cuenta lo anterior, tiene sentido que el desempeño del agente sea negativo. En un escenario con destino distinto, el agente no puede lograr el mismo rendimiento, ya que los estados en los cuales entreno son disjuntos con los estados por los cuales va a pasar en el escenario. Por otro lado, para escenarios con igual destino y ubicación de pasajero que en el cual entrenó, el rendimiento del taxista debería ser bueno. Se va a experimentar con esta idea a continuación.

#### Semillas con mismo Destino y Ubicación inicial de pasajero.

In [None]:
semilla_primera = 1
semilla_segunda = 9

entorno = gym.make("Taxi-v3", render_mode='ansi').env

entorno.reset(seed = semilla_primera)
print(f'Entorno con primera semilla {semilla_primera}')
print_env(entorno)


entorno.reset(seed = semilla_segunda)
print(f'Entorno con segunda semilla {semilla_segunda}')
print_env(entorno)

In [None]:
agente = AgenteRL(entorno)
num_iteraciones_episodios = []
num_penalizaciones_episodios = []
marcos_episodios = []

for i in range(1000):
    ejecutar_episodio(agente, semilla_primera)

for i in range(1000):
    num_iteraciones, penalizaciones, marcos = ejecutar_episodio(agente, semilla_segunda)
    num_iteraciones_episodios += [num_iteraciones]
    num_penalizaciones_episodios += [penalizaciones]
    marcos_episodios += [marcos]

calcular_promedios(num_iteraciones_episodios, num_penalizaciones_episodios)

fig = plt.figure(figsize=(8, 12))
fig.suptitle('Semillas con mismo Destino y Ubicación inicial de pasajero.', fontsize=16)

dibujar_grafico(
    episodios, 
    num_iteraciones_episodios, 
    1, 
    'Iteraciones', 
    'Iteraciones por episodio (escala logarítmica x,y)', 
    escala_log_x=True, 
    escala_log_y=True
)

dibujar_grafico(episodios,
 num_penalizaciones_episodios,
 2,
 'Penalizaciones',
 'Penalizaciones por episodio (escala logarítmica x)',
 escala_log_x=True,
 color='red',
)

plt.subplots_adjust(hspace=0.5)
plt.show()

#### Semillas con mismo Destino pero distinta Ubicación inicial de pasajero.

In [None]:
semilla_primera = 1
semilla_segunda = 2

entorno = gym.make("Taxi-v3", render_mode='ansi').env

entorno.reset(seed = semilla_primera)
print(f'Entorno con primera semilla {semilla_primera}')
print_env(entorno)


entorno.reset(seed = semilla_segunda)
print(f'Entorno con segunda semilla {semilla_segunda}')
print_env(entorno)

In [None]:
agente = AgenteRL(entorno)
num_iteraciones_episodios = []
num_penalizaciones_episodios = []
marcos_episodios = []

for i in range(1000):
    ejecutar_episodio(agente, semilla_primera)

for i in range(1000):
    num_iteraciones, penalizaciones, marcos = ejecutar_episodio(agente, semilla_segunda)
    num_iteraciones_episodios += [num_iteraciones]
    num_penalizaciones_episodios += [penalizaciones]
    marcos_episodios += [marcos]

calcular_promedios(num_iteraciones_episodios, num_penalizaciones_episodios)

fig = plt.figure(figsize=(8, 12))
fig.suptitle('Semillas con mismo Destino pero distinta Ubicación inicial de pasajero.', fontsize=16)

dibujar_grafico(
    episodios, 
    num_iteraciones_episodios, 
    1, 
    'Iteraciones', 
    'Iteraciones por episodio (escala logarítmica x,y)', 
    escala_log_x=True, 
    escala_log_y=True
)

dibujar_grafico(episodios,
 num_penalizaciones_episodios,
 2,
 'Penalizaciones',
 'Penalizaciones por episodio (escala logarítmica x)',
 escala_log_x=True,
 color='red',
)

plt.subplots_adjust(hspace=0.5)
plt.show()

#### Semillas con distinto Destino.

In [None]:
semilla_primera = 1
semilla_segunda = 3

entorno = gym.make("Taxi-v3", render_mode='ansi').env

entorno.reset(seed = semilla_primera)
print(f'Entorno con primera semilla {semilla_primera}')
print_env(entorno)


entorno.reset(seed = semilla_segunda)
print(f'Entorno con segunda semilla {semilla_segunda}')
print_env(entorno)

In [None]:
agente = AgenteRL(entorno)
num_iteraciones_episodios = []
num_penalizaciones_episodios = []
marcos_episodios = []

for i in range(1000):
    ejecutar_episodio(agente, semilla_primera)

for i in range(1000):
    num_iteraciones, penalizaciones, marcos = ejecutar_episodio(agente, semilla_segunda)
    num_iteraciones_episodios += [num_iteraciones]
    num_penalizaciones_episodios += [penalizaciones]
    marcos_episodios += [marcos]

calcular_promedios(num_iteraciones_episodios, num_penalizaciones_episodios)

fig = plt.figure(figsize=(8, 12))
fig.suptitle('Semillas con distinto Destino.', fontsize=16)

dibujar_grafico(
    episodios, 
    num_iteraciones_episodios, 
    1, 
    'Iteraciones', 
    'Iteraciones por episodio (escala logarítmica x,y)', 
    escala_log_x=True, 
    escala_log_y=True
)

dibujar_grafico(episodios,
 num_penalizaciones_episodios,
 2,
 'Penalizaciones',
 'Penalizaciones por episodio (escala logarítmica x)',
 escala_log_x=True,
 color='red',
)

plt.subplots_adjust(hspace=0.5)
plt.show()

Vemos como claramente lo asumido en el pre-análisis ocurre: 
- En el caso con mismo origen de pasajero y destino el taxista tiene un rendimiento excelente. 
- Por otro lado, empeora al tener un origen de pasajero distinto ya que hasta que recoge al pasajero el taxista únicamente transita estados no descubiertos y sobre el final del trayecto transita estados conocidos. Cómo conoce el destino, no hay penalizaciones ya que el taxista sabe donde dejar al pasajero.
- Finalmente, en el escenario con destino distinto al entrenado, se comporta como un agente sin entrenamiento al inicio y aprende con ritmo similar que con el escenario de la primera semilla.

### ANTES (Vimos que no es estocástico el modelo) Se mantiene el rendimiento si cambiamos la semilla? ¿Por qué?


En el código anterior, el ambiente en el cual nuestro agente realiza sus tareas, formalmente, es un **DMDP, Deterministic Markov Decision Process**. Esto significa que dado un estado y una acción, el ambiente siempre responde de la misma manera. Esto se modela fácilmente en el código de la sección anterior al mantener invariante la semilla.

Ahora, si en cada una de las 1000 iteraciones, cambiamos la semilla, el ambiente se vuelve **estocástico/no determinista**, es decir, dado un estado y una acción, el ambiente puede responder de diferentes maneras, dado que la composición del entorno cambia.

En particular, en este ambiente, **la posición del taxi y las paradas de origen/destino son aleatorias** (aunque no su posición en la grilla); todo lo demás se mantiene constante. Es correcto afirmar que la función de recompensa es determinista para las acciones de moverse, pero no para las acciones de recoger/dejar pasajeros.

Tomando en cuenta lo anterior, tiene sentido que el desempeño del agente sea negativo. En un ambiente estocástico, el agente no puede lograr el mismo rendimiento, ya que no puede confiar en que el ambiente se comporte de la misma manera en cada iteración, y lo que es más importante, a través del tiempo (que es como se configura el atributo `self.k`).

In [None]:
# Agregar código aqui
agente = AgenteRL(entorno)
num_iteraciones_episodios = []
num_penalizaciones_episodios = []
marcos_episodios = []

for i in range(1000):
    num_iteraciones, penalizaciones, marcos = ejecutar_episodio(agente, i)
    num_iteraciones_episodios += [num_iteraciones]
    num_penalizaciones_episodios += [penalizaciones]
    marcos_episodios += [marcos]

calcular_promedios(num_iteraciones_episodios, num_penalizaciones_episodios)

plt.figure(figsize=(8, 12))

dibujar_grafico(
    episodios, 
    num_iteraciones_episodios, 
    1, 
    'Iteraciones', 
    'Iteraciones por episodio (escala logarítmica x,y)', 
    escala_log_x=True, 
    escala_log_y=True
)

dibujar_grafico(episodios,
 num_penalizaciones_episodios,
 2,
 'Penalizaciones',
 'Penalizaciones por episodio (escala logarítmica x)',
 escala_log_x=True,
 color='red',
)

plt.subplots_adjust(hspace=0.5)
plt.show()

### Podemos mejorar el agente para que se desempeñe bien usando cualquier semilla?

In [None]:
import numpy as np
import pdb

# Mitchell 97. Chapter 13
class AgenteRL_v2(Agente):
    def __init__(self, entorno) -> None:
        super().__init__()
        
        self.gamma = 0.9
        self.delta_t = 0
        self.k = 0
        self.Q = np.zeros((entorno.observation_space.n, entorno.action_space.n))
        self.visits = np.zeros((entorno.observation_space.n, entorno.action_space.n))
    
    def elegir_accion(self, estado, max_accion) -> int:
        # Aumento delta_t y k (tiempo y factor de "confianza")
        self.delta_t += 1
        self.k = 1 + np.log10((self.delta_t))
        
        # Exploracion vs Explotacion, Mitchell 97. p.379
        aux = np.power(np.ones(max_accion) * self.k , self.Q[estado])
        X_s_a = aux / np.sum(aux)
        
        # Elegimos una accion con distribucion X_s_a
        return np.random.choice(max_accion, 1, p= X_s_a)[0]
    
    def aprender(self, estado_anterior, estado_siguiente, accion, recompensa):
        # Actualizamos la tabla Q con la ecuacion de Bellman 
        Q_max_estado_siguiente = np.max(self.Q[estado_siguiente])
        deterministic_update = recompensa + self.gamma * Q_max_estado_siguiente

        self.visits[estado_anterior, accion] += 1

        alpha = 1 / (1 + self.visits[estado_anterior, accion])
        
        self.Q[estado_anterior, accion] = (1 - alpha) * self.Q[estado_anterior, accion] + alpha * (deterministic_update)
        

In [None]:
# Agregar código aqui
agente_deterministico = AgenteRL(entorno)
agente_estocastico = AgenteRL_v2(entorno)

BASE_SEED = 50826476

num_iter_agentes = [[], []]
num_pen_agentes = [[], []]

for i in range(1000):
    iter_agent, pen_agent, _ = ejecutar_episodio(agente_deterministico, i+BASE_SEED)
    num_iter_agentes[0] += [iter_agent]
    num_pen_agentes[0] += [pen_agent]

    iter_agent, pen_agent, _ = ejecutar_episodio(agente_estocastico, i+BASE_SEED)
    num_iter_agentes[1] += [iter_agent]
    num_pen_agentes[1] += [pen_agent]

plt.figure(figsize=(8, 12))

dibujar_grafico(
    range(1, len(num_iter_agentes[0]) + 1),
    num_iter_agentes[0], 
    1, 
    'Iteraciones', 
    'Iteraciones por episodio (escala logarítmica x,y)', 
    escala_log_x=True, 
    escala_log_y=True
)

dibujar_grafico(
    range(1, len(num_iter_agentes[1]) + 1),
    num_iter_agentes[1], 
    2, 
    'ESTOCASTICO Iteraciones', 
    'Iteraciones por episodio (escala logarítmica x,y)',
    color='red', 
    escala_log_x=True, 
    escala_log_y=True
)

plt.subplots_adjust(hspace=0.5)
plt.show()

np_iter_agent_deterministico = np.array(num_iter_agentes[0])[-500:]
np_iter_agent_estocastico = np.array(num_iter_agentes[1])[-500:]

print(f"[Deterministico]\n \
            media: {np.mean(np_iter_agent_deterministico)},\
            std: {np.std(np_iter_agent_deterministico)}")

print(f"[Estocastico]\n \
            media: {np.mean(np_iter_agent_estocastico)},\
            std: {np.std(np_iter_agent_estocastico)}")