# Gridworld y Jack’s Car Rental.







### Gridworld

In [1]:
import numpy as np
import warnings 

In [25]:
warnings.filterwarnings("ignore")

def Gridworld(rejilla, recompensa, gamma, epsilon):
    """
    Método que devuelve las recompensas y política con la mayor recompensa desde cualquier casilla.
    :param rejilla: Rejilla con la información de cada casilla.
    :param recompensa: Recompensa por cada movimiento, en nuestro caso será siempre -1.
    :param gamma: Factor de descuento.
    :param epsilon: Umbral de convergencia.

    :return: Recompensas con la mayor recompensa desde cualquier casilla y política con la acción que debe tomarse desde cada casilla.

    """

    # Matrices de recompensas y política inicializadas a 0 y vacío respectivamente
    recompensas = np.zeros((len(rejilla), len(rejilla[0])))
    politica = np.full((len(rejilla), len(rejilla[0])), np.nan, dtype=object)
    operar = True 
    while operar:
        # Inicializamos la diferencia actual entre las iteraciones
        diferencia_actual = 0

        # Iteramos sobre cada casilla de la rejilla
        for i in range(len(rejilla)):
            for j in range(len(rejilla[0])):
                
                # Ignoramos casillas con T
                if rejilla[i][j] == 'T':
                    continue

                # Casillas sin información para el caso b)
                if rejilla[i][j] is None:
                    recompensas[i][j] = np.nan
                    politica[i][j] = np.nan
                    continue

                # Casilla apartado b) caso especial
                if rejilla[i][j] == 15:
                    # Almacenamos el valor actual de la casilla
                    valor_ant = recompensas[i][j]

                    # Definimos los vecinos de la casilla a mano ya que es un caso especial
                    vecinos = [[3, 1], [4, 1], [3, 0], [3, 2]]

                    # Inicializamos variables para el máximo valor y la acción correspondiente
                    mayor_val = float('-inf')
                    max_mov = np.nan

                    # Iteramos sobre los vecinos para encontrar la acción óptima (en este caso solo hay uno)
                    for vecino in vecinos:
                        if vecino[0] < 0 or vecino[0] >= len(rejilla) or vecino[1] < 0 or vecino[1] >= len(rejilla[0]):
                            continue
                        valor = recompensa + gamma * recompensas[vecino[0]][vecino[1]]
                        if valor > mayor_val:
                            mayor_val = valor
                            max_mov = vecino

                    # Actualizamos la recompensa y la política (en este caso solo hay una acción)
                    recompensas[i][j] = mayor_val
                    diferencia_actual = max(diferencia_actual, abs(valor_ant - recompensas[i][j]))
                    politica[i][j] = 'diagonal "arriba y derecha"'

                # Resto de las casillas 
                else:
                    # Almacenamos el valor actual de la casilla 
                    valor_ant = recompensas[i][j]

                    # Definimos los vecinos de la casilla actual 
                    vecinos = [[i-1, j], [i+1, j], [i, j-1], [i, j+1]]

                    # Inicializamos variables para el máximo valor y la acción correspondiente 
                    mayor_val = float('-inf')
                    max_mov = np.nan

                    # Iteramos sobre los vecinos para encontrar la acción óptima 
                    for vecino in vecinos:
                        if vecino[0] < 0 or vecino[0] >= len(rejilla) or vecino[1] < 0 or vecino[1] >= len(rejilla[0]):
                            continue
                        valor = recompensa + gamma * recompensas[vecino[0]][vecino[1]]
                        if valor > mayor_val:
                            mayor_val = valor
                            #max_mov = vecino

                    max_mov = []

                    for vecino in vecinos:
                        if vecino[0] < 0 or vecino[0] >= len(rejilla) or vecino[1] < 0 or vecino[1] >= len(rejilla[0]):
                            continue
                        valor = recompensa + gamma * recompensas[vecino[0]][vecino[1]]
                        if valor == mayor_val:
                            max_mov.append(vecino)


                    # Actualizamos la recompensa y la política 
                    recompensas[i][j] = mayor_val
                    diferencia_actual = max(diferencia_actual, abs(valor_ant - recompensas[i][j]))

                    # Determinamos la acción óptima según la dirección del vecino con mayor valor
                    aux = []
                    for z in max_mov:
                        
                        if i == z[0] and j - 1 == z[1]:
                            aux.append('izquierda')
                        elif i == z[0] and j + 1 == z[1]:
                            aux.append('derecha')
                        elif i - 1 == z[0] and j == z[1]:
                            aux.append('arriba')
                        elif i + 1 == z[0] and j == z[1]:
                            aux.append('abajo')

                    politica[i][j] = aux

        # Comprobamos si la diferencia actual es menor que el umbral epsilon para acabar el proceso si lo alncanzamos
        if diferencia_actual < epsilon:
            operar = False

    # Devolvemos las recompensas y la política finales
    return recompensas, politica


In [21]:
def print_policy(policy_matrix):
    for row in policy_matrix:
        for cell in row:
            if cell == "nan":
                print("{: <50}".format("nan"), end=" ")
            else:
                if isinstance(cell, list):
                    movements = ", ".join(cell)
                else:
                    movements = cell
                print("{: <50}".format(f"[{movements}]"), end=" ")
        print("\n")

#### Resultados

a)

Datos

In [27]:
rejilla = [['T', 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11], [12, 13, 14, 'T']]
recompensa = -1
gamma = 1
epsilon = 1e-6

In [28]:
recompensas, politica = Gridworld(rejilla, recompensa, gamma, epsilon)
print(f'Matriz de recompensas: \n\n{np.array(recompensas)}')
print('\n')
print(f'Politica de movimientos:')
print('\n')
print_policy(politica)

Matriz de recompensas: 

[[ 0. -1. -2. -3.]
 [-1. -2. -3. -2.]
 [-2. -3. -2. -1.]
 [-3. -2. -1.  0.]]


Politica de movimientos:


[nan]                                              [izquierda]                                        [izquierda]                                        [abajo, izquierda]                                 

[arriba]                                           [arriba, izquierda]                                [arriba, abajo, izquierda, derecha]                [abajo]                                            

[arriba]                                           [arriba, abajo, izquierda, derecha]                [abajo, derecha]                                   [abajo]                                            

[arriba, derecha]                                  [derecha]                                          [derecha]                                          [nan]                                              



b)

Datos

In [29]:
rejilla = [['T', 1, 2, 3], [4, 5, 6, 7], [8, 9, 10, 11], [12, 13, 14, 'T'],[None, 15, None, None]]
recompensa = -1
gamma = 1
epsilon = 1e-6

In [30]:
recompensas, politica = Gridworld(rejilla, recompensa, gamma, epsilon)
print(f'Matriz de recompensas: \n\n{np.array(recompensas)}')
print('\n')
print(f'Politica de movimientos:')
print('\n')
print_policy(politica)

Matriz de recompensas: 

[[ 0. -1. -2. -3.]
 [-1. -2. -3. -2.]
 [-2. -3. -2. -1.]
 [-3. -2. -1.  0.]
 [nan -2. nan nan]]


Politica de movimientos:


[nan]                                              [izquierda]                                        [izquierda]                                        [abajo, izquierda]                                 

[arriba]                                           [arriba, izquierda]                                [arriba, abajo, izquierda, derecha]                [abajo]                                            

[arriba]                                           [arriba, abajo, izquierda, derecha]                [abajo, derecha]                                   [abajo]                                            

[arriba, derecha]                                  [derecha]                                          [derecha]                                          [nan]                                              

[nan]                     

---


### Jack's Car Rental

Librerias.

In [1]:
!pip install scipy 




[notice] A new release of pip available: 22.3.1 -> 23.3.2
[notice] To update, run: C:\Users\mussi\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [1]:
from scipy.stats import poisson
import numpy as np

#### Datos

In [4]:
#lambdas dados por el enunciado:
lambda_alquiler1 = 3
lambda_alquiler2 = 4
lambda_devolucion1 = 3
lambda_devolucion2 = 2
max_coches = 10 #realizamos prueba con 10 coches
max_traslado = 5 #máximo de prestamos de una tienda a otra en un día
factor_descuento = 0.9
abono = 10 #recompensa por un alquiler
coste_traslado = 2 #coste por coche trasladado
umbral = 20  #diferencia de rendimientos necesaria para parar
limite_superior = 6  # Para limitar el cálculo de probabilidades de Poisson ( al hacerlo con 10 lo dejamos al máximo)
mejorar = True  # Determina si seguir mejorando la política
iterar = True  # Evaluar si es necesario iterar otra vez
politica = np.zeros((max_coches + 1, max_coches + 1))  # Política
recom = np.zeros((max_coches + 1, max_coches + 1))  # Recompensa esperado
nuevo_recom = np.zeros((max_coches + 1, max_coches + 1))  # Valores de recompensa esperado nuevos
estados = [(i, j) for i in range(max_coches + 1) for j in range(max_coches + 1)]
acciones = np.arange(-max_traslado, max_traslado + 1)  # Las acciones posibles; expresadas como el número de autos trasladados de la localización 1 a la 2. Un número negativo indica que se han movido autos de la localización 2 a la 1.


### ALGORITMO

In [6]:
num_iteracion = 0

# Función de costo por traslado de autos
def costo_traslado(accion):
    return -2 * abs(accion)

# Función de recompensa por alquiler de autos
def recompensa_alquiler(num_alquilados):
    return 10 * num_alquilados

# Función para calcular el rendimiento
def rendimiento(tienda, accion, recom):
    # Inicializamos los retornos con el costo de traslado asociado a la acción
    beneficios = costo_traslado(accion)

    # Calculamos las nuevas ubicaciones de las tiendas después de la acción
    tienda1 = int(min(tienda[0] - accion, max_coches))
    tienda2 = int(min(tienda[1] + accion, max_coches))


    # Bucles anidados para las posibles cantidades de compradores en ambas tiendas
    for compradores_tienda1 in range(0, tienda1):
        for compradores_tienda2 in range(0, tienda2):
            # Calculamos la probabilidad de alquiler en ambas tiendas
            probabilidad_alquilar = poisson.pmf(compradores_tienda1, lambda_alquiler1) * poisson.pmf(compradores_tienda2, lambda_alquiler2)

            # Determinamos la cantidad real de alquileres en cada tienda, los que realmente tenemos disponibles para alquilar
            alquiler_tienda1 = min(tienda1, compradores_tienda1)
            alquiler_tienda2 = min(tienda2, compradores_tienda2)

            # Calculamos las recompensas por alquiler en ambas tiendas, con los coches realmente disponibles para alquilar
            recompensas = recompensa_alquiler(alquiler_tienda1) + recompensa_alquiler(alquiler_tienda2)

            # Bucles anidados para las posibles cantidades de devoluciones en ambas tiendas
            for devoluciones_tienda1 in range(0, max_coches):
                for devoluciones_tienda2 in range(0, max_coches):
                    # Calculamos la probabilidad de devolución en ambas tiendas
                    probabilidad_devolucion = poisson.pmf(devoluciones_tienda1, lambda_devolucion1) * poisson.pmf(devoluciones_tienda2, lambda_devolucion2)
                    # Calculamos la probabilidad total del día
                    probabilidad_dia = probabilidad_alquilar * probabilidad_devolucion

                    # Actualizamos las ubicaciones de las tiendas después de las devoluciones, teniendo en cuenta que no nos podemos pasar del máximo de coches.
                    tienda1_ = min(tienda1 - alquiler_tienda1 + devoluciones_tienda1, max_coches)
                    tienda2_ = min(tienda2 - alquiler_tienda2 + devoluciones_tienda2, max_coches)

                    # Actualizamos los retornos considerando la probabilidad del día y el factor de descuento
                    beneficios += probabilidad_dia * (recompensas + factor_descuento * recom[tienda1_, tienda2_])
    
    # Devolvemos el rendimiento total considerando todas las posibilidades
    return beneficios

# Función para evaluar la política
def evaluar_politica():
    nuevo_recom = np.zeros((max_coches + 1, max_coches + 1))
    for i, j in estados:
        nuevo_recom[i, j] = rendimiento([i, j], politica[i, j], recom)
    return nuevo_recom

# Función para mejorar la política
def mejorar_politica():
    nueva_politica = np.zeros((max_coches + 1, max_coches + 1))
    for i, j in estados:
        recompensas = []
        for accion in acciones:
            # Verificamos si la acción es válida dadas las restricciones
            if ((accion >= 0 and i >= accion) or (accion < 0 and j >= np.abs(accion))):
                # Calculamos la recompensa para cada acción válida
                recompensas.append(rendimiento([i, j], accion, recom))
            else:
                # Asignamos un valor negativo infinito a acciones inválidas
                recompensas.append(float('-inf'))
        # Seleccionamos la acción que maximiza la recompensa
        mejorAccion = np.argmax(recompensas)
        nueva_politica[i, j] = acciones[mejorAccion]
    return nueva_politica

while True:
    num_iteracion += 1

    # Evaluación de política
    nuevo_recom = evaluar_politica()

    if np.sum(np.abs(nuevo_recom - recom)) < umbral:
        break

    # Mejora de política
    nueva_politica = mejorar_politica()

    # Comprobar si la política ha cambiado
    if np.array_equal(nueva_politica, politica):
        break

    politica = nueva_politica
    recom = nuevo_recom

    print(f"Iteración {num_iteracion} - Política:\n {politica}\n")
    #print(f"Iteración {num_iteracion} - recom: {nuevo_recom}\n")


Iteración 1 - Política:
 [[ 0.  0.  0.  0.  0.  0.  0. -3. -3. -4. -4.]
 [ 0.  0.  0.  0.  0.  0. -2. -2. -3. -3. -4.]
 [ 0.  0.  0.  0.  0. -1. -1. -2. -2. -3. -3.]
 [ 0.  0.  0.  0.  0.  0. -1. -1. -2. -2. -3.]
 [ 0.  0.  0.  0.  0.  0.  0. -1. -1. -2. -2.]
 [ 0.  0.  1.  1.  1.  0.  0.  0. -1. -1. -1.]
 [ 0.  2.  2.  2.  1.  1.  0.  0.  0.  0. -1.]
 [ 0.  3.  3.  2.  2.  1.  1.  0.  0.  0.  0.]
 [ 4.  4.  3.  3.  2.  2.  1.  1.  0.  0.  0.]
 [ 5.  4.  4.  3.  3.  2.  2.  1.  1.  0.  0.]
 [ 5.  5.  4.  4.  3.  3.  2.  2.  1.  0.  0.]]

Iteración 2 - Política:
 [[ 0.  0.  0.  0.  0.  0.  0. -3. -3. -4. -4.]
 [ 0.  0.  0.  0.  0. -1. -2. -2. -3. -3. -4.]
 [ 0.  0.  0.  0.  0. -1. -1. -2. -2. -3. -3.]
 [ 0.  0.  0.  0.  0.  0. -1. -1. -2. -2. -3.]
 [ 0.  0.  0.  0.  0.  0.  0. -1. -1. -2. -2.]
 [ 0.  0.  1.  1.  1.  0.  0.  0. -1. -1. -1.]
 [ 0.  2.  2.  2.  1.  1.  1.  0.  0.  0. -1.]
 [ 3.  3.  3.  2.  2.  2.  1.  1.  0.  0.  0.]
 [ 4.  4.  3.  3.  3.  2.  2.  1.  1.  0.  0.]
 [ 5.  4