# Reinforcement Learning, 2024-01 
# Tarea 2 - Programación Dinámica

> Daniel Villar González, 201923374.  
> Daniel Alvarez, 201911320.

**Considere la variación del juego escaleras y serpientes mostrada en la figura:**
<center><img src="imagen-resource-h2.PNG" alt="drawing" width="400"/>
</center> 

- **La meta del jugador es ganar la partida llegando a una de las casillas marcadas en azul.**
- **El jugador pierde la partida si cae en una de las casillas marcadas en rojo.**
- **En cada jugada, antes de lanzar el dado, el jugador decide si quiere avanzar o retroceder el número de casillas indicadas por el dado.**
- **El dado está cargado, con probabilidades p =[p1 p2 p3 p4 p5 p6].**
- **En las casillas 1 y 100 la ficha rebota (si se supera el extremo, se avanza en la otra dirección la cantidad restante).**


## **Librerias**

In [4]:
import numpy as np

## **Punto 1**

**Modele este problema como un MDP. De detalladamente todos los elementos del MDP: estados, recompensas, acciones y p(s′, r | s, a) ∀s, s′, r, a, y factor de descuento γ.**

Estados (S): Los estados en este problema representarán la posición actual del jugador en el tablero. Cada casilla en el tablero será un estado posible, desde la casilla 1 hasta la casilla 100: S = {1, 2, 3, ..., 99, 100}.

Recompensas (R): Se asigna una recompensa positiva (+1) cuando el jugador llega a una casilla marcada en azul (la meta) y una recompensa negativa (-1) cuando el jugador cae en una casilla marcada en rojo (pierde la partida). En el resto de las casillas la recompensa será 0. 

Acciones (A): En cada estado, el jugador puede tomar una acción que consiste en decidir si avanza o retrocede el número de casillas indicadas por el dado. Dado que el dado está cargado, el jugador también debe considerar la probabilidad de avanzar o retroceder en función de los resultados posibles del dado: A = {Avanzar, Retroceder}

Probabilidad de transición (p(s', r | s, a)): Define la probabilidad de pasar de un estado s a un estado s′ y recibir una recompensa r dado que se toma una acción a. En este caso, la probabilidad de transición depende de la acción tomada (avanzar o retroceder) y del resultado del dado. Más adelante se definirá la matriz de probabilidades de transición.

Factor de descuento (γ): Se utilizará un valor de descuento γ=0.9 para dar más peso a las recompensas inmediatas.

A continuación se definirán las probabilidades de transición para cada posible estado:

In [5]:
p1 = 0.03
p2 = 0.07
p3 = 0.15
p4 = 0.2
p5 = 0.25
p6 = 0.3
p = [p1, p2, p3, p4, p5, p6]
transiciones = {8:26, 21:82, 43:77, 50:91, 54:93, 62:96, 66:87, 80:100, 98:28, 95:24, 92:51, 83:19, 73:1, 69:33, 64:36, 59:17, 55:7, 52:11, 48:9, 46:5, 44:22}
recompensas = {23:-1, 37:-1, 45:-1, 67:-1, 89:-1, 80:1, 100:1}
    
matrizAdelante = []
for i in range(100):
    matrizAdelante.append([0] * 100)

matrizRecompensasAdelante = []
for i in range(100):
    matrizRecompensasAdelante.append([0] * 100)

llaves_transiciones = transiciones.keys()
llaves_recompensas = recompensas.keys()

for i in range(len(matrizAdelante)): 
    for j in range(0, 6):
        destino = i + j + 1 
        if destino >= 100:  
            destino = 99 - (destino - 100)  
        if destino+1 in llaves_transiciones:
            matrizAdelante[i][transiciones[destino+1]-1] += p[j]  
            if destino+1 in llaves_recompensas:
                matrizRecompensasAdelante[i][transiciones[destino+1]-1] += recompensas[destino+1]
        else:
            matrizAdelante[i][destino] += p[j] 
            if destino+1 in llaves_recompensas:
                matrizRecompensasAdelante[i][destino] += recompensas[destino+1]
        
for i in range(len(matrizAdelante)):
    print(matrizAdelante[i])

[0, 0.03, 0.07, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0.03, 0.07, 0.15, 0.2, 0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0.03, 0.07, 0.15, 0.2, 0, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0.03, 0.07, 0.15, 0, 0.25, 0.3, 0, 0

In [6]:
transpuesta = []
for j in range(len(matrizAdelante[0])):
    fila_transpuesta = []
    for i in range(len(matrizAdelante)):
        fila_transpuesta.append(matrizAdelante[i][j])
    transpuesta.append(fila_transpuesta)

Como se puede notar, quedaron definidas las probabilidades de transición desde un s a un estado s′ dado que se toma la acción de ir hacia adelante. Las filas indican el estado s y las columnas el estado s'. El valor de la matriz en la posición (s,s') indica la probabilidad de pasar desde el estado s al estado s', las cuales dependen de los valores de **p**. A continuación se muestra la recompensa obtenida al tomar la acción de ir hacia adelante, desde un estado s:

In [7]:
for i in range(len(matrizRecompensasAdelante)):
    print(matrizRecompensasAdelante[i])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 


A continuación se definirán las probabilidades de transición para la acción de ir hacia atrás:

In [8]:
matrizAtras = []
for i in range(100):
    matrizAtras.append([0] * 100)

matrizRecompensasAtras= []
for i in range(100):
    matrizRecompensasAtras.append([0] * 100)

for i in range(len(matrizAtras)): 
    for j in range(0, 6):
        destino = i - j 
        if destino <= 0:  
            destino = abs(destino) + 1
        if destino in llaves_transiciones:
            matrizAtras[i][transiciones[destino]-1] += p[j]  
            if destino in llaves_recompensas:
                matrizRecompensasAtras[i][transiciones[destino]-1] += recompensas[destino]
        else:
            matrizAtras[i][destino-1] += p[j] 
            if destino in llaves_recompensas:
                matrizRecompensasAtras[i][destino-1] += recompensas[destino]

for i in range(len(matrizAtras)):
    print(matrizAtras[i])

[0.03, 0.07, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.1, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.22, 0.23, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.35, 0.32, 0.32999999999999996, 0, 0, 0, 0, 0, 0, 0, 0, 

Como se puede notar, quedaron definidas las probabilidades de transición desde un s a un estado s′ dado que se toma la acción de ir hacia atrás.

In [9]:
for i in range(len(matrizRecompensasAtras)):
    print(matrizRecompensasAtras[i])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

Como se puede notar, quedaron definidas las recompensas obtenidas desde un s a un estado s′ dado que se toma la acción de ir hacia atrás.

De esta forma, quedan definidas las probabilidades de transición p(s′, r | s, a) ∀s, s′, r, a.

## **Punto 2**

**Escriba un módulo de Python para el MDP formulado. Su implementación debe tener métodos para:**

- **Construir el MDP para una localización dada de las casillas azules y rojas, el vector p, y el factor de descuento γ.**
- **Dada una política π (estocástica o determinística), calcular la función de valor de estado usando programación dinámica.**
- **Dada una política π (estocástica o determinística), determinar si esta política es óptima chequeando las ecuaciones de optimalidad de Bellman.**
- **Hallar una política óptima para una instancia del MDP, usando iteración de política.**
- **Hallar una política óptima para una instancia del MDP, usando iteración de valor.**


### **Construir el MDP para una localización dada de las casillas azules y rojas, el vector p, y el factor de descuento γ.**

A continuación se define un código para construir el MDP dadas las casillas azules, las casillas rojas, el vector **p** y el factor de descuento γ.

El input de las casillas azules (casillasAzules) sería una lista con los números de las casillas.
El input de las casillas rojas (casillasRojas) sería una lista con los números de las casillas.
El input del vector **p** es una lista de 6 posiciones con las probabilidades p1, p2, p3, p4, p5 y p6.
El input del factor de descuento γ (factorDescuento) es un valor entre 0 y 1. 

In [10]:
def construirMDP(casillasAzules, casillasRojas, p, factorDescuento):
    if factorDescuento > 1 or factorDescuento < 0:
        return "El valor de descuento no está entre los límites permitidos"
    matrizAdelante = []
    for i in range(100):
        matrizAdelante.append([0] * 100)
    matrizRecompensasAdelante = []
    for i in range(100):
        matrizRecompensasAdelante.append([0] * 100)
    matrizAtras = []
    for i in range(100):
        matrizAtras.append([0] * 100)
    matrizRecompensasAtras= []
    for i in range(100):
        matrizRecompensasAtras.append([0] * 100)
    recompensas = {}
    for i in range(len(casillasAzules)):
        recompensas[casillasAzules[i]] = 1
    for i in range(len(casillasRojas)):
        recompensas[casillasRojas[i]] = -1
    transiciones = {8:26, 21:82, 43:77, 50:91, 54:93, 62:96, 66:87, 80:100, 98:28, 95:24, 92:51, 83:19, 73:1, 69:33, 64:36, 59:17, 55:7, 52:11, 48:9, 46:5, 44:22}
    llaves_transiciones = transiciones.keys()
    llaves_recompensas = recompensas.keys()
    for i in range(len(matrizAdelante)): 
        for j in range(0, 6):
            destino = i + j + 1 
            if destino >= 100:  
                destino = 99 - (destino - 100)  
            if destino+1 in llaves_transiciones:
                matrizAdelante[i][transiciones[destino+1]-1] += p[j]  
                if destino+1 in llaves_recompensas:
                    matrizRecompensasAdelante[i][transiciones[destino+1]-1] += recompensas[destino+1]
            else:
                matrizAdelante[i][destino] += p[j] 
                if destino+1 in llaves_recompensas:
                    matrizRecompensasAdelante[i][destino] += recompensas[destino+1]
    for i in range(len(matrizAtras)): 
        for j in range(0, 6):
            destino = i - j 
            if destino <= 0:  
                destino = abs(destino) + 1
            if destino in llaves_transiciones:
                matrizAtras[i][transiciones[destino]-1] += p[j]  
                if destino in llaves_recompensas:
                    matrizRecompensasAtras[i][transiciones[destino]-1] += recompensas[destino]
            else:
                matrizAtras[i][destino-1] += p[j] 
                if destino in llaves_recompensas:
                    matrizRecompensasAtras[i][destino-1] += recompensas[destino]
    return matrizAdelante, matrizAtras, matrizRecompensasAdelante, matrizRecompensasAtras

### INPUTS
casillasAzules = [80, 100]    
casillasRojas = [23, 37, 45, 67, 89]
p1 = 0.03
p2 = 0.07
p3 = 0.15
p4 = 0.2
p5 = 0.25
p6 = 0.3
p = [p1, p2, p3, p4, p5, p6]
factorDescuento = 0.9
matrizAdelante, matrizAtras, matrizRecompensasAdelante, matrizRecompensasAtras = construirMDP(casillasAzules, casillasRojas, p, factorDescuento)

A continuación se muestran los resultados obtenidos, es decir, (1) la matriz de probabilidades de transición al tomar la acción de ir hacia adelante, (2) la matriz de recompensas obtenidas al ir hacia adelante, (3) la matriz de probabilidades de transición al tomar la acción de ir hacia atrás y (4) la matriz de recompensas obtenidas al ir hacia atrás.

In [11]:
for i in range(len(matrizAdelante)):
    print(matrizAdelante[i])

[0, 0.03, 0.07, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0.03, 0.07, 0.15, 0.2, 0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0.03, 0.07, 0.15, 0.2, 0, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0.03, 0.07, 0.15, 0, 0.25, 0.3, 0, 0

In [12]:
for i in range(len(matrizRecompensasAdelante)):
    print(matrizRecompensasAdelante[i])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

In [13]:
for i in range(len(matrizAtras)):
    print(matrizAtras[i])

[0.03, 0.07, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.1, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.22, 0.23, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.35, 0.32, 0.32999999999999996, 0, 0, 0, 0, 0, 0, 0, 0, 

In [14]:
for i in range(len(matrizRecompensasAtras)):
    print(matrizRecompensasAtras[i])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

### **Dada una política π (estocástica o determinística), calcular la función de valor de estado usando programación dinámica.**

In [15]:
politica = []
for i in range(100):
    politica.append([0, 1])

In [16]:
def calcularFuncionValorEstado(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, politica, factorDescuento, epsilon, casillasAzules, casillasRojas):
    valores = [0] * len(matrizAdelante)
    convergencia = False
    while not convergencia: 
        valores_previos = valores.copy()
        for estado in range(len(matrizAdelante)):
            if estado+1 not in casillasAzules and estado+1 not in casillasRojas:
                nuevo_valor = 0
                # Avanzar
                for estado_siguiente in range(len(matrizAdelante[estado])):
                    nuevo_valor += politica[estado][0] * matrizAdelante[estado][estado_siguiente] * (matrizRecompensasAdelante[estado][estado_siguiente] + factorDescuento*valores[estado_siguiente])
                # Retroceder
                for estado_siguiente in range(len(matrizAtras[estado])):
                    nuevo_valor += politica[estado][1] * matrizAtras[estado][estado_siguiente] * (matrizRecompensasAtras[estado][estado_siguiente] + factorDescuento*valores[estado_siguiente])
                valores[estado] = nuevo_valor
        # Verificar si se ha alcanzado la convergencia
        dif_maxima = max(abs(valores[estado] - valores_previos[estado]) for estado in range(len(matrizAdelante))) 
        if dif_maxima < epsilon:
            convergencia = True
    return valores

epsilon = 0.001
V = calcularFuncionValorEstado(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, politica, factorDescuento, epsilon, casillasAzules, casillasRojas)
print("La política es: " + str(politica))
print("El valor de descuento es: " + str(factorDescuento))
print("Las probabilidades del dado son: " + str(p))
print("Función de Valor de Estado:")
for i in range(len(V)):
    print("Casilla " +str(i+1)+" tiene un valor de "+ str(V[i]))

La política es: [[0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1]]
El valor de descuento es: 0.9
Las probabilidades del dado son: [0.03, 0.07, 0.15, 0.2, 0.25, 0.3]
Función de Valor de Estado:
Casilla 1 tiene un valor de 0.0
Casilla 2 tiene un valor 

Como se puede notar, la función de valor de estado en los estados terminales, por ejemplo en la casilla 100, es 0. Esto es por definición de la función de valor.

### **Dada una política π (estocástica o determinística), determinar si esta política es óptima chequeando las ecuaciones de optimalidad de Bellman.**

Para este caso se hará uso de de las ecuaciones de optimalidad de Bellman, en particular la que nos da el valor para la función de valor $v_{*}(s)$, dada por la siguiente expresión:
$$v_{*}(s)= max_{a\in A(s)} q_{\pi_{*}}(s,a)$$
Donde es más fácil verla como:
$$v_{*}(s)= max_{a}\sum_{s',r}p(s',r|s,a)[r + \lambda v_{*}(s')]$$
Para este caso se definió un vector de valores en los cuales se aplica una suma sobre estados y recompensas comparando ambas acciones. A partir de v∗ se puede determinar si una política es óptima o no de manera greedy.

En general, las ecuaciones de optimalidad de Bellman son un conjunto de 100 ecuaciones no lineales de 100 incógnitas. Teniendo en cuenta que es un MDP finito, las ecuaciones tienen una única solución que es independiente de la política y, dado que conocemos las dinámicas del ambiente, podemos resolver las ecuaciones.

In [92]:
def bellman_cal(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps):
    valores = [0] * len(matrizAdelante)
    convergencia = False
    while not convergencia:
        valores_prev = valores.copy()
        for estado in range(len(matrizAdelante)):
            if estado + 1 not in casillasAzules and estado + 1 not in casillasRojas:
                acciones_valor = []
                valor_avanzar = sum(matrizAdelante[estado][estado_siguiente] * (matrizRecompensasAdelante[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAdelante[estado])))
                acciones_valor.append(valor_avanzar)
                valor_retroceder = sum(matrizAtras[estado][estado_siguiente] * (matrizRecompensasAtras[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAtras[estado])))
                acciones_valor.append(valor_retroceder)
                valores[estado] = max(acciones_valor)
        dif_maxima = max(abs(valores[estado] - valores_prev[estado]) for estado in range(len(matrizAdelante))) 
        if dif_maxima < eps:
            convergencia = True
    return valores
eps = 0.001
Bellman = bellman_cal(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps)

A continuación mostramos los valores obtenidos al aplicar las ecuaciones de optimalidad de Bellman. Esos valores indican el valor máximo que se puede obtener al tomar una acción en cada estado.

In [94]:
print(Bellman)

[0.10469210662476805, 0.09488704799075945, 0.09749082259265315, 0.10866427371189763, 0.11606944566258738, 0.1228540457881836, 0.12413404971654708, 0.12313208058593411, 0.1409663175006654, 0.1527090814396166, 0.1455062722798538, 0.14008135351261003, 0.13422926747352398, 0.13059432611593766, 0.20667730975288517, 0.1940045146737963, 0.13085529263740797, 0.13518734347311506, 0.1409120925403501, 0.14667056903043144, 0.15409570067235087, 0.14611450171774587, 0, 0.13228042831991, 0.10230245061680084, 0.048445867272160124, 0.04673859019437002, 0.04460200925585488, 0.043732038919705306, 0.07775442445433557, 0.057810687199507764, 0.04398817117244042, 0.04585323965715439, 0.047691782684335375, 0.04982315504561457, 0.05245896488265969, 0, 0.1144918733470438, -0.027747565440852995, -0.11000659135712669, -0.04577746791870366, -0.0016053274473606712, 0.11673082859295826, 0.3065279228242189, 0, 0.31550400077185936, 0.30950601238321196, 0.37412492265397856, 0.29609273898580224, 0.351937467991676, 0.394

A continuación se evalúa si la política utilizada es óptima o no. Para esto se comparan los valores obtenidos por la función de valor con los obtenidos con las ecuaciones de optimalidad de Bellman. Si para el estado $i$ los valores coinciden, significa que en ese estado se está tomando la mejor acción. El resultado de esta función nos indica en cuántos estados se estaría tomando la acción correcta a partir de la política definida. Una política óptima nos debería retornar un valor de 100 en el siguiente código, ya que estaría indicando que toma la mejor acción para cada estado.

In [102]:
def error_test(valores_optimos, matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun):
    errno = [0] * len(matrizAdelante)
    bellman = bellman_cal(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps)
    for i in range(len(bellman)):
        s = (bellman[i] - valores_optimos[i])
        if s < criteriun:
            errno[i] = 1
        else:
            errno[i] = 0
    ans = sum(errno)
    return ans

criteriun = 0.001
y = error_test(V, matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun)
print("El número de estados en los que se estaría tomando la acción correcta para la política dada es: " +str(y))

El número de estados en los que se estaría tomando la acción correcta para la política dada es: 7


### **Hallar una política óptima para una instancia del MDP, usando iteración de política**

In [103]:
def mejorarPolitica(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, valores, factorDescuento):
    politica_nueva = [[0, 0] for _ in range(len(matrizAdelante))]
    politica_estable = True
    for estado in range(len(matrizAdelante)):
        acciones_valor = []
        valor_avanzar = sum(matrizAdelante[estado][estado_siguiente] * (matrizRecompensasAdelante[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAdelante[estado])))
        acciones_valor.append(valor_avanzar)
        valor_retroceder = sum(matrizAtras[estado][estado_siguiente] * (matrizRecompensasAtras[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAtras[estado])))
        acciones_valor.append(valor_retroceder)
        mejor_accion = acciones_valor.index(max(acciones_valor))
        if politica_nueva[estado][mejor_accion] != 1:
            politica_estable = False
        politica_nueva[estado] = [0, 0]
        politica_nueva[estado][mejor_accion] = 1
    return politica_nueva, politica_estable

In [104]:
def iteracionPolitica(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, epsilon, error, casillasAzules, casillasRojas):
    politica = [[0.5, 0.5] for _ in range(len(matrizAdelante))]
    politica_estable = False
    V = [0] * len(matrizAdelante)
    while not politica_estable:
        V_anterior = V.copy()
        V = calcularFuncionValorEstado(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, politica, factorDescuento, epsilon, casillasAzules, casillasRojas)
        error_maximo = max(abs(v - v_anterior) for v, v_anterior in zip(V, V_anterior))
        politica, politica_estable = mejorarPolitica(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, V, factorDescuento)
        if error_maximo <= error:
            print(f"Deteniendo debido a que el error máximo {error_maximo} es menor o igual al umbral deseado {error}.")
            break
    return politica, V

In [105]:
error = 0
valores_ = iteracionPolitica(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, epsilon, error, casillasAzules, casillasRojas)

Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.


In [106]:
print(valores_[1]) 

[0.10486660922010116, 0.09506375742689022, 0.09764073832953693, 0.10881265807516702, 0.11621661896524646, 0.12300267746478433, 0.12428182193458776, 0.12327878658359957, 0.1411041878957226, 0.1528398319307905, 0.14563493303501035, 0.14020756772641296, 0.134353255558818, 0.13071558414956524, 0.2067804001272741, 0.19410677134622706, 0.13096637255304067, 0.1352945036047137, 0.14101510465735187, 0.14676943843884613, 0.1541901630647108, 0.1462083938594545, 0, 0.13236557911481858, 0.10237992152869022, 0.0485292511879269, 0.04682008669056808, 0.0446816511263457, 0.04380986296587054, 0.07782797594304813, 0.057882675553700975, 0.04406044075361479, 0.04592358745628013, 0.04776020646972981, 0.04988971027380341, 0.052523634331439875, 0, 0.11457988505227731, -0.027690089550674674, -0.10995440492148274, -0.04568800623815051, -0.0015042220756231756, 0.11684269237459005, 0.3066240392901723, 0, 0.3156054760228725, 0.3096075453875954, 0.37421343028002785, 0.296193321300501, 0.3520343451869027, 0.39471765

In [107]:
def error_test(valores_optimos, matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun):
    errno = [0] * len(matrizAdelante)
    bellman = bellman_cal(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps)
    for i in range(len(bellman)):
        s = (bellman[i] - valores_optimos[i])
        if s < criteriun:
            errno[i] = 1
        else:
            errno[i] = 0
    ans = sum(errno)
    return ans

y = error_test(valores_[1], matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun)
print("El número de estados en los que se estaría tomando la acción correcta para la política dada es: " +str(y))

El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100


### **Hallar una política óptima para una instancia del MDP, usando iteración de valor.**

In [141]:
def iteraciondevalor(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, epsilon, casillasAzules, casillasRojas):
    politica_nueva = [[0, 0] for _ in range(len(matrizAdelante))]
    valores = [0] * len(matrizAdelante)
    convergencia = False
    while not convergencia: 
        valores_previos = valores.copy()
        for estado in range(len(matrizAdelante)):
            if estado + 1 not in casillasAzules and estado + 1 not in casillasRojas:
                acciones_valor = []
                valor_avanzar = sum(matrizAdelante[estado][estado_siguiente] * (matrizRecompensasAdelante[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAdelante[estado])))
                acciones_valor.append(valor_avanzar)
                valor_retroceder = sum(matrizAtras[estado][estado_siguiente] * (matrizRecompensasAtras[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAtras[estado])))
                acciones_valor.append(valor_retroceder)
                mejor_accion = acciones_valor.index(max(acciones_valor))
                valores[estado] = acciones_valor[mejor_accion]
                politica_nueva[estado] = [0, 0]
                politica_nueva[estado][mejor_accion] = 1
        # Verificar si se ha alcanzado la convergencia    
        dif_maxima = max(abs(valores[estado] - valores_previos[estado]) for estado in range(len(matrizAdelante))) 
        if dif_maxima < epsilon:
            convergencia = True
    return valores, politica_nueva

epsilon = 0.001
V2, politica_v = iteraciondevalor(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, epsilon, casillasAzules, casillasRojas)
# print("La política es: " + str(politica))
# print("El valor de descuento es: " + str(factorDescuento))
# print("Las probabilidades del dado son: " + str(p))
# print("Función de Valor de Estado:")
for i in range(len(V2)):
    print("Casilla " +str(i+1)+" tiene un valor de "+ str(V2[i]))

Casilla 1 tiene un valor de 0.10469210662476805
Casilla 2 tiene un valor de 0.09488704799075945
Casilla 3 tiene un valor de 0.09749082259265315
Casilla 4 tiene un valor de 0.10866427371189763
Casilla 5 tiene un valor de 0.11606944566258738
Casilla 6 tiene un valor de 0.1228540457881836
Casilla 7 tiene un valor de 0.12413404971654708
Casilla 8 tiene un valor de 0.12313208058593411
Casilla 9 tiene un valor de 0.1409663175006654
Casilla 10 tiene un valor de 0.1527090814396166
Casilla 11 tiene un valor de 0.1455062722798538
Casilla 12 tiene un valor de 0.14008135351261003
Casilla 13 tiene un valor de 0.13422926747352398
Casilla 14 tiene un valor de 0.13059432611593766
Casilla 15 tiene un valor de 0.20667730975288517
Casilla 16 tiene un valor de 0.1940045146737963
Casilla 17 tiene un valor de 0.13085529263740797
Casilla 18 tiene un valor de 0.13518734347311506
Casilla 19 tiene un valor de 0.1409120925403501
Casilla 20 tiene un valor de 0.14667056903043144
Casilla 21 tiene un valor de 0.1540

In [109]:
def error_test(valores_optimos, matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun):
    errno = [0] * len(matrizAdelante)
    bellman = bellman_cal(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps)
    for i in range(len(bellman)):
        s = (bellman[i] - valores_optimos[i])
        if s < criteriun:
            errno[i] = 1
        else:
            errno[i] = 0
    ans = sum(errno)
    return ans

y = error_test(V2, matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun)
print("El número de estados en los que se estaría tomando la acción correcta para la política dada es: " +str(y))

El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100


## **Punto 3**

**Utilice su implementación de programación dinámica para hallar la función de valor de:**

**a) La política que siempre avanza.**

**b) La política que avanza con probabilidad 0,7.**


### **3.a. Hallar la función de valor para la política que siempre avanza**

A continuación se define la política que siempre avanza. Según la estructura que se está utilizando para definir la política, el primer valor debería ser 1 y el segundo 0. De esta forma, se estaría diciendo que con probabilidad 1 se escoge la opción de avanzar y con probabilidad 0 la opción de retroceder.

In [110]:
politica = []
for i in range(100):
    politica.append([1, 0])
V = calcularFuncionValorEstado(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, politica, factorDescuento, epsilon, casillasAzules, casillasRojas)
print("La política es: " +str(politica))
print("El valor de descuento es: " + str(factorDescuento))
print("Las probabilidades del dado son: " + str(p))
print("Función de Valor de Estado:")
for i in range(len(V)):
    print("Casilla " +str(i+1)+" tiene un valor de "+ str(V[i]))

La política es: [[1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0]]
El valor de descuento es: 0.9
Las probabilidades del dado son: [0.03, 0.07, 0.15, 0.2, 0.25, 0.3]
Función de Valor de Estado:
Casilla 1 tiene un valor de -0.24375523505723548
Casilla 

### **3.b. Hallar la función de valor para la política que avanza con probabilidad de 0.7**

A continuación se define la política que avanza con probabilidad de 0.7. Según la estructura que se está utilizando para definir la política, el primer valor debería ser 0.7 y el segundo 0.3. De esta forma, se estaría diciendo que con probabilidad 1 se escoge la opción de avanzar y con probabilidad 0 la opción de retroceder.

In [111]:
politica = []
for i in range(100):
    politica.append([0.7, 0.3])
V = calcularFuncionValorEstado(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, politica, factorDescuento, epsilon, casillasAzules, casillasRojas)
print("La política es: " +str(politica))
print("El valor de descuento es: " + str(factorDescuento))
print("Las probabilidades del dado son: " + str(p))
print("Función de Valor de Estado:")
for i in range(len(V)):
    print("Casilla " +str(i+1)+" tiene un valor de "+ str(V[i]))

La política es: [[0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3],

## **Punto 4**

**Utilice su implementación de iteración de política para encontrar una política óptima para la configuración mostrada en la figura para tres vectores p generados aleatoriamente. Chequee que la política encontrada en cada caso es efectivamente óptima. Muestre la política óptima en cada caso (acción en cada casilla). Repita el experimento pero ahora utilizando iteración de valor (usando los mismos p). Experimente en ambos casos con diferentes valores de γ.**

Se definen tres vectores p generados aleatoriamente:

In [113]:
import numpy as np
np.random.seed(42)
p1 = np.random.dirichlet(np.ones(6), size=1)[0]
p2 = np.random.dirichlet(np.ones(6), size=1)[0]
p3 = np.random.dirichlet(np.ones(6), size=1)[0]
print("Vector de probabilidades p1:", p1)
print("Vector de probabilidades p2:", p2)
print("Vector de probabilidades p3:", p3)

Vector de probabilidades p1: [0.07758679 0.49768066 0.21770513 0.15094204 0.02804505 0.02804033]
Vector de probabilidades p2: [0.00772536 0.25965576 0.11865618 0.15895797 0.00268525 0.45231947]
Vector de probabilidades p3: [0.50534215 0.06751955 0.05676773 0.05731437 0.10261516 0.21044104]


Ahora se construyen los diferentes MDP para los diferentes vectores p y para los valores de γ ={0.7, 0.9, 0.8}

In [115]:
casillasAzules = [80, 100]    
casillasRojas = [23, 37, 45, 67, 89]
factorDescuento1 = 0.7
matrizAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAdelanteP1L1, matrizRecompensasAtrasP1L1 = construirMDP(casillasAzules, casillasRojas, p1, factorDescuento)
matrizAdelanteP2L1, matrizAtrasP2L1, matrizRecompensasAdelanteP2L1, matrizRecompensasAtrasP2L1 = construirMDP(casillasAzules, casillasRojas, p2, factorDescuento)
matrizAdelanteP3L1, matrizAtrasP3L1, matrizRecompensasAdelanteP3L1, matrizRecompensasAtrasP3L1 = construirMDP(casillasAzules, casillasRojas, p3, factorDescuento)

factorDescuento2 = 0.9
matrizAdelanteP1L09, matrizAtrasP1L09, matrizRecompensasAdelanteP1L09, matrizRecompensasAtrasP1L09 = construirMDP(casillasAzules, casillasRojas, p1, factorDescuento)
matrizAdelanteP2L09, matrizAtrasP2L09, matrizRecompensasAdelanteP2L09, matrizRecompensasAtrasP2L09 = construirMDP(casillasAzules, casillasRojas, p2, factorDescuento)
matrizAdelanteP3L09, matrizAtrasP3L09, matrizRecompensasAdelanteP3L09, matrizRecompensasAtrasP3L09 = construirMDP(casillasAzules, casillasRojas, p3, factorDescuento)

factorDescuento3 = 0.8
matrizAdelanteP1L08, matrizAtrasP1L08, matrizRecompensasAdelanteP1L08, matrizRecompensasAtrasP1L08 = construirMDP(casillasAzules, casillasRojas, p1, factorDescuento)
matrizAdelanteP2L08, matrizAtrasP2L08, matrizRecompensasAdelanteP2L08, matrizRecompensasAtrasP2L08 = construirMDP(casillasAzules, casillasRojas, p2, factorDescuento)
matrizAdelanteP3L08, matrizAtrasP3L08, matrizRecompensasAdelanteP3L08, matrizRecompensasAtrasP3L08 = construirMDP(casillasAzules, casillasRojas, p3, factorDescuento)    

### Utilizando la implementación de iteración de política

Cuando γ = 1, el valor presente de una serie de recompensas futuras constantes y positivas se vuelve infinito, lo que puede llevar a problemas de convergencia en los algoritmos de programación dinámica como la iteración de valor o la iteración de política. Un γ menor que 1 asegura que la suma de las recompensas descontadas futuras converja, lo que facilita la solución numérica del MDP.

In [119]:
V11 = iteracionPolitica(matrizAdelanteP1L1, matrizRecompensasAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAtrasP1L1, factorDescuento1, epsilon, error, casillasAzules, casillasRojas)
V21 = iteracionPolitica(matrizAdelanteP2L1, matrizRecompensasAdelanteP2L1, matrizAtrasP2L1, matrizRecompensasAtrasP2L1, factorDescuento1, epsilon, error, casillasAzules, casillasRojas)
V31 = iteracionPolitica(matrizAdelanteP3L1, matrizRecompensasAdelanteP3L1, matrizAtrasP3L1, matrizRecompensasAtrasP3L1, factorDescuento1, epsilon, error, casillasAzules, casillasRojas)

V109 = iteracionPolitica(matrizAdelanteP1L09, matrizRecompensasAdelanteP1L09, matrizAtrasP1L09, matrizRecompensasAtrasP1L09, factorDescuento2, epsilon, error, casillasAzules, casillasRojas)
V209 = iteracionPolitica(matrizAdelanteP2L09, matrizRecompensasAdelanteP2L09, matrizAtrasP2L09, matrizRecompensasAtrasP2L09, factorDescuento2, epsilon, 0.0001, casillasAzules, casillasRojas)
V309 = iteracionPolitica(matrizAdelanteP3L09, matrizRecompensasAdelanteP3L09, matrizAtrasP3L09, matrizRecompensasAtrasP3L09, factorDescuento2, epsilon, 0.001, casillasAzules, casillasRojas)

V108 = iteracionPolitica(matrizAdelanteP1L08, matrizRecompensasAdelanteP1L08, matrizAtrasP1L08, matrizRecompensasAtrasP1L08, factorDescuento3, epsilon, error, casillasAzules, casillasRojas)
V208 = iteracionPolitica(matrizAdelanteP2L08, matrizRecompensasAdelanteP2L08, matrizAtrasP2L08, matrizRecompensasAtrasP2L08, factorDescuento3, epsilon, error, casillasAzules, casillasRojas)
V308 = iteracionPolitica(matrizAdelanteP3L08, matrizRecompensasAdelanteP3L08, matrizAtrasP3L08, matrizRecompensasAtrasP3L08, factorDescuento3, epsilon, error, casillasAzules, casillasRojas)

Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.0001.
Deteniendo debido a que el error máximo 0.00029822269821745684 es menor o igual al umbral deseado 0.001.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.


A continuación se verifica que la política encontrada es efectivamente óptima:

In [133]:
evaluation = 10**-3
error_1 = error_test(V11[1], matrizAdelanteP1L1, matrizRecompensasAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAtrasP1L1, factorDescuento1, eps, evaluation)
error_2 = error_test(V21[1], matrizAdelanteP2L1, matrizRecompensasAdelanteP2L1, matrizAtrasP2L1, matrizRecompensasAtrasP2L1, factorDescuento1, eps, evaluation)
error_3 = error_test(V31[1], matrizAdelanteP3L1, matrizRecompensasAdelanteP3L1, matrizAtrasP3L1, matrizRecompensasAtrasP3L1, factorDescuento1, eps, evaluation)

error_4 = error_test(V109[1], matrizAdelanteP1L09, matrizRecompensasAdelanteP1L09, matrizAtrasP1L09, matrizRecompensasAtrasP1L09, factorDescuento2, eps, evaluation)
error_5 = error_test(V209[1], matrizAdelanteP2L09, matrizRecompensasAdelanteP2L09, matrizAtrasP2L09, matrizRecompensasAtrasP2L09, factorDescuento2, eps, evaluation)
error_6 = error_test(V309[1], matrizAdelanteP3L09, matrizRecompensasAdelanteP3L09, matrizAtrasP3L09, matrizRecompensasAtrasP3L09, factorDescuento2, eps, evaluation)

error_7 = error_test(V108[1], matrizAdelanteP1L08, matrizRecompensasAdelanteP1L08, matrizAtrasP1L08, matrizRecompensasAtrasP1L08, factorDescuento3, eps, evaluation)
error_8 = error_test(V208[1], matrizAdelanteP2L08, matrizRecompensasAdelanteP2L08, matrizAtrasP2L08, matrizRecompensasAtrasP2L08, factorDescuento3, eps, evaluation)
error_9 = error_test(V308[1], matrizAdelanteP3L08, matrizRecompensasAdelanteP3L08, matrizAtrasP3L08, matrizRecompensasAtrasP3L08, factorDescuento3, eps, evaluation)

In [134]:
for i in range(9):
    print(locals()[f"error_{i+1}"])

100
100
100
100
100
100
100
100
100


A continuación se muestra la política encontrada:

In [135]:
print(V11[0])
print(V21[0])
print(V31[0])

print(V109[0])
print(V209[0])
print(V309[0])

print(V108[0])
print(V208[0])
print(V308[0])

[[1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [1, 0], [1, 0], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0]]
[[1, 0], [0, 1], [1, 0], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [1, 0]

### Utilizando la implementación de iteración de valor

In [142]:
epsilon = 0.001
V11_v, politica_v11 = iteraciondevalor(matrizAdelanteP1L1, matrizRecompensasAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAtrasP1L1, factorDescuento1, epsilon, casillasAzules, casillasRojas)
V21_v, politica_v21 = iteraciondevalor(matrizAdelanteP2L1, matrizRecompensasAdelanteP2L1, matrizAtrasP2L1, matrizRecompensasAtrasP2L1, factorDescuento1, epsilon, casillasAzules, casillasRojas)
V31_v, politica_v31 = iteraciondevalor(matrizAdelanteP3L1, matrizRecompensasAdelanteP3L1, matrizAtrasP3L1, matrizRecompensasAtrasP3L1, factorDescuento1, epsilon, casillasAzules, casillasRojas)

V109_v, politica_v109 = iteraciondevalor(matrizAdelanteP1L09, matrizRecompensasAdelanteP1L09, matrizAtrasP1L09, matrizRecompensasAtrasP1L09, factorDescuento2, epsilon, casillasAzules, casillasRojas)
V209_v, politica_v209 = iteraciondevalor(matrizAdelanteP2L09, matrizRecompensasAdelanteP2L09, matrizAtrasP2L09, matrizRecompensasAtrasP2L09, factorDescuento2, epsilon, casillasAzules, casillasRojas)
V309_v, politica_v309 = iteraciondevalor(matrizAdelanteP3L09, matrizRecompensasAdelanteP3L09, matrizAtrasP3L09, matrizRecompensasAtrasP3L09, factorDescuento2, epsilon, casillasAzules, casillasRojas)

V108_v, politica_v108 = iteraciondevalor(matrizAdelanteP1L08, matrizRecompensasAdelanteP1L08, matrizAtrasP1L08, matrizRecompensasAtrasP1L08, factorDescuento3, epsilon, casillasAzules, casillasRojas)
V208_v, politica_v208 = iteraciondevalor(matrizAdelanteP2L08, matrizRecompensasAdelanteP2L08, matrizAtrasP2L08, matrizRecompensasAtrasP2L08, factorDescuento3, epsilon, casillasAzules, casillasRojas)
V308_v, politica_v308 = iteraciondevalor(matrizAdelanteP3L08, matrizRecompensasAdelanteP3L08, matrizAtrasP3L08, matrizRecompensasAtrasP3L08, factorDescuento3, epsilon, casillasAzules, casillasRojas)

A continuación se muestra la política encontrada:

In [144]:
print(politica_v11)
print(politica_v21)
print(politica_v31)

print(politica_v109)
print(politica_v209)
print(politica_v309)

print(politica_v108)
print(politica_v208)
print(politica_v308)

[[1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 0], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [1, 0], [1, 0], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 0]]
[[1, 0], [0, 1], [1, 0], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 0], [0, 1], [1, 0]

In [145]:
evaluation2 = 10**-3
error_1_v = error_test(V11_v, matrizAdelanteP1L1, matrizRecompensasAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAtrasP1L1, factorDescuento1, eps, evaluation2)
error_2_v = error_test(V21_v, matrizAdelanteP2L1, matrizRecompensasAdelanteP2L1, matrizAtrasP2L1, matrizRecompensasAtrasP2L1, factorDescuento1, eps, evaluation2)
error_3_v = error_test(V31_v, matrizAdelanteP3L1, matrizRecompensasAdelanteP3L1, matrizAtrasP3L1, matrizRecompensasAtrasP3L1, factorDescuento1, eps, evaluation2)

error_4_v = error_test(V109_v, matrizAdelanteP1L09, matrizRecompensasAdelanteP1L09, matrizAtrasP1L09, matrizRecompensasAtrasP1L09, factorDescuento2, eps, evaluation2)
error_5_v = error_test(V209_v, matrizAdelanteP2L09, matrizRecompensasAdelanteP2L09, matrizAtrasP2L09, matrizRecompensasAtrasP2L09, factorDescuento2, eps, evaluation2)
error_6_v = error_test(V309_v, matrizAdelanteP3L09, matrizRecompensasAdelanteP3L09, matrizAtrasP3L09, matrizRecompensasAtrasP3L09, factorDescuento2, eps, evaluation2)

error_7_v = error_test(V108_v, matrizAdelanteP1L08, matrizRecompensasAdelanteP1L08, matrizAtrasP1L08, matrizRecompensasAtrasP1L08, factorDescuento3, eps, evaluation2)
error_8_v = error_test(V208_v, matrizAdelanteP2L08, matrizRecompensasAdelanteP2L08, matrizAtrasP2L08, matrizRecompensasAtrasP2L08, factorDescuento3, eps, evaluation2)
error_9_v = error_test(V308_v, matrizAdelanteP3L08, matrizRecompensasAdelanteP3L08, matrizAtrasP3L08, matrizRecompensasAtrasP3L08, factorDescuento3, eps, evaluation2)

In [146]:
for i in range(9):
    print(locals()[f"error_{i+1}_v"])

100
100
100
100
100
100
100
100
100


## **Conclusiones**