# Reinforcement Learning, 2024-01 
# Tarea 2 - Programación Dinámica

> Daniel Villar González, 201923374.  
> Daniel Alvarez, 201911320.

**Considere la variación del juego escaleras y serpientes mostrada en la figura:**
<center><img src="imagen-resource-h2.PNG" alt="drawing" width="400"/>
</center> 

- **La meta del jugador es ganar la partida llegando a una de las casillas marcadas en azul.**
- **El jugador pierde la partida si cae en una de las casillas marcadas en rojo.**
- **En cada jugada, antes de lanzar el dado, el jugador decide si quiere avanzar o retroceder el número de casillas indicadas por el dado.**
- **El dado está cargado, con probabilidades p =[p1 p2 p3 p4 p5 p6].**
- **En las casillas 1 y 100 la ficha rebota (si se supera el extremo, se avanza en la otra dirección la cantidad restante).**


## **Librerias**

In [2]:
import numpy as np

## **Punto 1**

**Modele este problema como un MDP. De detalladamente todos los elementos del MDP: estados, recompensas, acciones y p(s′, r | s, a) ∀s, s′, r, a, y factor de descuento γ.**

Estados (S): Los estados en este problema representarán la posición actual del jugador en el tablero. Cada casilla en el tablero será un estado posible, desde la casilla 1 hasta la casilla 100: S = {1, 2, 3, ..., 99, 100}.

Recompensas (R): Se asigna una recompensa positiva (+1) cuando el jugador llega a una casilla marcada en azul (la meta) y una recompensa negativa (-1) cuando el jugador cae en una casilla marcada en rojo (pierde la partida). En el resto de las casillas la recompensa será 0. 

Acciones (A): En cada estado, el jugador puede tomar una acción que consiste en decidir si avanza o retrocede el número de casillas indicadas por el dado. Dado que el dado está cargado, el jugador también debe considerar la probabilidad de avanzar o retroceder en función de los resultados posibles del dado: A = {Avanzar, Retroceder}

Probabilidad de transición (p(s', r | s, a)): Define la probabilidad de pasar de un estado s a un estado s′ y recibir una recompensa r dado que se toma una acción a. En este caso, la probabilidad de transición depende de la acción tomada (avanzar o retroceder) y del resultado del dado. Más adelante se definirán las matrices de probabilidades de transición.

Factor de descuento (γ): Se utilizará un valor de descuento γ=0.9 para dar más peso a las recompensas inmediatas.

A continuación se definirán las probabilidades de transición para cada posible estado:

In [3]:
p1 = 0.03
p2 = 0.07
p3 = 0.15
p4 = 0.2
p5 = 0.25
p6 = 0.3   #La suma de p1 hasta p6 es igual a 1.
p = [p1, p2, p3, p4, p5, p6]
transiciones = {8:26, 21:82, 43:77, 50:91, 54:93, 62:96, 66:87, 80:100, 98:28, 95:24, 92:51, 83:19, 73:1, 69:33, 64:36, 59:17, 55:7, 52:11, 48:9, 46:5, 44:22} #Define las escaleras y serpientes.
recompensas = {23:-1, 37:-1, 45:-1, 67:-1, 89:-1, 80:1, 100:1} #Define los estados de victoria y de derrota.
    
matrizAdelante = []
for i in range(100):
    matrizAdelante.append([0] * 100)

matrizRecompensasAdelante = []
for i in range(100):
    matrizRecompensasAdelante.append([0] * 100)

llaves_transiciones = transiciones.keys()
llaves_recompensas = recompensas.keys()

for i in range(len(matrizAdelante)): 
    for j in range(0, 6):
        destino = i + j + 1 
        if destino >= 100:  
            destino = 99 - (destino - 100)  
        if destino+1 in llaves_transiciones:
            matrizAdelante[i][transiciones[destino+1]-1] += p[j]  
            if destino+1 in llaves_recompensas:
                matrizRecompensasAdelante[i][transiciones[destino+1]-1] += recompensas[destino+1]
        else:
            matrizAdelante[i][destino] += p[j] 
            if destino+1 in llaves_recompensas:
                matrizRecompensasAdelante[i][destino] += recompensas[destino+1]
        
for i in range(len(matrizAdelante)):
    print(matrizAdelante[i])

[0, 0.03, 0.07, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0.03, 0.07, 0.15, 0.2, 0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0.03, 0.07, 0.15, 0.2, 0, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0.03, 0.07, 0.15, 0, 0.25, 0.3, 0, 0

In [4]:
transpuesta = []
for j in range(len(matrizAdelante[0])):
    fila_transpuesta = []
    for i in range(len(matrizAdelante)):
        fila_transpuesta.append(matrizAdelante[i][j])
    transpuesta.append(fila_transpuesta)

Como se puede notar, quedaron definidas las probabilidades de transición desde un s a un estado s′ dado que se toma la acción de ir hacia adelante. Las filas indican el estado s y las columnas el estado s'. El valor de la matriz en la posición (s,s') indica la probabilidad de pasar desde el estado s al estado s', las cuales dependen de los valores de **p**. A continuación se muestra la recompensa obtenida al tomar la acción de ir hacia adelante, desde un estado s:

In [5]:
for i in range(len(matrizRecompensasAdelante)):
    print(matrizRecompensasAdelante[i])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 


A continuación se definirán las probabilidades de transición para la acción de ir hacia atrás:

In [6]:
matrizAtras = []
for i in range(100):
    matrizAtras.append([0] * 100)

matrizRecompensasAtras= []
for i in range(100):
    matrizRecompensasAtras.append([0] * 100)

for i in range(len(matrizAtras)): 
    for j in range(0, 6):
        destino = i - j 
        if destino <= 0:  
            destino = abs(destino) + 1
        if destino in llaves_transiciones:
            matrizAtras[i][transiciones[destino]-1] += p[j]  
            if destino in llaves_recompensas:
                matrizRecompensasAtras[i][transiciones[destino]-1] += recompensas[destino]
        else:
            matrizAtras[i][destino-1] += p[j] 
            if destino in llaves_recompensas:
                matrizRecompensasAtras[i][destino-1] += recompensas[destino]

for i in range(len(matrizAtras)):
    print(matrizAtras[i])

[0.03, 0.07, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.1, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.22, 0.23, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.35, 0.32, 0.32999999999999996, 0, 0, 0, 0, 0, 0, 0, 0, 

Como se puede notar, quedaron definidas las probabilidades de transición desde un s a un estado s′ dado que se toma la acción de ir hacia atrás.

In [7]:
for i in range(len(matrizRecompensasAtras)):
    print(matrizRecompensasAtras[i])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

Como se puede notar, quedaron definidas las recompensas obtenidas desde un s a un estado s′ dado que se toma la acción de ir hacia atrás.

De esta forma, quedan definidas las probabilidades de transición p(s′, r | s, a) ∀s, s′, r, a.

## **Punto 2**

**Escriba un módulo de Python para el MDP formulado. Su implementación debe tener métodos para:**

- **Construir el MDP para una localización dada de las casillas azules y rojas, el vector p, y el factor de descuento γ.**
- **Dada una política π (estocástica o determinística), calcular la función de valor de estado usando programación dinámica.**
- **Dada una política π (estocástica o determinística), determinar si esta política es óptima chequeando las ecuaciones de optimalidad de Bellman.**
- **Hallar una política óptima para una instancia del MDP, usando iteración de política.**
- **Hallar una política óptima para una instancia del MDP, usando iteración de valor.**


### **Construir el MDP para una localización dada de las casillas azules y rojas, el vector p, y el factor de descuento γ.**

A continuación se define un código para construir el MDP dadas las casillas azules, las casillas rojas, el vector **p** y el factor de descuento γ.

El input de las casillas azules (casillasAzules) sería una lista con los números de las casillas.
El input de las casillas rojas (casillasRojas) sería una lista con los números de las casillas.
El input del vector **p** es una lista de 6 posiciones con las probabilidades p1, p2, p3, p4, p5 y p6.
El input del factor de descuento γ (factorDescuento) es un valor entre 0 y 1. 

In [8]:
def construirMDP(casillasAzules, casillasRojas, p, factorDescuento):
    if factorDescuento > 1 or factorDescuento <= 0:
        return "El valor de descuento no está entre los límites permitidos"
    matrizAdelante = []
    for i in range(100):
        matrizAdelante.append([0] * 100)
    matrizRecompensasAdelante = []
    for i in range(100):
        matrizRecompensasAdelante.append([0] * 100)
    matrizAtras = []
    for i in range(100):
        matrizAtras.append([0] * 100)
    matrizRecompensasAtras= []
    for i in range(100):
        matrizRecompensasAtras.append([0] * 100)
    recompensas = {}
    for i in range(len(casillasAzules)):
        recompensas[casillasAzules[i]] = 1
    for i in range(len(casillasRojas)):
        recompensas[casillasRojas[i]] = -1
    transiciones = {8:26, 21:82, 43:77, 50:91, 54:93, 62:96, 66:87, 80:100, 98:28, 95:24, 92:51, 83:19, 73:1, 69:33, 64:36, 59:17, 55:7, 52:11, 48:9, 46:5, 44:22}
    llaves_transiciones = transiciones.keys()
    llaves_recompensas = recompensas.keys()
    for i in range(len(matrizAdelante)): 
        for j in range(0, 6):
            destino = i + j + 1 
            if destino >= 100:  
                destino = 99 - (destino - 100)  
            if destino+1 in llaves_transiciones:
                matrizAdelante[i][transiciones[destino+1]-1] += p[j]  
                if destino+1 in llaves_recompensas:
                    matrizRecompensasAdelante[i][transiciones[destino+1]-1] += recompensas[destino+1]
            else:
                matrizAdelante[i][destino] += p[j] 
                if destino+1 in llaves_recompensas:
                    matrizRecompensasAdelante[i][destino] += recompensas[destino+1]
    for i in range(len(matrizAtras)): 
        for j in range(0, 6):
            destino = i - j 
            if destino <= 0:  
                destino = abs(destino) + 1
            if destino in llaves_transiciones:
                matrizAtras[i][transiciones[destino]-1] += p[j]  
                if destino in llaves_recompensas:
                    matrizRecompensasAtras[i][transiciones[destino]-1] += recompensas[destino]
            else:
                matrizAtras[i][destino-1] += p[j] 
                if destino in llaves_recompensas:
                    matrizRecompensasAtras[i][destino-1] += recompensas[destino]
    return matrizAdelante, matrizAtras, matrizRecompensasAdelante, matrizRecompensasAtras

### INPUTS
casillasAzules = [80, 100]    
casillasRojas = [23, 37, 45, 67, 89]
p1 = 0.03
p2 = 0.07
p3 = 0.15
p4 = 0.2
p5 = 0.25
p6 = 0.3
p = [p1, p2, p3, p4, p5, p6]
factorDescuento = 0.9
matrizAdelante, matrizAtras, matrizRecompensasAdelante, matrizRecompensasAtras = construirMDP(casillasAzules, casillasRojas, p, factorDescuento)

A continuación se muestran los resultados obtenidos, es decir, (1) la matriz de probabilidades de transición al tomar la acción de ir hacia adelante, (2) la matriz de recompensas obtenidas al ir hacia adelante, (3) la matriz de probabilidades de transición al tomar la acción de ir hacia atrás y (4) la matriz de recompensas obtenidas al ir hacia atrás.

### (1) Matriz de probabilidades de transición al tomar la acción de ir hacia adelante.

In [9]:
for i in range(len(matrizAdelante)):
    print(matrizAdelante[i])

[0, 0.03, 0.07, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0.03, 0.07, 0.15, 0.2, 0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0.03, 0.07, 0.15, 0.2, 0, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0.25, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0.03, 0.07, 0.15, 0, 0.25, 0.3, 0, 0

### (2) Matriz de recompensas obtenidas al ir hacia adelante.

In [10]:
for i in range(len(matrizRecompensasAdelante)):
    print(matrizRecompensasAdelante[i])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

### (3) Matriz de probabilidades de transición al tomar la acción de ir hacia atrás.

In [11]:
for i in range(len(matrizAtras)):
    print(matrizAtras[i])

[0.03, 0.07, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.1, 0.15, 0.2, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.22, 0.23, 0.25, 0.3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0.35, 0.32, 0.32999999999999996, 0, 0, 0, 0, 0, 0, 0, 0, 

### (4) Matriz de recompensas obtenidas al ir hacia atrás.

In [12]:
for i in range(len(matrizRecompensasAtras)):
    print(matrizRecompensasAtras[i])

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 

### **Dada una política π (estocástica o determinística), calcular la función de valor de estado usando programación dinámica.**

A continuación se define una política cualquiera para probar los siguientes algoritmos. La política se definirá como una lista de dos posiciones, donde la primera posición indicará la probabilidad de tomar la acción de ir hacia adelante y la segunda posición indicará la probabilidad de tomar la acción de ir hacia atrás.
En este caso se definió la política de escoger la acción de siempre ir hacia adelante, para todos los estados.

In [13]:
politica = []
for i in range(100):
    politica.append([1, 0])

Ahora se define una función para calcular la función de valor de estado. Esta función retornará un valor para cada estado indicando qué tan bueno es estar en ese estado, en términos del valor esperado del retorno, comenzando en un estado $s$ y siguiendo la política $\pi$ de ahí en adelante. En este caso, la política $\pi(a|s)$ es la política definida anteriormente. 

La función de valor de estado de la política $\pi$ se define de la siguiente manera:

$$v_{\pi}(s) = E_{\pi}(G_{t}|S_{t}=s) = E_{\pi}(\sum_{k=0}^{\infty}\lambda^{k}R_{t+k+1}|S_{t}=s)$$

Para calcular lo anterior se utiliza la evaluación iterativa de política, y se calcular de la siguiente manera:

Se inicializa $v_{0}(s)$ y se itera lo siguiente:

$$v_{k+1}(s) \leftarrow \sum_{a}\pi(a|s)\sum_{s'}\sum_{r}p(s',r|s,a)[r+\lambda v_{k}(s')]$$

A medida que k converge al infinito, si $\lambda$ es menor a 1 o si los episodios terminan eventualmente desde cualquier estado, lo cual sucede en nuestro caso, entonces, hay convergencia asimptótica de $v_{k}(s)$ a $v_{\pi}(s)$.


In [14]:
def calcularFuncionValorEstado(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, politica, factorDescuento, epsilon, casillasAzules, casillasRojas):
    valores = [0] * len(matrizAdelante)
    convergencia = False
    while not convergencia: 
        valores_previos = valores.copy()
        for estado in range(len(matrizAdelante)):
            if estado+1 not in casillasAzules and estado+1 not in casillasRojas:
                nuevo_valor = 0
                # Avanzar
                for estado_siguiente in range(len(matrizAdelante[estado])):
                    nuevo_valor += politica[estado][0] * matrizAdelante[estado][estado_siguiente] * (matrizRecompensasAdelante[estado][estado_siguiente] + factorDescuento*valores[estado_siguiente])
                # Retroceder
                for estado_siguiente in range(len(matrizAtras[estado])):
                    nuevo_valor += politica[estado][1] * matrizAtras[estado][estado_siguiente] * (matrizRecompensasAtras[estado][estado_siguiente] + factorDescuento*valores[estado_siguiente])
                valores[estado] = nuevo_valor
        # Verificar si se ha alcanzado la convergencia
        dif_maxima = max(abs(valores[estado] - valores_previos[estado]) for estado in range(len(matrizAdelante))) 
        if dif_maxima < epsilon:
            convergencia = True
    return valores

epsilon = 0.001
V = calcularFuncionValorEstado(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, politica, factorDescuento, epsilon, casillasAzules, casillasRojas)
print("La política es: " + str(politica))
print("El valor de descuento es: " + str(factorDescuento))
print("Las probabilidades del dado son: " + str(p))
print("Función de Valor de Estado:")
for i in range(len(V)):
    print("Casilla " +str(i+1)+" tiene un valor de "+ str(V[i]))

La política es: [[1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0]]
El valor de descuento es: 0.9
Las probabilidades del dado son: [0.03, 0.07, 0.15, 0.2, 0.25, 0.3]
Función de Valor de Estado:
Casilla 1 tiene un valor de -0.24375523505723548
Casilla 

Como se puede notar, la función de valor de estado en los estados terminales, por ejemplo en la casilla 100, es 0. Esto es por definición de la función de valor.

### **Dada una política π (estocástica o determinística), determinar si esta política es óptima chequeando las ecuaciones de optimalidad de Bellman.**

Para este caso se hará uso de de las ecuaciones de optimalidad de Bellman, en particular la que nos da el valor para la función de valor $v_{*}(s)$, dada por la siguiente expresión:
$$v_{*}(s)= max_{a\in A(s)} q_{\pi_{*}}(s,a)$$
Donde es más fácil verla como:
$$v_{*}(s)= max_{a}\sum_{s',r}p(s',r|s,a)[r + \lambda v_{*}(s')]$$
Para este caso se definió un vector de valores en los cuales se aplica una suma sobre estados y recompensas comparando ambas acciones. A partir de v∗ se puede determinar si una política es óptima o no de manera greedy.

En general, las ecuaciones de optimalidad de Bellman son un conjunto de 100 ecuaciones de 100 incógnitas. Teniendo en cuenta que es un MDP finito, las ecuaciones tienen una única solución que es independiente de la política y, dado que conocemos las dinámicas del ambiente, podemos resolver las ecuaciones.

In [15]:
def bellman_cal(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps):
    valores = [0] * len(matrizAdelante)
    convergencia = False
    while not convergencia:
        valores_prev = valores.copy()
        for estado in range(len(matrizAdelante)):
            if estado + 1 not in casillasAzules and estado + 1 not in casillasRojas:
                acciones_valor = []
                valor_avanzar = sum(matrizAdelante[estado][estado_siguiente] * (matrizRecompensasAdelante[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAdelante[estado])))
                acciones_valor.append(valor_avanzar)
                valor_retroceder = sum(matrizAtras[estado][estado_siguiente] * (matrizRecompensasAtras[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAtras[estado])))
                acciones_valor.append(valor_retroceder)
                valores[estado] = max(acciones_valor)
        dif_maxima = max(abs(valores[estado] - valores_prev[estado]) for estado in range(len(matrizAdelante))) 
        if dif_maxima < eps:
            convergencia = True
    return valores
eps = 0.001
Bellman = bellman_cal(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps)

A continuación mostramos los valores obtenidos al aplicar las ecuaciones de optimalidad de Bellman. Esos valores indican el valor máximo que se puede obtener al tomar una acción en cada estado.

In [16]:
print(Bellman)

[0.10469210662476805, 0.09488704799075945, 0.09749082259265315, 0.10866427371189763, 0.11606944566258738, 0.1228540457881836, 0.12413404971654708, 0.12313208058593411, 0.1409663175006654, 0.1527090814396166, 0.1455062722798538, 0.14008135351261003, 0.13422926747352398, 0.13059432611593766, 0.20667730975288517, 0.1940045146737963, 0.13085529263740797, 0.13518734347311506, 0.1409120925403501, 0.14667056903043144, 0.15409570067235087, 0.14611450171774587, 0, 0.13228042831991, 0.10230245061680084, 0.048445867272160124, 0.04673859019437002, 0.04460200925585488, 0.043732038919705306, 0.07775442445433557, 0.057810687199507764, 0.04398817117244042, 0.04585323965715439, 0.047691782684335375, 0.04982315504561457, 0.05245896488265969, 0, 0.1144918733470438, -0.027747565440852995, -0.11000659135712669, -0.04577746791870366, -0.0016053274473606712, 0.11673082859295826, 0.3065279228242189, 0, 0.31550400077185936, 0.30950601238321196, 0.37412492265397856, 0.29609273898580224, 0.351937467991676, 0.394

A continuación se evalúa si la política utilizada es óptima o no. Para esto se comparan los valores obtenidos por la función de valor con los obtenidos con las ecuaciones de optimalidad de Bellman. Si para el estado $i$ los valores coinciden, significa que en ese estado se está tomando la mejor acción. El resultado de esta función nos indica en cuántos estados se estaría tomando la acción correcta a partir de la política definida. Una política óptima nos debería retornar un valor de 100 en el siguiente código, ya que estaría indicando que toma la mejor acción para cada estado.

In [17]:
def error_test(valores_optimos, matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun):
    errno = [0] * len(matrizAdelante)
    bellman = bellman_cal(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps)
    for i in range(len(bellman)):
        s = (bellman[i] - valores_optimos[i])
        if s < criteriun:
            errno[i] = 1
        else:
            errno[i] = 0
    ans = sum(errno)
    return ans

criteriun = 0.001
y = error_test(V, matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun)
print("El número de estados en los que se estaría tomando la acción correcta para la política dada es: " +str(y))

El número de estados en los que se estaría tomando la acción correcta para la política dada es: 7


### **Hallar una política óptima para una instancia del MDP, usando iteración de política**

En la iteración de política se comienza con una política inicial y se mejora iterativamente hasta que converge a la política óptima. En cada iteración, se evalúa la política actual para calcular la función de valor de estado y luego se mejora la política seleccionando las acciones que maximizan el valor esperado. Este proceso se repite hasta que la política no cambie en ninguna iteración.

La iteración de política se puede ver de la siguiente forma:

$$\pi_{0} \rightarrow^{E} v_{\pi_{0}}\rightarrow^{I} \pi_{1} \rightarrow^{E} v_{\pi_{1}}\rightarrow^{I} \pi_{2} \rightarrow^{E} ... \rightarrow^{I} \pi_{*} \rightarrow^{E} v_{\pi_{*}}$$

Cuando el MDP es finito, como en nuestro caso, existe un número finito de políticas. Al usar la iteración de política, convergemos a $\pi_{*}$ en un número finito de iteraciones.

A continuación se presentan dos métodos, el primero llamado "mejorarPolitica()" y el segundo "iteracionPolitica()". La segunda función obtiene la función de valor de estado para una política dada y llama al primer método para mejorar la política. Esto lo hace iterativamente hasta que la diferencia con respecto a la anterior política sea aproximadamente 0. El primer método actúa de manera greedy a partir de la siguiente ecuación:

$$v_{\pi'}(s) = máx_{a}\sum_{s'}\sum_{r}p(s',r|s,a)[r+\lambda v_{\pi}(s')]$$

Es decir, va mejorando la política a partir de la acción que presenta el mayor valor esperado del retorno. Una vez ha convergido el algoritmo, la política $\pi'$ satisface la ecuación de optimalidad de Bellman.

In [18]:
def mejorarPolitica(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, valores, factorDescuento):
    politica_nueva = [[0, 0] for _ in range(len(matrizAdelante))]
    politica_estable = True
    for estado in range(len(matrizAdelante)):
        if estado + 1 not in casillasAzules and estado + 1 not in casillasRojas:
            acciones_valor = []
            valor_avanzar = sum(matrizAdelante[estado][estado_siguiente] * (matrizRecompensasAdelante[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAdelante[estado])))
            acciones_valor.append(valor_avanzar)
            valor_retroceder = sum(matrizAtras[estado][estado_siguiente] * (matrizRecompensasAtras[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAtras[estado])))
            acciones_valor.append(valor_retroceder)
            mejor_accion = acciones_valor.index(max(acciones_valor))
            if politica_nueva[estado][mejor_accion] != 1:
                politica_estable = False
            politica_nueva[estado] = [0, 0]
            politica_nueva[estado][mejor_accion] = 1
    return politica_nueva, politica_estable

def iteracionPolitica(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, epsilon, error, casillasAzules, casillasRojas):
    politica = [[0.5, 0.5] for _ in range(len(matrizAdelante))]
    politica_estable = False
    V = [0] * len(matrizAdelante)
    while not politica_estable:
        V_anterior = V.copy()
        V = calcularFuncionValorEstado(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, politica, factorDescuento, epsilon, casillasAzules, casillasRojas)
        error_maximo = round(max(abs(v - v_anterior) for v, v_anterior in zip(V, V_anterior)),3)
        politica, politica_estable = mejorarPolitica(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, V, factorDescuento)
        if error_maximo <= error:
            print(f"Deteniendo debido a que el error máximo {error_maximo} es menor o igual al umbral deseado {error}.")
            break
    return politica, V

error = 0
valores_ = iteracionPolitica(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, epsilon, error, casillasAzules, casillasRojas)

Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.


A continuación se presentan los resultados obtenidos al utilizar la iteración de política:

In [19]:
print("La política óptima encontrada con su función de valor de estado es: ")
for i in range(len(valores_[0])):
    print("En la posición " + str(i+1) + " la política óptima es " + str(valores_[0][i]) + " con función de valor de estado: "+ str(valores_[1][i])) 

La política óptima encontrada con su función de valor de estado es: 
En la posición 1 la política óptima es [1, 0] con función de valor de estado: 0.10486660922010116
En la posición 2 la política óptima es [0, 1] con función de valor de estado: 0.09506375742689022
En la posición 3 la política óptima es [1, 0] con función de valor de estado: 0.09764073832953693
En la posición 4 la política óptima es [1, 0] con función de valor de estado: 0.10881265807516702
En la posición 5 la política óptima es [1, 0] con función de valor de estado: 0.11621661896524646
En la posición 6 la política óptima es [1, 0] con función de valor de estado: 0.12300267746478433
En la posición 7 la política óptima es [1, 0] con función de valor de estado: 0.12428182193458776
En la posición 8 la política óptima es [1, 0] con función de valor de estado: 0.12327878658359957
En la posición 9 la política óptima es [1, 0] con función de valor de estado: 0.1411041878957226
En la posición 10 la política óptima es [1, 0] con

Como se puede notar, en los estados terminales la función de valor de estado es 0 (por definición) y no se toma ninguna acción.

A continuación se chequean las ecuaciones de optimalidad de Bellman para comprobar que es una política óptima:

In [20]:
def error_test(valores_optimos, matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun):
    errno = [0] * len(matrizAdelante)
    bellman = bellman_cal(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps)
    for i in range(len(bellman)):
        s = (bellman[i] - valores_optimos[i])
        if s < criteriun:
            errno[i] = 1
        else:
            errno[i] = 0
    ans = sum(errno)
    return ans

y = error_test(valores_[1], matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun)
print("El número de estados en los que se estaría tomando la acción correcta para la política dada es: " +str(y))

El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100


Como se puede notar, en todos los estados toma la acción correcta, por lo que se concluye que la política encontrada es una política óptima.

### **Hallar una política óptima para una instancia del MDP, usando iteración de valor.**

Teniendo en cuenta que la evaluación de $v_{\pi}$ es costosa computacionalmente, que la convergencia ocurre sólo en el límite y sabiendo que se puede obtener una política óptima, aún con valores de $v_{\pi}$ que no son exactos, podemos pensar en utilizar la iteración de valor, la cual se basa en truncar la evaluación después de cierto número de iteraciones. El algoritmo consiste en lo siguiente:

$$v_{k+1}(s) = máx_{a}\sum_{s'}\sum_{r}p(s',r|s,a)[r+\lambda v_{\pi}(s')]$$

En este caso se calcula directamente la función de valor óptima mediante una serie de actualizaciones iterativas. En cada iteración, se actualiza el valor de cada estado como la suma de la recompensa instantánea más el valor esperado de los estados sucesores, utilizando la mejor acción posible. Este proceso continúa hasta que la función de valor converge a la función de valor óptima. A diferencia de la iteración de política que se centra en mejorar la política directamente, la iteración de valor se centra en calcular la función de valor óptima y luego derivar la política óptima a partir de ella.

In [21]:
def iteraciondevalor(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, epsilon, casillasAzules, casillasRojas):
    politica_nueva = [[0, 0] for _ in range(len(matrizAdelante))]
    valores = [0] * len(matrizAdelante)
    convergencia = False
    while not convergencia: 
        valores_previos = valores.copy()
        for estado in range(len(matrizAdelante)):
            if estado + 1 not in casillasAzules and estado + 1 not in casillasRojas:
                acciones_valor = []
                valor_avanzar = sum(matrizAdelante[estado][estado_siguiente] * (matrizRecompensasAdelante[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAdelante[estado])))
                acciones_valor.append(valor_avanzar)
                valor_retroceder = sum(matrizAtras[estado][estado_siguiente] * (matrizRecompensasAtras[estado][estado_siguiente] + factorDescuento * valores[estado_siguiente]) for estado_siguiente in range(len(matrizAtras[estado])))
                acciones_valor.append(valor_retroceder)
                mejor_accion = acciones_valor.index(max(acciones_valor))
                valores[estado] = acciones_valor[mejor_accion]
                politica_nueva[estado] = [0, 0]
                politica_nueva[estado][mejor_accion] = 1
        # Verificar si se ha alcanzado la convergencia    
        dif_maxima = max(abs(valores[estado] - valores_previos[estado]) for estado in range(len(matrizAdelante))) 
        if dif_maxima < epsilon:
            convergencia = True
    return valores, politica_nueva

epsilon = 0.001
V2, politica_v = iteraciondevalor(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, epsilon, casillasAzules, casillasRojas)
print("La política óptima encontrada con su función de valor de estado es: ")
for i in range(len(politica_v)):
    print("En la posición " + str(i+1) + " la política óptima es " + str(politica_v[i]) + " con función de valor de estado: "+ str(V2[i])) 

La política óptima encontrada con su función de valor de estado es: 
En la posición 1 la política óptima es [1, 0] con función de valor de estado: 0.10469210662476805
En la posición 2 la política óptima es [0, 1] con función de valor de estado: 0.09488704799075945
En la posición 3 la política óptima es [1, 0] con función de valor de estado: 0.09749082259265315
En la posición 4 la política óptima es [1, 0] con función de valor de estado: 0.10866427371189763
En la posición 5 la política óptima es [1, 0] con función de valor de estado: 0.11606944566258738
En la posición 6 la política óptima es [1, 0] con función de valor de estado: 0.1228540457881836
En la posición 7 la política óptima es [1, 0] con función de valor de estado: 0.12413404971654708
En la posición 8 la política óptima es [1, 0] con función de valor de estado: 0.12313208058593411
En la posición 9 la política óptima es [1, 0] con función de valor de estado: 0.1409663175006654
En la posición 10 la política óptima es [1, 0] con 

Como se puede notar, en los estados terminales la función de valor de estado es 0 (por definición) y no se toma ninguna acción.

A continuación se chequean las ecuaciones de optimalidad de Bellman para comprobar que es una política óptima:

In [22]:
def error_test(valores_optimos, matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun):
    errno = [0] * len(matrizAdelante)
    bellman = bellman_cal(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps)
    for i in range(len(bellman)):
        s = (bellman[i] - valores_optimos[i])
        if s < criteriun:
            errno[i] = 1
        else:
            errno[i] = 0
    ans = sum(errno)
    return ans

y = error_test(V2, matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, factorDescuento, eps, criteriun)
print("El número de estados en los que se estaría tomando la acción correcta para la política dada es: " +str(y))

El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100


Como se puede notar, en todos los estados toma la acción correcta, por lo que se concluye que la política encontrada es una política óptima.

## **Punto 3**

**Utilice su implementación de programación dinámica para hallar la función de valor de:**

**a) La política que siempre avanza.**

**b) La política que avanza con probabilidad 0,7.**


### **3.a. Hallar la función de valor para la política que siempre avanza.**

A continuación se define la política que siempre avanza. Según la estructura que se está utilizando para definir la política, el primer valor debería ser 1 y el segundo 0. De esta forma, se estaría diciendo que con probabilidad 1 se escoge la opción de avanzar y con probabilidad 0 la opción de retroceder.

In [23]:
politica = []
for i in range(100):
    politica.append([1, 0])
V = calcularFuncionValorEstado(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, politica, factorDescuento, epsilon, casillasAzules, casillasRojas)
print("La política es: " +str(politica))
print("El valor de descuento es: " + str(factorDescuento))
print("Las probabilidades del dado son: " + str(p))
print("Función de Valor de Estado:")
for i in range(len(V)):
    print("Casilla " +str(i+1)+" tiene un valor de "+ str(V[i]))

La política es: [[1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0]]
El valor de descuento es: 0.9
Las probabilidades del dado son: [0.03, 0.07, 0.15, 0.2, 0.25, 0.3]
Función de Valor de Estado:
Casilla 1 tiene un valor de -0.24375523505723548
Casilla 

### **3.b. Hallar la función de valor para la política que avanza con probabilidad de 0.7**

A continuación se define la política que avanza con probabilidad de 0.7. Según la estructura que se está utilizando para definir la política, el primer valor debería ser 0.7 y el segundo 0.3. De esta forma, se estaría diciendo que con probabilidad 1 se escoge la opción de avanzar y con probabilidad 0 la opción de retroceder.

In [24]:
politica = []
for i in range(100):
    politica.append([0.7, 0.3])
V = calcularFuncionValorEstado(matrizAdelante, matrizRecompensasAdelante, matrizAtras, matrizRecompensasAtras, politica, factorDescuento, epsilon, casillasAzules, casillasRojas)
print("La política es: " +str(politica))
print("El valor de descuento es: " + str(factorDescuento))
print("Las probabilidades del dado son: " + str(p))
print("Función de Valor de Estado:")
for i in range(len(V)):
    print("Casilla " +str(i+1)+" tiene un valor de "+ str(V[i]))

La política es: [[0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3], [0.7, 0.3],

## **Punto 4**

**Utilice su implementación de iteración de política para encontrar una política óptima para la configuración mostrada en la figura para tres vectores p generados aleatoriamente. Chequee que la política encontrada en cada caso es efectivamente óptima. Muestre la política óptima en cada caso (acción en cada casilla). Repita el experimento pero ahora utilizando iteración de valor (usando los mismos p). Experimente en ambos casos con diferentes valores de γ.**

Se definen tres vectores p generados aleatoriamente:

In [25]:
import numpy as np
np.random.seed(42)
vecP1 = np.random.dirichlet(np.ones(6), size=1)[0]
vecP2 = np.random.dirichlet(np.ones(6), size=1)[0]
vecP3 = np.random.dirichlet(np.ones(6), size=1)[0]
print("Vector de probabilidades p1:", vecP1)
print("Vector de probabilidades p2:", vecP2)
print("Vector de probabilidades p3:", vecP3)

Vector de probabilidades p1: [0.07758679 0.49768066 0.21770513 0.15094204 0.02804505 0.02804033]
Vector de probabilidades p2: [0.00772536 0.25965576 0.11865618 0.15895797 0.00268525 0.45231947]
Vector de probabilidades p3: [0.50534215 0.06751955 0.05676773 0.05731437 0.10261516 0.21044104]


Ahora se construyen los diferentes MDP para los diferentes vectores p y para los valores de γ ={0.3, 0.7, 0.8, 0.9, 1}. Cuando γ = 1, el valor presente de una serie de recompensas futuras constantes y positivas se vuelve infinito, lo que puede llevar a problemas de convergencia en los algoritmos de programación dinámica como la iteración de valor o la iteración de política. Un γ menor que 1 asegura que la suma de las recompensas descontadas futuras converja, lo que facilita la solución numérica del MDP.

In [26]:
casillasAzules = [80, 100]    
casillasRojas = [23, 37, 45, 67, 89]
factorDescuento1 = 0.7
matrizAdelanteP1L07, matrizAtrasP1L07, matrizRecompensasAdelanteP1L07, matrizRecompensasAtrasP1L07 = construirMDP(casillasAzules, casillasRojas, vecP1, factorDescuento1)
matrizAdelanteP2L07, matrizAtrasP2L07, matrizRecompensasAdelanteP2L07, matrizRecompensasAtrasP2L07 = construirMDP(casillasAzules, casillasRojas, vecP2, factorDescuento1)
matrizAdelanteP3L07, matrizAtrasP3L07, matrizRecompensasAdelanteP3L07, matrizRecompensasAtrasP3L07 = construirMDP(casillasAzules, casillasRojas, vecP3, factorDescuento1)

factorDescuento2 = 0.8
matrizAdelanteP1L08, matrizAtrasP1L08, matrizRecompensasAdelanteP1L08, matrizRecompensasAtrasP1L08 = construirMDP(casillasAzules, casillasRojas, vecP1, factorDescuento2)
matrizAdelanteP2L08, matrizAtrasP2L08, matrizRecompensasAdelanteP2L08, matrizRecompensasAtrasP2L08 = construirMDP(casillasAzules, casillasRojas, vecP2, factorDescuento2)
matrizAdelanteP3L08, matrizAtrasP3L08, matrizRecompensasAdelanteP3L08, matrizRecompensasAtrasP3L08 = construirMDP(casillasAzules, casillasRojas, vecP3, factorDescuento2)    

factorDescuento3 = 0.9
matrizAdelanteP1L09, matrizAtrasP1L09, matrizRecompensasAdelanteP1L09, matrizRecompensasAtrasP1L09 = construirMDP(casillasAzules, casillasRojas, vecP1, factorDescuento3)
matrizAdelanteP2L09, matrizAtrasP2L09, matrizRecompensasAdelanteP2L09, matrizRecompensasAtrasP2L09 = construirMDP(casillasAzules, casillasRojas, vecP2, factorDescuento3)
matrizAdelanteP3L09, matrizAtrasP3L09, matrizRecompensasAdelanteP3L09, matrizRecompensasAtrasP3L09 = construirMDP(casillasAzules, casillasRojas, vecP3, factorDescuento3)

factorDescuento4 = 0.3
matrizAdelanteP1L03, matrizAtrasP1L03, matrizRecompensasAdelanteP1L03, matrizRecompensasAtrasP1L03 = construirMDP(casillasAzules, casillasRojas, vecP1, factorDescuento4)
matrizAdelanteP2L03, matrizAtrasP2L03, matrizRecompensasAdelanteP2L03, matrizRecompensasAtrasP2L03 = construirMDP(casillasAzules, casillasRojas, vecP2, factorDescuento4)
matrizAdelanteP3L03, matrizAtrasP3L03, matrizRecompensasAdelanteP3L03, matrizRecompensasAtrasP3L03 = construirMDP(casillasAzules, casillasRojas, vecP3, factorDescuento4)

factorDescuento5 = 1
matrizAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAdelanteP1L1, matrizRecompensasAtrasP1L1 = construirMDP(casillasAzules, casillasRojas, vecP1, factorDescuento5)
matrizAdelanteP2L1, matrizAtrasP2L1, matrizRecompensasAdelanteP2L1, matrizRecompensasAtrasP2L1 = construirMDP(casillasAzules, casillasRojas, vecP2, factorDescuento5)
matrizAdelanteP3L1, matrizAtrasP3L1, matrizRecompensasAdelanteP3L1, matrizRecompensasAtrasP3L1 = construirMDP(casillasAzules, casillasRojas, vecP3, factorDescuento5)

### Utilizando la implementación de iteración de política

In [27]:
V107 = iteracionPolitica(matrizAdelanteP1L07, matrizRecompensasAdelanteP1L07, matrizAtrasP1L07, matrizRecompensasAtrasP1L07, factorDescuento1, epsilon, error, casillasAzules, casillasRojas)
V207 = iteracionPolitica(matrizAdelanteP2L07, matrizRecompensasAdelanteP2L07, matrizAtrasP2L07, matrizRecompensasAtrasP2L07, factorDescuento1, epsilon, error, casillasAzules, casillasRojas)
V307 = iteracionPolitica(matrizAdelanteP3L07, matrizRecompensasAdelanteP3L07, matrizAtrasP3L07, matrizRecompensasAtrasP3L07, factorDescuento1, epsilon, error, casillasAzules, casillasRojas)

V108 = iteracionPolitica(matrizAdelanteP1L08, matrizRecompensasAdelanteP1L08, matrizAtrasP1L08, matrizRecompensasAtrasP1L08, factorDescuento2, epsilon, error, casillasAzules, casillasRojas)
V208 = iteracionPolitica(matrizAdelanteP2L08, matrizRecompensasAdelanteP2L08, matrizAtrasP2L08, matrizRecompensasAtrasP2L08, factorDescuento2, epsilon, error, casillasAzules, casillasRojas)
V308 = iteracionPolitica(matrizAdelanteP3L08, matrizRecompensasAdelanteP3L08, matrizAtrasP3L08, matrizRecompensasAtrasP3L08, factorDescuento2, epsilon, error, casillasAzules, casillasRojas)

V109 = iteracionPolitica(matrizAdelanteP1L09, matrizRecompensasAdelanteP1L09, matrizAtrasP1L09, matrizRecompensasAtrasP1L09, factorDescuento3, epsilon, error, casillasAzules, casillasRojas)
V209 = iteracionPolitica(matrizAdelanteP2L09, matrizRecompensasAdelanteP2L09, matrizAtrasP2L09, matrizRecompensasAtrasP2L09, factorDescuento3, epsilon, error, casillasAzules, casillasRojas)
V309 = iteracionPolitica(matrizAdelanteP3L09, matrizRecompensasAdelanteP3L09, matrizAtrasP3L09, matrizRecompensasAtrasP3L09, factorDescuento3, epsilon, error, casillasAzules, casillasRojas)

V103 = iteracionPolitica(matrizAdelanteP1L03, matrizRecompensasAdelanteP1L03, matrizAtrasP1L03, matrizRecompensasAtrasP1L03, factorDescuento4, epsilon, error, casillasAzules, casillasRojas)
V203 = iteracionPolitica(matrizAdelanteP2L03, matrizRecompensasAdelanteP2L03, matrizAtrasP2L03, matrizRecompensasAtrasP2L03, factorDescuento4, epsilon, error, casillasAzules, casillasRojas)
V303 = iteracionPolitica(matrizAdelanteP3L03, matrizRecompensasAdelanteP3L03, matrizAtrasP3L03, matrizRecompensasAtrasP3L03, factorDescuento4, epsilon, error, casillasAzules, casillasRojas)

V11 = iteracionPolitica(matrizAdelanteP1L1, matrizRecompensasAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAtrasP1L1, factorDescuento5, epsilon, error, casillasAzules, casillasRojas)
V21 = iteracionPolitica(matrizAdelanteP2L1, matrizRecompensasAdelanteP2L1, matrizAtrasP2L1, matrizRecompensasAtrasP2L1, factorDescuento5, epsilon, error, casillasAzules, casillasRojas)
V31 = iteracionPolitica(matrizAdelanteP3L1, matrizRecompensasAdelanteP3L1, matrizAtrasP3L1, matrizRecompensasAtrasP3L1, factorDescuento5, epsilon, error, casillasAzules, casillasRojas)


Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.


Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debido a que el error máximo 0.0 es menor o igual al umbral deseado 0.
Deteniendo debid

- Este error máximo se establece como 0, ya que, se desea mejorar la convergencia del algoritmo, gracias a que se manejan como aproximaciónes en el algoritmo a los 8 primeros digitos es probable la convergencia, sin llegar a una política estable. Sin embargo, para fines de la experimentación el algoritmo usado en la comprobación solo termina si existe una politica sub-óptima que es inmediatamente igual a la política anterior, cumpliendo las condiciones para convergencia de iteración de política mejorando el criterio del algoritmo.

A continuación se verifica que la política encontrada es efectivamente óptima:

In [28]:
evaluation = 10**-3
error_1 = error_test(V107[1], matrizAdelanteP1L07, matrizRecompensasAdelanteP1L07, matrizAtrasP1L07, matrizRecompensasAtrasP1L07, factorDescuento1, eps, evaluation)
error_2 = error_test(V207[1], matrizAdelanteP2L07, matrizRecompensasAdelanteP2L07, matrizAtrasP2L07, matrizRecompensasAtrasP2L07, factorDescuento1, eps, evaluation)
error_3 = error_test(V307[1], matrizAdelanteP3L07, matrizRecompensasAdelanteP3L07, matrizAtrasP3L07, matrizRecompensasAtrasP3L07, factorDescuento1, eps, evaluation)

error_4 = error_test(V108[1], matrizAdelanteP1L08, matrizRecompensasAdelanteP1L08, matrizAtrasP1L08, matrizRecompensasAtrasP1L08, factorDescuento2, eps, evaluation)
error_5 = error_test(V208[1], matrizAdelanteP2L08, matrizRecompensasAdelanteP2L08, matrizAtrasP2L08, matrizRecompensasAtrasP2L08, factorDescuento2, eps, evaluation)
error_6 = error_test(V308[1], matrizAdelanteP3L08, matrizRecompensasAdelanteP3L08, matrizAtrasP3L08, matrizRecompensasAtrasP3L08, factorDescuento2, eps, evaluation)

error_7 = error_test(V109[1], matrizAdelanteP1L09, matrizRecompensasAdelanteP1L09, matrizAtrasP1L09, matrizRecompensasAtrasP1L09, factorDescuento3, eps, evaluation)
error_8 = error_test(V209[1], matrizAdelanteP2L09, matrizRecompensasAdelanteP2L09, matrizAtrasP2L09, matrizRecompensasAtrasP2L09, factorDescuento3, eps, evaluation)
error_9 = error_test(V309[1], matrizAdelanteP3L09, matrizRecompensasAdelanteP3L09, matrizAtrasP3L09, matrizRecompensasAtrasP3L09, factorDescuento3, eps, evaluation)

error_10 = error_test(V103[1], matrizAdelanteP1L03, matrizRecompensasAdelanteP1L03, matrizAtrasP1L03, matrizRecompensasAtrasP1L03, factorDescuento4, eps, evaluation)
error_11 = error_test(V203[1], matrizAdelanteP2L03, matrizRecompensasAdelanteP2L03, matrizAtrasP2L03, matrizRecompensasAtrasP2L03, factorDescuento4, eps, evaluation)
error_12 = error_test(V303[1], matrizAdelanteP3L03, matrizRecompensasAdelanteP3L03, matrizAtrasP3L03, matrizRecompensasAtrasP3L03, factorDescuento4, eps, evaluation)

error_13 = error_test(V11[1], matrizAdelanteP1L1, matrizRecompensasAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAtrasP1L1, factorDescuento5, eps, evaluation)
error_14 = error_test(V21[1], matrizAdelanteP2L1, matrizRecompensasAdelanteP2L1, matrizAtrasP2L1, matrizRecompensasAtrasP2L1, factorDescuento5, eps, evaluation)
error_15 = error_test(V31[1], matrizAdelanteP3L1, matrizRecompensasAdelanteP3L1, matrizAtrasP3L1, matrizRecompensasAtrasP3L1, factorDescuento5, eps, evaluation)



for i in range(15):
    print("El número de estados en los que se estaría tomando la acción correcta para la política dada es: " + str(locals()[f"error_{i+1}"]))

El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100


- Teniendo en cuenta lo anterior podemos partir del principio de optimalidad, en donde una política optima es aquella que por definición es mejor al resto. Es por esto que debe cumplir que:

$$V(s)_{*} > V(s)_{i} \rightarrow s \in S \therefore i \in \N $$

Con esto en mente y sin considerar el error de cambio entre los valores de la función en el estado s y el valor de Bellman (error que se definió como intervalo de confianza), debe ser igual a los valores de la función V sobre estados, para el caso de $\lambda = 1$ no se cumple para unas probabilidades dadas, esto tiene sentido gracias a la convergencia asimptótica del cálculo de la política óptima en la iteración, tomando en cuenta valores lejanos a mi estado actual. Esto significa que, al considerar valores lejanos al estado actual, la política puede empeorar temporalmente antes de mejorar, para este caso en particular observamos que el MDP, al no ser tan grande no se propaga de forma acelerada el error, en un MDP finito lo suficientemente grande se observaría la divergencia de la función de valor. Ahora bien, existe una probabilidad que se asocie directamente con el vector de probabilidades $\vec{P}$, ya que se encuentra desbalanceado tomando 2 pasos como una mayoría considerable en este, equivalente al 50% de la probabilidad para todos lo casos, moviendo el sistema hacia la recompensa dada esta probabilidad favorable a esos pasos.

A continuación se muestra la política encontrada:

In [29]:
print("La política óptima encontrada para el vector de probabilidades " + str(vecP1) + " y el factor de descuento " + str(factorDescuento1) + " es "+ str(V107[0]))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP2) + " y el factor de descuento " + str(factorDescuento1) + " es "+ str(V207[0]))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP3) + " y el factor de descuento " + str(factorDescuento1) + " es "+ str(V307[0]))

print("La política óptima encontrada para el vector de probabilidades " + str(vecP1) + " y el factor de descuento " + str(factorDescuento2) + " es "+ str(V108[0]))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP2) + " y el factor de descuento " + str(factorDescuento2) + " es "+ str(V208[0]))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP3) + " y el factor de descuento " + str(factorDescuento2) + " es "+ str(V308[0]))

print("La política óptima encontrada para el vector de probabilidades " + str(vecP1) + " y el factor de descuento " + str(factorDescuento3) + " es "+ str(V109[0]))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP2) + " y el factor de descuento " + str(factorDescuento3) + " es "+ str(V209[0]))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP3) + " y el factor de descuento " + str(factorDescuento3) + " es "+ str(V309[0]))

print("La política óptima encontrada para el vector de probabilidades " + str(vecP1) + " y el factor de descuento " + str(factorDescuento4) + " es "+ str(V103[0]))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP2) + " y el factor de descuento " + str(factorDescuento4) + " es "+ str(V203[0]))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP3) + " y el factor de descuento " + str(factorDescuento4) + " es "+ str(V303[0]))

print("La política óptima encontrada para el vector de probabilidades " + str(vecP1) + " y el factor de descuento " + str(factorDescuento5) + " es "+ str(V11[0]))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP2) + " y el factor de descuento " + str(factorDescuento5) + " es "+ str(V21[0]))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP3) + " y el factor de descuento " + str(factorDescuento5) + " es "+ str(V31[0]))

La política óptima encontrada para el vector de probabilidades [0.07758679 0.49768066 0.21770513 0.15094204 0.02804505 0.02804033] y el factor de descuento 0.7 es [[1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 0], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [1, 0], [1, 0], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 0]]
La política óptima encontrada para e

- Al analizar las políticas asociadas a cada vector $\vec{P}$, observamos que los vectores de selección de estados o políticas no son idénticos para un estado dado, lo cual es comprensible dada la distribución de probabilidades inherente a cada caso. Es evidente que para propósitos prácticos, si consideramos un sistema en el que avanzar rápidamente es prioritario, la selección de avanzar puede ser más frecuente. Esto se debe a que las probabilidades de maximizar el movimiento hacia casillas con transiciones positivas o más beneficiosas son mayores. Sin embargo, es importante destacar que este sistema A puede no tener una política óptima para el set completo de probabilidades

### Utilizando la implementación de iteración de valor

In [30]:
epsilon = 0.001
V107_v, politica_v107 = iteraciondevalor(matrizAdelanteP1L07, matrizRecompensasAdelanteP1L07, matrizAtrasP1L07, matrizRecompensasAtrasP1L07, factorDescuento1, epsilon, casillasAzules, casillasRojas)
V207_v, politica_v207 = iteraciondevalor(matrizAdelanteP1L07, matrizRecompensasAdelanteP1L07, matrizAtrasP1L07, matrizRecompensasAtrasP1L07, factorDescuento1, epsilon, casillasAzules, casillasRojas)
V307_v, politica_v307 = iteraciondevalor(matrizAdelanteP1L07, matrizRecompensasAdelanteP1L07, matrizAtrasP1L07, matrizRecompensasAtrasP1L07, factorDescuento1, epsilon, casillasAzules, casillasRojas)

V108_v, politica_v108 = iteraciondevalor(matrizAdelanteP1L08, matrizRecompensasAdelanteP1L08, matrizAtrasP1L08, matrizRecompensasAtrasP1L08, factorDescuento2, epsilon, casillasAzules, casillasRojas)
V208_v, politica_v208 = iteraciondevalor(matrizAdelanteP2L08, matrizRecompensasAdelanteP2L08, matrizAtrasP2L08, matrizRecompensasAtrasP2L08, factorDescuento2, epsilon, casillasAzules, casillasRojas)
V308_v, politica_v308 = iteraciondevalor(matrizAdelanteP3L08, matrizRecompensasAdelanteP3L08, matrizAtrasP3L08, matrizRecompensasAtrasP3L08, factorDescuento2, epsilon, casillasAzules, casillasRojas)

V109_v, politica_v109 = iteraciondevalor(matrizAdelanteP1L09, matrizRecompensasAdelanteP1L09, matrizAtrasP1L09, matrizRecompensasAtrasP1L09, factorDescuento3, epsilon, casillasAzules, casillasRojas)
V209_v, politica_v209 = iteraciondevalor(matrizAdelanteP2L09, matrizRecompensasAdelanteP2L09, matrizAtrasP2L09, matrizRecompensasAtrasP2L09, factorDescuento3, epsilon, casillasAzules, casillasRojas)
V309_v, politica_v309 = iteraciondevalor(matrizAdelanteP3L09, matrizRecompensasAdelanteP3L09, matrizAtrasP3L09, matrizRecompensasAtrasP3L09, factorDescuento3, epsilon, casillasAzules, casillasRojas)

V103_v, politica_v103 = iteraciondevalor(matrizAdelanteP1L03, matrizRecompensasAdelanteP1L03, matrizAtrasP1L03, matrizRecompensasAtrasP1L03, factorDescuento4, epsilon, casillasAzules, casillasRojas)
V203_v, politica_v203 = iteraciondevalor(matrizAdelanteP1L03, matrizRecompensasAdelanteP1L03, matrizAtrasP1L03, matrizRecompensasAtrasP1L03, factorDescuento4, epsilon, casillasAzules, casillasRojas)
V303_v, politica_v303 = iteraciondevalor(matrizAdelanteP1L03, matrizRecompensasAdelanteP1L03, matrizAtrasP1L03, matrizRecompensasAtrasP1L03, factorDescuento4, epsilon, casillasAzules, casillasRojas)

V11_v, politica_v11 = iteraciondevalor(matrizAdelanteP1L1, matrizRecompensasAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAtrasP1L1, factorDescuento5, epsilon, casillasAzules, casillasRojas)
V21_v, politica_v21 = iteraciondevalor(matrizAdelanteP1L1, matrizRecompensasAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAtrasP1L1, factorDescuento5, epsilon, casillasAzules, casillasRojas)
V31_v, politica_v31 = iteraciondevalor(matrizAdelanteP1L1, matrizRecompensasAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAtrasP1L1, factorDescuento5, epsilon, casillasAzules, casillasRojas)


- Para el caso de la iteración de valor es más conservativo partiendo del hecho que existe una acción para cada estado que pueda cumplir con las caracteristicas de máximización de la función de valor en el estado s, para este caso este es el algoritmo aplicado.

A continuación se verifica que la política encontrada es efectivamente óptima:

In [31]:
evaluation2 = 10**-3
error_1_v = error_test(V107_v, matrizAdelanteP1L07, matrizRecompensasAdelanteP1L07, matrizAtrasP1L07, matrizRecompensasAtrasP1L07, factorDescuento1, eps, evaluation2)
error_2_v = error_test(V207_v, matrizAdelanteP2L07, matrizRecompensasAdelanteP2L07, matrizAtrasP2L07, matrizRecompensasAtrasP2L07, factorDescuento1, eps, evaluation2)
error_3_v = error_test(V307_v, matrizAdelanteP3L07, matrizRecompensasAdelanteP3L07, matrizAtrasP3L07, matrizRecompensasAtrasP3L07, factorDescuento1, eps, evaluation2)

error_4_v = error_test(V108_v, matrizAdelanteP1L08, matrizRecompensasAdelanteP1L08, matrizAtrasP1L08, matrizRecompensasAtrasP1L08, factorDescuento2, eps, evaluation2)
error_5_v = error_test(V208_v, matrizAdelanteP2L08, matrizRecompensasAdelanteP2L08, matrizAtrasP2L08, matrizRecompensasAtrasP2L08, factorDescuento2, eps, evaluation2)
error_6_v = error_test(V308_v, matrizAdelanteP3L08, matrizRecompensasAdelanteP3L08, matrizAtrasP3L08, matrizRecompensasAtrasP3L08, factorDescuento2, eps, evaluation2)

error_7_v = error_test(V109_v, matrizAdelanteP1L09, matrizRecompensasAdelanteP1L09, matrizAtrasP1L09, matrizRecompensasAtrasP1L09, factorDescuento3, eps, evaluation2)
error_8_v = error_test(V209_v, matrizAdelanteP2L09, matrizRecompensasAdelanteP2L09, matrizAtrasP2L09, matrizRecompensasAtrasP2L09, factorDescuento3, eps, evaluation2)
error_9_v = error_test(V309_v, matrizAdelanteP3L09, matrizRecompensasAdelanteP3L09, matrizAtrasP3L09, matrizRecompensasAtrasP3L09, factorDescuento3, eps, evaluation2)

error_10_v = error_test(V103_v, matrizAdelanteP1L03, matrizRecompensasAdelanteP1L03, matrizAtrasP1L03, matrizRecompensasAtrasP1L03, factorDescuento4, eps, evaluation2)
error_11_v = error_test(V203_v, matrizAdelanteP2L03, matrizRecompensasAdelanteP2L03, matrizAtrasP2L03, matrizRecompensasAtrasP2L03, factorDescuento4, eps, evaluation2)
error_12_v = error_test(V303_v, matrizAdelanteP3L03, matrizRecompensasAdelanteP3L03, matrizAtrasP3L03, matrizRecompensasAtrasP3L03, factorDescuento4, eps, evaluation2)

error_13_v = error_test(V11_v, matrizAdelanteP1L1, matrizRecompensasAdelanteP1L1, matrizAtrasP1L1, matrizRecompensasAtrasP1L1, factorDescuento5, eps, evaluation2)
error_14_v = error_test(V21_v, matrizAdelanteP2L1, matrizRecompensasAdelanteP2L1, matrizAtrasP2L1, matrizRecompensasAtrasP2L1, factorDescuento5, eps, evaluation2)
error_15_v = error_test(V31_v, matrizAdelanteP3L1, matrizRecompensasAdelanteP3L1, matrizAtrasP3L1, matrizRecompensasAtrasP3L1, factorDescuento5, eps, evaluation2)

for i in range(15):
    print("El número de estados en los que se estaría tomando la acción correcta para la política dada es: " + str(locals()[f"error_{i+1}_v"]))

El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 58
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 63
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El número de estados en los que se estaría tomando la acción correcta para la política dada es: 100
El

- Para la iteración de valor se evidencia una penalización mayor en términos de optimalidad en donde para valores de $\lambda$ iguales a 1, a 0.3 o a 0.7, no cumple estos criterios. Sabemos que este valor generalmente no puede ser 1, ya que no cumpliría con los principios de convergencia asintótica. Por lo tanto, tiene sentido que esta no sea del todo 100. Para el caso de 0.3 y 0.7 se determinó que esto se ve más asociado a los valores de las probabilidades. En particular, se establece que el valor del parámetro de decaimiento debe ser 0.8 o 0.9, para que este converja en la mayoría de situaciones.

A continuación se muestra la política encontrada:

In [32]:
print("La política óptima encontrada para el vector de probabilidades " + str(vecP1) + " y el factor de descuento " + str(factorDescuento1) + " es "+ str(politica_v107))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP2) + " y el factor de descuento " + str(factorDescuento1) + " es "+ str(politica_v207))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP3) + " y el factor de descuento " + str(factorDescuento1) + " es "+ str(politica_v207))

print("La política óptima encontrada para el vector de probabilidades " + str(vecP1) + " y el factor de descuento " + str(factorDescuento2) + " es "+ str(politica_v108))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP2) + " y el factor de descuento " + str(factorDescuento2) + " es "+ str(politica_v208))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP3) + " y el factor de descuento " + str(factorDescuento2) + " es "+ str(politica_v308))

print("La política óptima encontrada para el vector de probabilidades " + str(vecP1) + " y el factor de descuento " + str(factorDescuento3) + " es "+ str(politica_v109))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP2) + " y el factor de descuento " + str(factorDescuento3) + " es "+ str(politica_v209))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP3) + " y el factor de descuento " + str(factorDescuento3) + " es "+ str(politica_v309))

print("La política óptima encontrada para el vector de probabilidades " + str(vecP1) + " y el factor de descuento " + str(factorDescuento4) + " es "+ str(politica_v103))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP2) + " y el factor de descuento " + str(factorDescuento4) + " es "+ str(politica_v203))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP3) + " y el factor de descuento " + str(factorDescuento4) + " es "+ str(politica_v303))

print("La política óptima encontrada para el vector de probabilidades " + str(vecP1) + " y el factor de descuento " + str(factorDescuento5) + " es "+ str(politica_v11))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP2) + " y el factor de descuento " + str(factorDescuento5) + " es "+ str(politica_v21))
print("La política óptima encontrada para el vector de probabilidades " + str(vecP3) + " y el factor de descuento " + str(factorDescuento5) + " es "+ str(politica_v31))

La política óptima encontrada para el vector de probabilidades [0.07758679 0.49768066 0.21770513 0.15094204 0.02804505 0.02804033] y el factor de descuento 0.7 es [[1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 0], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [1, 0], [1, 0], [0, 1], [1, 0], [1, 0], [1, 0], [1, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 0], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 1], [0, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [1, 0], [0, 0]]
La política óptima encontrada para e

## **Conclusiones**

- Hay dos maneras de hallar una política óptima: a partir de iteración de política o a partir de iteración de valor. Por un lado, en la iteración de política, se comienza con una política inicial y se mejora iterativamente hasta que converge a la política óptima. En cada iteración, se evalúa la política actual para calcular la función de valor de estado y luego se mejora la política seleccionando las acciones que maximizan el valor esperado. Este proceso se repite hasta que la política no cambie en ninguna iteración. Por otro lado, en la iteración de valor, se calcula directamente la función de valor óptima mediante una serie de actualizaciones iterativas. En cada iteración, se actualiza el valor de cada estado como la suma de la recompensa instantánea más el valor esperado de los estados sucesores, utilizando la mejor acción posible. Este proceso continúa hasta que la función de valor converge a la función de valor óptima. Lo anterior significa que la iteración de política se centra en mejorar la política directamente, mientras que la iteración de valor se centra en calcular la función de valor óptima y luego derivar la política óptima a partir de ella.

- Existen valores de $\lambda$ para los cuales no hay una convergencia sin rango de error, por lo que, no satisface los criterios de optimalidad, ya que o tiene en cuenta de forma mínima la experiencia o la función de valor en otros estados, o considera esta de forma agresiva fallando en la convergencia, ya que toma toda la experiencia. Se relaciona este parametro como el inverso aplicativo de $\epsilon$ que, si bien no son iguales, actúan como variables de control para regular la experiencia adquirida a lo largo del MDP.