Proceso de Decisión de Markov (MDP)

In [39]:
import numpy as np
import random

# Definicion de estados, acciones y recompensas
estados = ['A', 'B', 'C']
acciones = ['Arriba', 'Abajo']
recompensas = np.random.randint(9, 10, size=(len(estados),len(acciones)))

# Función de transición aleatoria
def transicion_aleatoria():
  return np.random.choice (estados)

# Generación de datos
estado_actual = np.random.choice(estados)
accion = np.random.choice(acciones)
nuevo_estado = transicion_aleatoria()
recompensa = recompensas[estados.index(estado_actual), acciones.index(accion)]

print("Estado actual:", estado_actual)
print("Acción tomada:", accion)
print("Nuevo estado", nuevo_estado)
print("Recompensa:", recompensa)

Estado actual: C
Acción tomada: Arriba
Nuevo estado B
Recompensa: 9


Conceptos de MDP

In [40]:
def generar_transiciones_aleatorias(self):
        transiciones = {}
        for estado in self.estados:
            transiciones[estado] = {}
            for accion in self.acciones:
                # Crear una distribución de probabilidad aleatoria para los estados siguientes
                probabilidades = np.random.dirichlet(np.ones(len(self.estados)))
                transiciones[estado][accion] = dict(zip(self.estados, probabilidades))
        return transiciones

In [41]:
print("Estados:",estados)
print("Acciones:",acciones)
print("Recompensas",recompensas)
print("Transiciones",transiciones)

Estados: ['A', 'B', 'C']
Acciones: ['Arriba', 'Abajo']
Recompensas [[9 9]
 [9 9]
 [9 9]]
Transiciones {'A': {'Arriba': {'A': 0.38582739155652596, 'B': 0.4645763627189129, 'C': 0.14959624572456123}, 'Abajo': {'A': 0.6934866646012546, 'B': 0.04354861731485599, 'C': 0.2629647180838892}}, 'B': {'Arriba': {'A': 0.04813592397644143, 'B': 0.3883862982611506, 'C': 0.5634777777624079}, 'Abajo': {'A': 0.1043643283787283, 'B': 0.31339436239625074, 'C': 0.5822413092250209}}, 'C': {'Arriba': {'A': 0.3111456286114163, 'B': 0.46904761871178247, 'C': 0.21980675267680108}, 'Abajo': {'A': 0.3764211244394667, 'B': 0.3621996955465935, 'C': 0.26137918001393984}}}


In [42]:
import numpy as np

class MDP:
    def __init__(self, estados, acciones, recompensas, transiciones):
        self.estados = estados
        self.acciones = acciones
        self.recompensas = recompensas
        self.transiciones = transiciones

def calcular_valor_estado(mdp, gamma=0.9, theta=0.01):
    valores = {estado: 0 for estado in mdp.estados}
    while True:
        delta = 0
        for estado in mdp.estados:
            valor_previo = valores[estado]
            # Calcular el nuevo valor del estado
            valores[estado] = max(
                sum(
                    mdp.transiciones[estado][accion][nuevo_estado] *
                    (mdp.recompensas[mdp.estados.index(estado)][mdp.acciones.index(accion)] + gamma * valores[nuevo_estado])
                    for nuevo_estado in mdp.estados
                )
                for accion in mdp.acciones
            )
            # Actualizar delta
            delta = max(delta, abs(valor_previo - valores[estado]))
        # Salir del bucle si delta es menor que theta
        if delta < theta:
            break
    return valores

mdp = MDP(estados, acciones, recompensas, transiciones)
valores_estados = calcular_valor_estado(mdp)
print("Valores de los estados:", valores_estados)





Valores de los estados: {'A': 89.94490008160099, 'B': 89.9482439629119, 'C': 89.95155726180982}


In [43]:
def verificar_propiedad_markov(mdp):
  for estado in mdp.estados:
    for accion in mdp.acciones:
      suma_probabilidades = sum(mdp.transiciones[estado][accion].values())
      if not np.isclose(suma_probabilidades, 1):
        return False
    return True
# Ejemplo de uso
print("Cumple con la propiedad de Markov:", verificar_propiedad_markov(mdp))

Cumple con la propiedad de Markov: True


In [46]:
def calcular_recompensa_promedio(mdp):
    recompensa_total = 0
    total_transiciones = 0  # Contador para el número total de transiciones

    for estado in mdp.estados:
        for accion in mdp.acciones:
            for nuevo_estado in mdp.estados:
                recompensa_total += mdp.recompensas[mdp.estados.index(estado)][mdp.acciones.index(accion)]
                total_transiciones += 1  # Contar cada transición

    # Evitar división por cero
    if total_transiciones == 0:
        return 0

    return recompensa_total / total_transiciones

# Ejemplo de uso
print("Recompensa promedio por acción:", calcular_recompensa_promedio(mdp))


Recompensa promedio por acción: 9.0
