In [26]:
# Proceso de Decisión de Markov (MDP)
import numpy as np
import random

# Defincion de estados, acciones y recompensas
estados = ['A', 'B', 'C']
acciones = ['Arriba', 'Abajo']
recompensas = np.random.randint(0, 10, size=(len(estados), len(acciones)))

# Función de transición aleatoria
def transicion_aleatoria():
    return np.random.choice(estados)

# Generación de datos
estado_actual = np.random.choice(estados)
accion = np.random.choice(acciones)
nuevo_estado = transicion_aleatoria()
recompensa = recompensas[estados.index(estado_actual), acciones.index(accion)]

# Imprimir resultados
print(f"Estado actual: {estado_actual}")
print(f"Acción: {accion}")
print(f"Nuevo estado: {nuevo_estado}")
print(f"Recompensa: {recompensa}")

Estado actual: C
Acción: Arriba
Nuevo estado: A
Recompensa: 7


In [27]:
# Conceptos de MDP
def calcular_valor_estado(mdp, gamma=0.9, theta=0.01):
  valores = {estado: 0 for estado in mdp.estados}
  while True:
    delta = 0
    for estado in mdp.estados:
      valor_previo = valores[estado]
      valores[estado] = sum(mdp.transiciones[estado][accion][nuevo_estado] * (mdp.recompensas[estado][accion][nuevo_estado] + gamma * valores[nuevo_estado]) for accion, in mdp.acciones for nuevo_estado in mdp.estados)
      delta = max(delta, abs(valor_previo - valores[estado]))
    if delta < theta:
      break
  return valores

  # Ejemplo de uso
  valores_estados = calcular_valor_estado(mdp)
  print("Valores de los estados: ", valores_estados)

In [28]:
# Propiedades de Markov
class MDP:
    def __init__(self, estados, acciones, transiciones, recompensas):
        self.estados = estados
        self.acciones = acciones
        self.transiciones = transiciones
        self.recompensas = recompensas


def verificar_propiedad_markov(mdp):
  for estado in mdp.estados:
    for accion in mdp.acciones:
      suma_probabilidades = sum(mdp.transiciones[estado][accion].values())
      if not np.isclose(suma_probabilidades, 1):
        return False
  return True

  # ejemplo de uso
  print (verificar_propiedad_markov(mdp))

transiciones = {
    'A': {'Arriba': {'A': 0.3, 'B': 0.7}, 'Abajo': {'C': 1.0}},
    'B': {'Arriba': {'A': 0.6, 'B': 0.4}, 'Abajo': {'C': 1.0}},
    'C': {'Arriba': {'A': 1.0}, 'Abajo': {'C': 1.0}}
}
recompensas = {
    'A': {'Arriba': {'A': 1, 'B': 2}, 'Abajo': {'C': 3}},
    'B': {'Arriba': {'A': 4, 'B': 5}, 'Abajo': {'C': 6}},
    'C': {'Arriba': {'A': 7}, 'Abajo': {'C': 8}}
}

# Crea un objeto MDP
mdp = MDP(['A', 'B', 'C'], ['Arriba', 'Abajo'], transiciones, recompensas)

if verificar_propiedad_markov(mdp):
  print("El MDP cumple con la propiedad de Markov.")
else:
  print("El MDP no cumple con la propiedad de Markov.")

El MDP cumple con la propiedad de Markov.


In [30]:
# Propiedad de Recompensa
def calcular_recompensa_promedio(mdp):
  recompensa_total = 0
  total_transiciones = 0
  for estado in mdp.estados:
    for accion in mdp.acciones:
      for nuevo_estado in mdp.transiciones[estado][accion]:
        recompensa_total += mdp.transiciones[estado][accion][nuevo_estado] * mdp.recompensas[estado][accion][nuevo_estado]
        total_transiciones += mdp.transiciones[estado][accion][nuevo_estado]
  return recompensa_total / total_transiciones

  # ejemplo de uso
  print ("Recompensa promedio por acción: ", calcular_recompensa_promedio(mdp))

In [None]:
# recompensa promedio por acción
def calcular_recompensa_promedio(mdp):
  recompensa_total = 0
  total_transiciones = 0
  for estado in mdp.estados:
    for accion in mdp.acciones:
      for nuevo_estado in mdp.transiciones[estado][accion]:
        recompensa_total += mdp.transiciones[estado][accion][nuevo_estado] * mdp.recompensas[estado][accion][nuevo_estado]
        total_transiciones += mdp.transiciones[estado][accion][nuevo_estado]
  return recompensa_total / total_transiciones