In [14]:
import numpy as np
import random

#Definición de estados, acciones y recompensas
estados = ['A', 'B', 'C']
acciones = ['arriba', 'abajo']
recompensas = np.random.randint(0, 10, size=(len(estados), len(acciones)))

# Ejemplo de clase MDP con lógica de transición de ejemplo hecha en chatGPT
class MDP:
    def __init__(self, estados, acciones, recompensas):
        self.estados = estados
        self.acciones = acciones
        self.recompensas = recompensas
        # Lógica de transición de ejemplo (aleatoria)
        self.transiciones = {}
        for estado in estados:
            self.transiciones[estado] = {}
            for accion in acciones:
                self.transiciones[estado][accion] = {}
                for nuevo_estado in estados:
                    # Probabilidad aleatoria de transición (puedes ajustar esto)
                    self.transiciones[estado][accion][nuevo_estado] = random.random()
                # Normalizar las probabilidades para que sumen 1
                total = sum(self.transiciones[estado][accion].values())
                for nuevo_estado in estados:
                    self.transiciones[estado][accion][nuevo_estado] /= total


# Función de transición aleatoria
def transicion_aleatoria():
    return random.choice(estados)

# Generación de datos
estado_actual = random.choice(estados)
accion = random.choice(acciones)
nuevo_estado = transicion_aleatoria()
recompensa = recompensas[estados.index(estado_actual), acciones.index(accion)]

print("Estado actual: ", estado_actual)
print("Acción tomada: ", accion)
print("Nuevo estado: ", nuevo_estado)
print("Recompensa: ", recompensa)


Estado actual:  B
Acción tomada:  arriba
Nuevo estado:  A
Recompensa:  9


Conceptos de MDP

In [15]:
def calcular_valor_estado(mdp, gamma=0.9, theta=0.01):
    valores = {estado: 0 for estado in mdp.estados}
    while True:
        delta = 0
        for estado in mdp.estados:
            valor_previo = valores[estado]
            # Iteración entre acciones y nuevos estados, tomando los índices para 'recompensas'
            valores[estado] = sum(
                mdp.transiciones[estado][accion][nuevo_estado] *
                (mdp.recompensas[mdp.estados.index(estado), mdp.acciones.index(accion)] + # 'recompensas'
                 gamma * valores[nuevo_estado])
                for accion in mdp.acciones for nuevo_estado in mdp.estados
            )
            delta = max(delta, abs(valor_previo - valores[estado]))
        if delta < theta:
            break
    return valores

# Crea una instancia de la clase MDP
mdp = MDP(estados, acciones, recompensas)

# Ejemplo de uso
valores_estados = calcular_valor_estado(mdp)
print("valores de los estados", valores_estados)

valores de los estados {'A': inf, 'B': inf, 'C': inf}


  valores[estado] = sum(
  delta = max(delta, abs(valor_previo - valores[estado]))


Propiedades de Markov

In [16]:
def verificar_propiedades_markov(mdp):
  for estado in mdp.estados:
    for accion in mdp.acciones:
      suma_prob = sum(mdp.transiciones[estado][accion].values())
      if not np.isclose(suma_prob, 1.0):
        print(f"La suma de las probabilidades de transición para el estado {estado} y la acción {accion} no es igual a 1.0")
        return False
  return True

# Ejemplo de uso
if verificar_propiedades_markov(mdp):
  print("Las propiedades de Markov se cumplen.")
else:
  print("Las propiedades de Markov no se cumplen.")

Las propiedades de Markov se cumplen.


Propiedad de recompensa

In [25]:
def calcular_recompensa_promedio(mdp):
  recompensa_total = 0
  acciones_total = 0
  for i, estado in enumerate(mdp.estados): # Toma de índice y estado
    for j, accion in enumerate(mdp.acciones): # Toma de índice y acción
      for k, nuevo_estado in enumerate(mdp.estados): # Toma de índice y nuevo estado
        recompensa_total += mdp.recompensas[i, j] # Uso de índices para las recompensas
        acciones_total += 1
  return recompensa_total / acciones_total

# Ejemplo de uso
recompensa_promedio = calcular_recompensa_promedio(mdp)
print("Recompensa promedio:", recompensa_promedio)

Recompensa promedio: 4.0
