# Actividad: proceso de decisión de Markov


---

Por: Ángela Córdoba


---



* Descripción MDP

In [1]:
import numpy as np
import random

# Definicion de estados, acciones y recompensas
estados = ['A', 'B', 'C']
acciones = ['Arriba', 'Abajo']
recompensas = np.random.randint(9, 10, size=(len(estados),len(acciones)))

# Función de transición aleatoria
def transicion_aleatoria():
  return np.random.choice (estados)

# Generación de datos
estado_actual = np.random.choice(estados)
accion = np.random.choice(acciones)
nuevo_estado = transicion_aleatoria()
recompensa = recompensas[estados.index(estado_actual), acciones.index(accion)]

print("Estado actual:", estado_actual)
print("Acción tomada:", accion)
print("Nuevo estado", nuevo_estado)
print("Recompensa:", recompensa)

Estado actual: A
Acción tomada: Arriba
Nuevo estado B
Recompensa: 9


* Conceptos MDP

In [9]:
import numpy as np
import random

# Definicion de estados, acciones y recompensas
estados = ['A', 'B', 'C']
acciones = ['Arriba', 'Abajo']
recompensas = np.random.randint(9, 10, size=(len(estados),len(acciones)))

# Función de transición aleatoria
def transicion_aleatoria():
  return np.random.choice (estados)

# Generación de datos
estado_actual = np.random.choice(estados)
accion = np.random.choice(acciones)
nuevo_estado = transicion_aleatoria()
recompensa = recompensas[estados.index(estado_actual), acciones.index(accion)]

print("Estado actual:", estado_actual)
print("Acción tomada:", accion)
print("Nuevo estado", nuevo_estado)
print("Recompensa:", recompensa)

class MDP:
    def __init__(self, estados, acciones, recompensas, transiciones):
        self.estados = estados
        self.acciones = acciones
        self.recompensas = recompensas
        self.transiciones = transiciones

# Define transiciones here before using it
# Example:
transiciones = {
    'A': {'Arriba': {'A': 0.3, 'B': 0.6, 'C': 0.1}, 'Abajo': {'A': 0.8, 'B': 0.1, 'C': 0.1}},
    'B': {'Arriba': {'A': 0.2, 'B': 0.7, 'C': 0.1}, 'Abajo': {'A': 0.1, 'B': 0.8, 'C': 0.1}},
    'C': {'Arriba': {'A': 0.1, 'B': 0.2, 'C': 0.7}, 'Abajo': {'A': 0.1, 'B': 0.1, 'C': 0.8}}
}

def calcular_valor_estado(mdp, gamma=0.9, theta=0.01):
    # Inicializar valores de los estados
    valores = {estado: 0 for estado in mdp.estados}
    while True:
        delta = 0
        for estado in mdp.estados:
            valor_previo = valores[estado]
            # Calcular el nuevo valor del estado
            valores[estado] = max(
                sum(
                    mdp.transiciones[estado][accion][nuevo_estado] *
                    (mdp.recompensas[mdp.estados.index(estado)][mdp.acciones.index(accion)] + gamma * valores[nuevo_estado])
                    for nuevo_estado in mdp.estados
                )
                for accion in mdp.acciones
            )
            # Actualizar delta
            delta = max(delta, abs(valor_previo - valores[estado]))
        # Salir del bucle si delta es menor que theta
        if delta < theta:
            break
    return valores

# Ejemplo de uso
mdp = MDP(estados, acciones, recompensas, transiciones) # Now transiciones is defined
valores_estados = calcular_valor_estado(mdp)
print("Valores de los estados:", valores_estados)

Estado actual: C
Acción tomada: Abajo
Nuevo estado C
Recompensa: 9
Valores de los estados: {'A': 89.93051459309547, 'B': 89.93242770766095, 'C': 89.93503796782912}


* Propiedades de Markov

In [11]:
def verificar_propiedad_markov(mdp):
    for estado in mdp.estados:
        for accion in mdp.acciones:
            suma_probabilidades = sum(mdp.transiciones[estado][accion].values())
            if not np.isclose(suma_probabilidades, 1):
                return False
    return True

# Ejemplo de uso
print("Cumple con la propiedad de Markov:", verificar_propiedad_markov(mdp))

Cumple con la propiedad de Markov: True


* Propiedad de recompensa

In [13]:
def calcular_recompensa_promedio(mdp):
    recompensa_total = 0
    total_transiciones = 0  # Contador para el número total de transiciones

    for estado in mdp.estados:
        for accion in mdp.acciones:
            for nuevo_estado in mdp.estados:
                recompensa_total += mdp.recompensas[mdp.estados.index(estado)][mdp.acciones.index(accion)]
                total_transiciones += 1

    return recompensa_total / total_transiciones

# Ejemplo de uso
print("Recompensa promedio por acción:", calcular_recompensa_promedio(mdp))

Recompensa promedio por acción: 9.0
