# Task 1 - Preguntas Teóricas

Responda a cada de las siguientes preguntas de forma clara y lo más completamente posible

1. Defina el proceso de decisión de Markov (MDP) y explique sus componentes.

El proceso de decisión de Markov (MDP) es un marco matemático utilizado para modelar la toma de decisiones en entornos donde los resultados dependen tanto del azar como de las acciones de un agente. Se define mediante una tupla (S,A,P,R), cuyos componentes son:

- S (Espacio de Estados): Conjunto de todos los estados posibles en los que puede encontrarse el sistema.
- A (Espacio de Acciones): Conjunto de todas las acciones posibles que el agente puede ejecutar en cada estado.
- P (Probabilidad de Transición de Estado): Función que define la probabilidad de moverse de un estado a otro dado que se ha tomado una acción específica.
- R (Función de Recompensa): Asigna un valor numérico a cada par estado-acción, reflejando la conveniencia de dicha acción en un estado determinado.



2. Describa cuál es la diferencia entre política, evaluación de políticas, mejora de políticas e iteración de políticas
en el contexto de los PDM.

- Política: Es una regla que nos da acciones a poder tomar en cada estado del entorno. Esta se puede llegar a representar como una función que se asigna a cada uno de los estados una acción o distribución de una probabilidad sobre dichas acciones. El agente se guía de esta política para interactuar con el ambiente.
- Evaluación de políticas: Nos ayuda a calcular la función de valor que se asocia a una política dada. Con una evaluación de políticas determinamos la recompensa acumulada esperada al seguir una política desde un estado en cierta dirección. Se podría decir que evalúa que tan buena es la política en cuanto a rendimiento a largo plazo. 
- Mejora de políticas: Actualiza o hace ajustes a la política utilizada haciendo uso de la evaluación realizada. La manera en la que se hace uso de la evaluación de políticas es determinando las acciones que pueden incrementar la recompensa esperada en cada estado, con esto se modifica la política para que en cada estado se asegure de seleccionar la acción más óptima. 
- Iteración de políticas: Con la iteración usamos los dos pasos anteriores haciendo una evaluación de la política actual y después se mejora la política usando los resultados de la evaluación de políticas. Este proceso se repite hasta que se consigue que la política converge, o sea, que no se puede obtener mejoras, esto quiere decir que se llegó a una política óptima.

3. Explique el concepto de factor de descuento (gamma) en los MDP. ¿Cómo influye en la toma de decisiones?



4. Analice la diferencia entre los algoritmos de iteración de valores y de iteración de políticas para resolver MDP.

5. ¿Cuáles son algunos desafíos o limitaciones comunes asociados con la resolución de MDP a gran escala?
Discuta los enfoques potenciales para abordar estos desafíos.

# Task 2 - Preguntas Analíticas

Responda a cada de las siguientes preguntas de forma clara y lo más completamente posible.


1. Analice críticamente los supuestos subyacentes a la propiedad de Markov en los Procesos de Decisión de
Markov (MDP). Analice escenarios en los que estos supuestos puedan no ser válidos y sus implicaciones
para la toma de decisiones.


2. Explore los desafíos de modelar la incertidumbre en los procesos de decisión de Markov (MDP) y analice
estrategias para una toma de decisiones sólida en entornos inciertos.


# Task 3 - Preguntas Prácticas

Desarrolle un agente básico capaz de resolver un problema simplificado del Proceso de Decisión de Markov (MDP).
Considere utilizar un ejemplo bien conocido como el entorno 'Frozen Lake'. Proporcione el código Python para el
proceso de toma de decisiones del agente basándose únicamente en los principios de los procesos de decisión de
Markov. Recuerde que para este tipo de problema, el ambiente es una matriz de 4x4, y las acciones, pueden ser
moverse hacia arriba, abajo, derecha, izquierda. Considere que el punto inicial siempre estará en la esquina opuesta
del punto de meta. Es decir, puede tener hasta 4 configuraciones diferentes. Por ejemplo, el punto inicial puede estar
en la coordenada (0, 0) y el punto de meta en la coordenada en la coordenada (3, 3). Además, la posición de los hoyos
debe ser determinada aleatoriamente y no debe superar el ser más de 3. Es decir, si aleatoriamente se decide que
sean 2 posiciones de hoyo, las coordenadas de estas deben ser determinadas de forma aleatoria. Asegúrese de usar
“seed” para que sus resultados sean consistentes.

In [1]:
%pip install gym 

Defaulting to user installation because normal site-packages is not writeable
Collecting gym
  Downloading gym-0.26.2.tar.gz (721 kB)
     ---------------------------------------- 0.0/721.7 kB ? eta -:--:--
     --------------------------- ---------- 524.3/721.7 kB 5.9 MB/s eta 0:00:01
     -------------------------------------- 721.7/721.7 kB 2.1 MB/s eta 0:00:00
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Collecting numpy>=1.18.0 (from gym)
  Downloading numpy-2.2.3-cp313-cp313-win_amd64.whl.metadata (60 kB)
Collecting cloudpickle>=1.2.0 (from gym)
  Downloading cloudpickle-3.1.1-py3-none-any.whl.metadata (7.1 kB)
Collecting gym_notices>=0.0.4 (from gym)
  Downloading gym_notices-0.0.8-py3-none-any.whl.


[notice] A new release of pip is available: 24.3.1 -> 25.0.1
[notice] To update, run: C:\Users\nel20\AppData\Local\Microsoft\WindowsApps\PythonSoftwareFoundation.Python.3.13_qbz5n2kfra8p0\python.exe -m pip install --upgrade pip


In [None]:
import gym
import numpy as np

In [7]:
class MarkovDecisionProcess():
    def __init__(self, num_states, num_actions, dynamics_fn):
        """
        Initializes an object representing a Markov Decision Process.
        Assumes the reward is deterministic for a given state.
        """
        assert num_states > 0 and num_actions > 0
        self.num_states = num_states
        self.num_actions = num_actions
        # P[s][a] represents a list of possible transistions given state s and a.
        # each transistion is expected as a list/tuple: 
        # [prob_next_state, next_state, reward, is_terminal]
        self.P = dynamics_fn
        # sanity checks
        self.__verify()
    
    def __verify(self):
        assert len(self.P) == self.num_states
        for s in self.P.keys():
             assert len(self.P[s]) == self.num_actions
        for s in self.P.keys():
            for a in self.P[s].keys():
                transitions = self.P[s][a]
                p_sum = sum([t[0] for t in transitions])
                assert p_sum <= 1 and p_sum > 0.99

In [8]:
MDP = MarkovDecisionProcess

env = gym.make('FrozenLake-v1', is_slippery=False)
env.render()
mdp = MDP(env.observation_space.n, env.action_space.n, env.unwrapped.P)

print("Number of states ", mdp.num_states)
print("Number of actions ", mdp.num_actions)

sample_actions = {'LEFT':0, 'UP':3}
sample_states = [0,11,15]
for s in sample_states:
    for a in sample_actions.keys():
        print(f"Transitions for state {s} and action {a} are\n ", mdp.P[s][sample_actions[a]])

ResetNeeded: Cannot call `env.render()` before calling `env.reset()`, if this is a intended action, set `disable_render_order_enforcing=True` on the OrderEnforcer wrapper.

### Bibliografía:

- Buczyński, R. (2023, 21 septiembre). Understanding Markov Decision Processes - Python in Plain English. Medium. https://python.plainenglish.io/understanding-markov-decision-processes-17e852cd9981