# Planificación en entornos con incertidumbre

# 1. Introducción

Planificar consiste en encontrar una secuencia de acciones para alcanzar un
determinado objetivo cuando se ejecutan a partir de un determinado estado inicial.
Existen multitud de aplicaciones en el mundo real y, en particular, veremos en este
trabajo algunas relacionadas con la Robótica.
Comencemos definiendo algunos conceptos en un problema de planificación:

* Un estado s ∈ S es una posible situación del problema de acuerdo a una deter-
minada representación, siendo S el conjunto de todas las posibles situaciones en
dicha representación.

* Una acción a : S → S es un operador básico para la transformación de estados.
Denotaremos por A al conjunto de las acciones definidas para resolver el problema.
Cabe mencionar que cada acción a ∈ A tiene asociada una función de aplicabilidad
$f_a$ : S → {0, 1} que determina si la acción puede ser aplicable o no a un estado
concreto.
De esta forma, un plan es una secuencia de acciones que, partiendo de un estado inicial
$s_{init}$ ∈ $S$, permite alcanzar un estado final $s_{goal}$ ∈ $S_{goal}$ al que llamaremos objetivo, siendo
$S_{goal}$ ⊆ $S$ el conjunto de aquellos estados considerados como finales.

# 1.1. Planificación clásica
La planificación clásica considera entornos que son:
Completamente observables: El planificador conoce siempre el estado actual.
Deterministas: El efecto de cada acción sobre cada estado es conocido y siempre
es el mismo.
* Finitos: Los conjuntos de estados y acciones son finitos.
* Estáticos: La situación del problema sólo puede cambiar mediante la las acciones del planificador.
* Discretos: La situación del problema se puede describir de forma discreta:
    * Tiempo discreto
    * Acciones discretas
    * Objetos discretos
    * Efectos discretos

Por desgracia, muchos problemas de planificación interesantes de la vida real no pueden
ser resueltos mediante planificación clásica, fallando en algunas o en todas las anteriores asunciones. Tomemos por ejemplo, el caso de un robot móvil de dos ruedas cuya
misión es encontrar la puerta del despacho de un determinado profesor en el pasillo del
Departamento de CCIA en la primera planta del módulo H de la ETSII. El robot tiene
tres acciones: (1) Avanzar a velocidad constante, (2) detenerse y (3) leer un nombre en
una puerta. Los sensores del robot son capaces de detectar puertas, capturar imágenes y
saber cuantas vueltas ha dado cada una de sus ruedas. El robot cuenta con un software
OCR para interpretar los nombres escritos en las imágenes capturadas. Cuando encuen-
tre la puerta del profesor que busca, debe detenerse y mostrar en una pantalla el número
de metros recorridos.
* El entorno no es $completamente\ observable$: Pues la percepción del robot depende
de la calidad de los sensores y del procesamiento realizado con la información
obtenida. Podrı́an haber problemas de calidad en las imágenes capturadas o errores
en su procesamiento.
* Las acciones no son $deterministas$: Pues las condiciones del suelo y la calidad de
los motores afectarı́an a las trayectorias realizadas en mayor o menor medida.
Asimismo, podrı́a existir un bias en los motores que no estuviera recogido en el
modelo fı́sico del robot.

Este trabajo se va a enfocar en la resolución de problemas de planificación en entornos
$parcialmente\ observables,\ estocásticos,\ finitos,\ dinámicos\ y\ discretos$. Para ello, se van a
utilizar dos formas nuevas de definir los problemas de planificación: Mediante $Procesos\ de\ Decisión\ de\ Markov\ (MDPs)$ y mediante $Procesos\ de\ Decisión\ de\ Markov\ Parcialmente\ Observables\ (POMDPs)$.

# 1.2. Procesos de Decisión de Markov
Un Proceso de Decisión de Markov (MDP) se define como una tupla (S, A, T, R),
en dónde:
* $S$ es un conjunto finito de estados.
* $A$ es un conjunto finito de posibles acciones.
* $T\ :\ S\ ×\ A\ ×\ S$ → [0, 1] es la función de transición, dónde $T(s, a, s')$ = $Pr(s'|s, a)$
representa la probabilidad de obtener el estado $s'$ cuando se realiza la acción a
partiendo del estado $s$.
* $R\ :\ S\ ×\ A\ ×\ S$ → $R$ es la función de recompensa, dónde $R(s, a, s')$ es la recompensa
obtenida tras ejecutar la acción a partiendo del estado $s$ y alcanzando $s'$.


En los $MDPs$ no se define de forma explı́cita un objetivo o conjunto de estados finales,
en su lugar se define una función de recompensa. Resolver un $MDP$ significa encontrar
un criterio o polı́tica para elegir acciones de tal forma que se maximice el lı́mite del
sumatorio de la función de recompensa en el infinito.
A modo de ejemplo, en la figura 1 se observa el diagrama de un $MDP$ con tres estados
$S_0$ , $S_1$ , $S_2$ y dos acciones $a_0$ , $a_1$. Las probabilidades de la función de transición quedan
representadas sobre las aristas del grafo, por ejemplo, la probabilidad de alcanzar el
estado $S_0$ tras ejecutar la acción a 0 partiendo de $S_1$ es 0,7. La función de recompensa
devuelve siempre cero salvo cuando se alcanza $S_0$ desde $S_1$ aplicando a 0 que devuelve un
valor de 5 y cuando se alcanza $S_1$ aplicando a 1 desde $S_2$ , devolviendo un valor de −1.
Una posible polı́tica para el anterior $MDP$ podrı́a ser la siguiente:

* Ejecutar siempre $a_1$ desde el estado $S_0$
* Ejecutar siempre $a_0$ desde el estado $S_1$
* Ejecutar siempre $a_1$ desde el estado $S_2$

# 1.3. Procesos de Decisión de Markov Parcialmente Observables
Un Proceso de Decisión de Markov Parcialmente Observable (POMDP) es
una tupla (S, A, T, R, Z, O), en dónde:
* $S$ es un conjunto finito de estados.

* $A$ es un conjunto finito de posibles acciones.

* $T\ :\ S\ ×\ A\ ×\ S$ → [0, 1] es la función de transición, dónde $T(s, a, s')$ = $Pr(s'|s, a)$
representa la probabilidad de obtener el estado $s'$ cuando se realiza la acción a
partiendo del estado $s$.

* $R\ :\ S\ ×\ A$ → $R$ es la función de recompensa, dónde $R(s, a)$ es la recompensa
obtenida tras ejecutar la acción a partiendo del estado $s$.

* $Z$ es un conjunto finito de posibles observaciones.

* $O\ :\ S\ ×\ A\ ×\ Z$ → [0, 1] es la función de observación, dónde $O(s', a, z)$ = $Pr(z|a, s')$
es la probabilidad de observar $z$ cuando se ejecuta la acción $a$ y el estado resultante
es $s'$

Los $POMDPs$ son extensiones de los $MDPs$ en dónde no se conoce con certeza el
estado actual, en su lugar el planificador debe construir y actualizar en tiempo de ejecución una distribución de probabilidad sobre el conjunto de estados $S$ representando ası́
su creencia (o $belief$) sobre el estado actual. En un $POMDP$ , cada vez que se realiza una
acción se desconoce el estado concreto que se alcanza, pero se obtiene una observación
$z\ ∈\ Z$ que permite actualizar el $belief$, es por ello que se denominan $parcialmente\ observables$. Nótese también que la función de recompensa no considera el estado alcanzado.

# 1.4. El problema del tigre
Uno de los ejemplos más clásicos de $POMDPs$ es el problema del tigre que se
ilustra en la figura 2.
Imagina que te encuentras ante dos puertas, tras una de ellas hay un tigre hambriento,
tras la otra un camino para escapar. Debes abrir una puerta, pero no sabes en qué puerta
está el tigre. Como acciones puedes abrir una de las dos puertas o escuchar. Al escuchar
puedes percibir que el tigre se encuentra a la izquierda o a la derecha. Pero hay que tener
en cuenta que debido al estrés y los nervios, tus sentidos te pueden engañar y puedes
escuchar al tigre en un lado cuando en realidad se encuentra al otro. Para colmo, el
tigre se va impacientando y es capaz de romper la puerta al cabo de un tiempo. ¿Qué
secuencia de acciones deberı́as realizar para escapar lo antes posible?

El problema del tigre se puede formalizar como un $POMDP$ = $(S, A, T, R, Z, O)$ de
la siguiente forma:
* $S$ = {$tigre\_izquierda, tigre\_derecha$}
* $A$ = {$escuchar, abrir\_izquierda, abrir\_derecha$}
* $T (s, a, s')$ = 1 si s = s' para cualquier $a$ ∈ $A$
* $T (s, a, s')$ = 0 si s $\neq$ s' para cualquier $a$ ∈ $A$
* $R(tigre\_izquierda, abrir\_izquierda)$ = −100
* $R(tigre\_derecha, abrir\_derecha)$ = −100
* $R(tigre\_izquierda, abrir\_derecha)$ = 10
* $R(tigre\_derecha, abrir\_izquierda)$ = 10
* $R(s, escuchar)$ = −1 para cualquier $s$ ∈ $S$
* $Z$ = {$rugidos\_a\_la\_izquierda, rugidos\_a\_la\_derecha$}
* $O(tigre\_izquierda, escuchar, rugidos\_izquierda)$ = 0,85
* $O(tigre\_izquierda, escuchar, rugidos\_derecha)$ = 0,15
* $O(tigre\_derecha, escuchar, rugidos\_derecha)$ = 0,85
* $O(tigre\_derecha, escuchar, rugidos\_izquierda)$ = 0,15