# Problema del robot que recoge basura
#### Alberto Benavides

---

Hay un robot que puede moverse para recoger objetos del suelo y volver a su estación de carga para mantenerse en funcionamiento.

- El robot tiene dos estados de carga $S = \{\texttt{alta}, \texttt{baja}, \texttt{nula}\}$.
- Las funciones que puede realizar son
    1. `buscar` un objeto,
    2. `esperar` a que alguien le traiga un objeto, y
    3. `regresar` a recargarse.
- Las acciones $A$ del robot son
    - $A(\texttt{alta}) = \{ \texttt{buscar}, \texttt{esperar} \}$, y
    - $A(\texttt{baja}) = \{ \texttt{buscar}, \texttt{esperar}, \texttt{regresar} \}$.
- Al `buscar` con carga `alta` 
    - $\alpha$ es la probabilidad de mantenerse con carga `alta`, y
    - $1 - \alpha$, la de pasar a carga `baja`.
- Al `buscar` con carga `baja` 
    - $\beta$ es la probabilidad de mantenerse con carga `baja`, y
    - $1 - \beta$, la de pasar a carga `nula`.
- Al `esperar` la carga se queda en el mismo estado.
- Al `regresar` la carga pasa a ser `alta`.
- En cuanto a las recompensas $r$
    - $+1$ por recoger un objeto,
    - $r_1$: valor esperado de objetos recogidos al `buscar`, 
    - $r_2$: valor esperado de objetos recogidos al `esperar`,
    - $r_3 = -3$: quedarse con carga `nula`,
    - $r_1 > r_2$
    

La función de valor de un estado $V_S$ depende de los valores esperados de las recompensas que el robot puede obtener a partir de un estado cualquiera. Se pueden calcular, por lo tanto, las funciones de valor para la acción `buscar` es
$$V_{\texttt{buscar}} = r_1 \alpha + r_1 (1 - \alpha) + r_1 \beta + r_3 (1 - \beta)$$
$$V_{\texttt{buscar}} = r_1 \alpha + r_1 - r_1 \alpha + r_1 \beta -3 + 3\beta$$
$$V_{\texttt{buscar}} = r_1 + r_1 \beta + 3\beta - 3.$$

La función de valor para la acción `esperar` es
$$V_{\texttt{esperar}} = r_2.$$

Por último, la función de valor para la acción `regresar` es
$$V_{\texttt{regresar}} = 0.$$

# Problema del juego del Gato

El juego del Gato consiste en un tablero equivalente a una matriz de $3 \times 3$ en donde cada casilla puede tener tres estados $S= \{\sqcup, \texttt{X}, \texttt{O}\}$. Por comodidad, cada elemento será nombrado por su posición en la fila $i$ y columna $j$ como $e_{i + 2j}$, es decir, que la casilla central derecha equivalente a $i = 2, j = 1$ es el elemento $e_{2 + 2 \cdot 1} = e_5$.

La configuración inicial del tablero es
$$\begin{bmatrix} \sqcup & \sqcup & \sqcup \\ \sqcup & \sqcup & \sqcup \\ \sqcup & \sqcup & \sqcup \end{bmatrix}.$$

. Empezando por el jugador inicial y por turnos, cada jugador coloca su símbolo en alguna posición con estado $\sqcup$. El juego terminar cuando
- un jugador gana al trazar una secuencia vertical, horizontal o diagonal de sus tres figuras consecutivas, o
- ningún elemento tiene estado $\sqcup$.

Para la configuración
$$\begin{bmatrix} \texttt{O} & \texttt{X} & \texttt{O} \\ \texttt{X} & \sqcup & \sqcup \\ \sqcup & \texttt{O} & \texttt{X} \end{bmatrix},$$
cuál es la función de valor asociada a cada estado si sigue el turno del jugador con el símbolo $\texttt{X}$.

Con base en la cantidad de símbolos que cada estado tiene en su vecindad, siendo vecinas casillas adyacentes horizontales, verticales y diagonales, se definen las recompensas para la casilla $k$
- $r_{1,k}$: doble de la suma de casillas adyaventes con mismo símbolo,
- $r_{2,k}$: doble de la resta de casillas adyaventes con símbolo del otro jugador, y
- $r_{3,k}$: suma de casillas adyaventes con estado $\sqcup$.

Partiendo de esto y tomando en cuenta que hay tres posibles jugadas válidas, lo que da una probabilidad de $1/3$ para cada una de ellas, la función de valor $V$ para la casilla $k$ es
$$V_{e_k} = 1/3 r_1 - 1/3 r_2 + 1/3 r_3,$$
de donde
$$V_{e_4} = 1/3 (3) - 1/3 (3) + 1/3 (2) = 2/3,$$
$$V_{e_5} = 1/3 (2) - 1/3 (2) + 1/3 (1) = 1/3,$$
$$V_{e_6} = 1/3 (1) - 1/3 (1) + 1/3 (1) = 1/3.$$