Estudiante: Maldonado Aguilar Angel Julian.

In [1]:
import numpy as np

## Problema

**Nota 1**: para poder visualizar la imagen, favor colocar la imagen del proyecto en el mismo directorio donde se encuentra esta libreta.

**Nota 2**: A continuación se muestra la forma manual de resolver el problema, al final se encuentra la manera automatizada.

![MDP proyecto](./mdp_ejercicio.png)

En la imagen del problema se pueden identificar los siguientes elementos:

1. **Estados**: { $S_1$, $S_2$, $S_3$, $S_4$, $S_5$, $S_6$ }
2. **Acciones**: { $a_1$, $a_2$ }
3. **Matriz de transición**: la cual define la probabilidad de transitar entre estados al aplicar diferentes acciones.
4. **Recompensas**: las recompensas obtenidas en cada posible transición, las cuales para este problema puede ser una de las siguientes dos:
    - 0
    - 1

# Proceso de decisión de Markov

Un Procesos de decisión de Markov (MDP, Markov decision process) modela un problema de decisión sequencial en donde el sistema evoluciona en el tiempo y es controlado por un agente. La dinámica del sistema está determinada por una función de transición de probabilidad que mapea estados y acciones
a otros estados.

Formalmente un Proceso de Decisión de Markov es una tupla:

$$MDP = (S, s_1, A, P, R)$$

siendo 
- $S$ un conjunto de estados
- $s_1$ el estado inicial
- $A$ el conjunto de acciones
- $P$ la matriz de transición (conjunto de matrices)
- $R$ las rescompensas definidas en cada transicion.

## Matriz de transición

Una vez definida la **política** se puede determinar la matriz de transición.

Por ejemplo para el problema a resolver, se puede aplicar la política de que en cada estado, el agente debe realizar la acción $a_1$, por lo tanto la matriz de transición correspondiente es:

$$
P_{\pi_1} = 
\begin{bmatrix}
0 & 0.3 & 0.7 & 0 & 0 & 0\\ 
0 & 0.3 & 0.7 & 0 & 0 & 0\\ 
0.4 & 0 & 0 & 0.6 & 0 & 0\\ 
0 & 0 & 0 & 0 & 0.6 & 0.4\\ 
0 & 0 & 0 & 0 & 0 & 0\\ 
0 & 0 & 0 & 0 & 0 & 0\\ 
\end{bmatrix}
$$

Mientras que si la política es realizar la acción $a_2$, la matriz de transición es:

$$
P_{\pi_2} = 
\begin{bmatrix}
0.3 & 0 & 0 & 0.7 & 0 & 0\\ 
0.3 & 0 & 0 & 0.7 & 0 & 0\\ 
0 & 0.4 & 0.6 & 0 & 0 & 0\\ 
0 & 0 & 0 & 0 & 0 & 0\\ 
0 & 0 & 0 & 0 & 0 & 0\\ 
0 & 0 & 0 & 0 & 0 & 0\\ 
\end{bmatrix}
$$


## Recompensa esperada

Cuando un agente se encuentra en un estado, $s_t$, y aplica la acción $a_t$, recibirá una recompensa que dependerá del estado al que transite. Dado que puede transitar a varios estados, nos interesa evaluar el valor esperado de la recompensa:

$$ R_{s_t, a_t} = E[R_{t+1} | s_t, a_t]$$

Para una política cualquiera, $\pi$, podemos guardar los valores de la recompensa esperada para cada estado en una matriz (vector columna). Por ejemplo, para la politica $\pi_1$ la recompensa sería:

$$
r_{\pi_1} = 
\begin{bmatrix}
0.3\times(1) + 0.7\times(1) = 1 \\ 
0.3\times(1) + 0.7\times(1) = 1 \\ 
0.4\times(1) + 0.6\times(1) = 1 \\ 
0.6\times(0) + 0.4\times(0) = 0 \\ 
0 \\ 
0 \\ 
\end{bmatrix}
$$

Mientras que la recompensa esperada para la política $\pi_2$ es:

$$
r_{\pi_2} = 
\begin{bmatrix}
0.3\times(1) + 0.7\times(1) = 1 \\ 
0.3\times(1) + 0.7\times(1) = 1 \\ 
0.4\times(1) + 0.6\times(1) = 1 \\ 
0 \\ 
0 \\ 
0 \\ 
\end{bmatrix}
$$

## Politica óptima

El objetivo del aprendizaje por reforzamiento es el de identificar una política que maximice el valor esperado de las recompensas a largo plazo:

$$ 
v_\pi(s) = E
\begin{bmatrix}
    \sum_{i=1}^{\infty} \gamma^{t-1}r_t | s_1=s
\end{bmatrix}
$$

### Ecuación de Bellman

Ahora bien para determinar el valor de una política podemos utilizar la ecuación de Bellman, que en notación matricial es la siguiente:

$$ v_\pi = r_\pi + \gamma P_\pi v_\pi $$

En la cual se puede despejar el valor de la política y nos quedaria:

$$ v_\pi = (I - \gamma P_\pi)^{-1} r_\pi $$

**Valor de la política $\pi_1$**

Continuando con el problema, podemos evaluar el valor de la politica $\pi_1$, la que realiza la acción $a_1$ a cada estado del problema.

Recordemos que la matriz de transición es:

$$
P_{\pi_1} = 
\begin{bmatrix}
0 & 0.3 & 0.7 & 0 & 0 & 0\\ 
0 & 0.3 & 0.7 & 0 & 0 & 0\\ 
0.4 & 0 & 0 & 0.6 & 0 & 0\\ 
0 & 0 & 0 & 0 & 0.6 & 0.4\\ 
0 & 0 & 0 & 0 & 0 & 0\\ 
0 & 0 & 0 & 0 & 0 & 0\\ 
\end{bmatrix}
$$


Y el vector de recompensas evaluado resulto como:

$$
r_{\pi_1} = 
\begin{bmatrix}
1 \\ 
1 \\ 
1 \\ 
0 \\ 
0 \\ 
0 \\ 
\end{bmatrix}
$$

Con esta información ya se puede encontrar el valor de la política lo cual se realiza en la siguiente celda.

In [2]:
# Matriz de transición
P = np.array([
    [0, 0.3, 0.7, 0, 0, 0], 
    [0, 0.3, 0.7, 0, 0, 0], 
    [0.4, 0, 0, 0.6, 0, 0], 
    [0, 0, 0, 0, 0.6, 0.4], 
    [0, 0, 0, 0, 0, 0], 
    [0, 0, 0, 0, 0, 0]
]) 
# Vector de recompensas.
r = np.array([[1], [1], [1], [0], [0], [0]])

g = 0.7 # Factor de descuento establecido para el problema
M = np.eye(6) - g*P
M_inv = np.linalg.inv(M)
v1 = np.dot(M_inv, r)

print(v1)

[[2.28247549]
 [2.28247549]
 [1.63909314]
 [0.        ]
 [0.        ]
 [0.        ]]


**Valor de la política $\pi_2$**

También podemos evaluar el valor de la politica $\pi_2$, la que realiza la acción $a_2$ a cada estado del problema.

Recordemos que la matriz de transición es:

$$
P_{\pi_2} = 
\begin{bmatrix}
0.3 & 0 & 0 & 0.7 & 0 & 0\\ 
0.3 & 0 & 0 & 0.7 & 0 & 0\\ 
0 & 0.4 & 0.6 & 0 & 0 & 0\\ 
0 & 0 & 0 & 0 & 0 & 0\\ 
0 & 0 & 0 & 0 & 0 & 0\\ 
0 & 0 & 0 & 0 & 0 & 0\\ 
\end{bmatrix}
$$


Y el vector de recompensas es:

$$
r_{\pi_2} = 
\begin{bmatrix}
1 \\ 
1 \\ 
1 \\ 
0 \\ 
0 \\ 
0 \\ 
\end{bmatrix}
$$

Con esta información ya se puede encontrar el valor de la política lo cual se realiza en la siguiente celda.

In [3]:
# Matriz de transición
P = np.array([
    [0.3, 0, 0, 0.7, 0, 0],
    [0.3, 0, 0, 0.7, 0, 0],
    [0, 0.4, 0.6, 0, 0, 0],
    [0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 0]
])
# Vector de recompensas.
r = np.array([[1], [1], [1], [0], [0], [0]])

g = 0.7 # Factor de descuento establecido para el problema
M = np.eye(6) - g*P
M_inv = np.linalg.inv(M)
v2 = np.dot(M_inv, r)

print(v2)

[[1.26582278]
 [1.26582278]
 [2.33522479]
 [0.        ]
 [0.        ]
 [0.        ]]


## Iteración sobre politicas

Esta metodología permite encontrar una política óptima a través de los siguientes pasos:

1. Iniciar con una política $\pi$, la cual puede ser aleatoria
2. Iterativamente:
    
    2.1 Evaluar la política:
    
    $$ v_\pi = (I - \gamma P_\pi)^{-1} r_\pi $$
    
    2.2 Mejorar la política
    
    $$ \pi'(s) = \arg \max_{a} R_{s,a}  + \gamma P_{s, a} v_\pi $$

Para el problema se iniciara con la política $\pi_1$, la que asigna la acción $a_1$ a cada estado.

## Iteración 1

El valor de la política ya habia sido evaluado, el cual dio como resultado:

In [4]:
# Matriz de transición
P = np.array([
    [0, 0.3, 0.7, 0, 0, 0], 
    [0, 0.3, 0.7, 0, 0, 0], 
    [0.4, 0, 0, 0.6, 0, 0], 
    [0, 0, 0, 0, 0.6, 0.4], 
    [0, 0, 0, 0, 0, 0], 
    [0, 0, 0, 0, 0, 0]
]) 
# Vector de recompensas.
r = np.array([[1], [1], [1], [0], [0], [0]])

g = 0.7 
M = np.eye(6) - g*P
M_inv = np.linalg.inv(M)
v = np.dot(M_inv, r)

print(v)

[[2.28247549]
 [2.28247549]
 [1.63909314]
 [0.        ]
 [0.        ]
 [0.        ]]


### $S_1$

#### $a_1$

In [5]:
1 + g*np.dot([0, 0.3, 0.7, 0, 0, 0], v)

array([2.28247549])

#### $a_2$

In [6]:
1 + g*np.dot([0.3, 0, 0, 0.7, 0, 0], v)

array([1.47931985])

En este estado la acción que maximiza el valor es $a_1$, por lo tanto la elegimos y como se tenia esa acción no se actualiza la política.

### $S_2$

#### $a_1$

In [7]:
1 + g*np.dot([0, 0.3, 0.7, 0, 0, 0], v)

array([2.28247549])

#### $a_2$

In [8]:
1 + g*np.dot([0.3, 0, 0, 0.7, 0, 0], v)

array([1.47931985])

En este estado la acción que maximiza el valor es $a_1$, por lo tanto la elegimos y como se tenia esa acción no se actualiza la política.

### $S_3$

#### $a_1$

In [9]:
1 + g*np.dot([0.4, 0, 0, 0.6, 0, 0], v)

array([1.63909314])

#### $a_2$

In [10]:
1 + g*np.dot([0, 0.4, 0.6, 0, 0, 0], v)

array([2.32751225])

En este estado la acción que maximiza el valor es $a_2$ por lo tanto la elegimos y la politica tendra que ser actualiza.

### $S_4$

#### $a_1$

In [11]:
0 + g*np.dot([0, 0, 0, 0, 0.6, 0.4], v)

array([0.])

#### $a_2$

No hay otro con cual comparar entonces la acción $a_1$ se mantiene y la política no se actualiza.

### $S_5$

Para este estado no hay acciones.

### $S_6$

Para este estado no hay acciones.

## Iteración 2

Se actualiza la política en el estado $S_3$ con la acción $a_2$

In [12]:
# Matriz de transición
P = np.array([
    [0, 0.3, 0.7, 0, 0, 0], 
    [0, 0.3, 0.7, 0, 0, 0], 
    [0, 0.4, 0.6, 0, 0, 0], # Parte actualizada.
    [0, 0, 0, 0, 0.6, 0.4], 
    [0, 0, 0, 0, 0, 0], 
    [0, 0, 0, 0, 0, 0]
]) 
# Vector de recompensas.
# La recompensa para el estado 3 ya tenia el valor de 1.
r = np.array([[1], [1], [1], [0], [0], [0]])

g = 0.7 
M = np.eye(6) - g*P
M_inv = np.linalg.inv(M)
v = np.dot(M_inv, r)

print(v)

[[3.33333333]
 [3.33333333]
 [3.33333333]
 [0.        ]
 [0.        ]
 [0.        ]]


### $S_1$

#### $a_1$

In [13]:
1 + g*np.dot([0, 0.3, 0.7, 0, 0, 0], v)

array([3.33333333])

#### $a_2$

In [14]:
1 + g*np.dot([0.3, 0, 0, 0.7, 0, 0], v)

array([1.7])

Elegimos la acción $a_1$ y como se tenia esa acción no se actualiza la política.

### $S_2$

#### $a_1$

In [15]:
1 + g*np.dot([0, 0.3, 0.7, 0, 0, 0], v)

array([3.33333333])

#### $a_2$

In [16]:
1 + g*np.dot([0.3, 0, 0, 0.7, 0, 0], v)

array([1.7])

Elegimos la acción $a_1$ y como se tenia esa acción no se actualiza la política.

### $S_3$

#### $a_1$

In [17]:
1 + g*np.dot([0.4, 0, 0, 0.6, 0, 0], v)

array([1.93333333])

#### $a_2$

In [18]:
1 + g*np.dot([0, 0.4, 0.6, 0, 0, 0], v)

array([3.33333333])

Elegimos la acción $a_2$ y como se tenia esa acción no se actualiza la política.

### $S_4$

#### $a_1$

In [19]:
0 + g*np.dot([0, 0, 0, 0, 0.6, 0.4], v)

array([0.])

#### $a_2$

No hay otro con cual comparar entonces la acción $a_1$ se mantiene y la política no se actualiza.

### $S_5$

Para este estado no hay acciones.

### $S_6$

Para este estado no hay acciones.

Como ya no hay ninguna acción que actualizar en la politica, el algoritmo ha convergido, entonces hemos llegado a la política optima.

## Política optima - resultado

In [20]:
# Matriz de transición
P = np.array([
    [0, 0.3, 0.7, 0, 0, 0], 
    [0, 0.3, 0.7, 0, 0, 0], 
    [0, 0.4, 0.6, 0, 0, 0],
    [0, 0, 0, 0, 0.6, 0.4], 
    [0, 0, 0, 0, 0, 0], 
    [0, 0, 0, 0, 0, 0]
]) 
# Vector de recompensas.
r = np.array([[1], [1], [1], [0], [0], [0]])

g = 0.7 
M = np.eye(6) - g*P
M_inv = np.linalg.inv(M)
v = np.dot(M_inv, r)

print(v)

[[3.33333333]
 [3.33333333]
 [3.33333333]
 [0.        ]
 [0.        ]
 [0.        ]]


# Forma automatizada

Se establecen la matriz de transición y vector de recompensas para cada politica.

In [28]:
# Matriz de transición y vector de recompensas de la politica 1

P1 = np.array([
    [0, 0.3, 0.7, 0, 0, 0], 
    [0, 0.3, 0.7, 0, 0, 0], 
    [0.4, 0, 0, 0.6, 0, 0], 
    [0, 0, 0, 0, 0.6, 0.4], 
    [0, 0, 0, 0, 0, 0], 
    [0, 0, 0, 0, 0, 0]
]) 
r1 = np.array([[1], [1], [1], [0], [0], [0]])

# Matriz de transición y vector de recompensas de la politica 2

P2 = np.array([
    [0.3, 0, 0, 0.7, 0, 0],
    [0.3, 0, 0, 0.7, 0, 0],
    [0, 0.4, 0.6, 0, 0, 0],
    [0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 0],
    [0, 0, 0, 0, 0, 0]
])
r2 = np.array([[1], [1], [1], [0], [0], [0]])

Al igual que en el proceso manual para el problema se iniciara con la política  $\pi_1$ , la que asigna la acción  $a_1$  a cada estado.

In [32]:
# Matriz de transición
P = np.array([
    [0, 0.3, 0.7, 0, 0, 0], 
    [0, 0.3, 0.7, 0, 0, 0], 
    [0.4, 0, 0, 0.6, 0, 0], 
    [0, 0, 0, 0, 0.6, 0.4], 
    [0, 0, 0, 0, 0, 0], 
    [0, 0, 0, 0, 0, 0]
]) 
# Vector de recompensas.
r = np.array([[1], [1], [1], [0], [0], [0]])

g = 0.7 

In [33]:
# 0 representa escoger la politica 1
# 1 representa escoger la politica 2
# Como se determino empezar con la politica 1 por eso el vector esta lleno de ceros.
mov = [0, 0, 0, 0, 0, 0]

In [34]:
n_states = 6
change_P_v = True
it = 1

while change_P_v:
    M = np.eye(6) - g*P
    M_inv = np.linalg.inv(M)
    v = np.dot(M_inv, r)
    
    

    print('ITERACION ', it)
#     print('\nMatriz de transición\n', P)
#     print('\nVector de recompensas\n', r)
    print('\nValor de la politica \n', v, '\n')
    
    change_P_v = False
    
    for state in range(n_states):
        print('Estado', state+1)
        x1 = r1[state, 0] + g*np.dot(P1[state], v)
        x2 = r2[state, 0] + g*np.dot(P2[state], v)

        print(x1)
        print(x2)
        max_mov = np.argmax([x1[0], x2[0]])

        if mov[state] != max_mov:
            print("Cambio en la politica")
            change_P_v = True
            # Si la politica que ya tenia era la 1 se cambia a la 2
            if mov[state] == 0:
                P[state] = P2[state]
                r[state] = r2[state]
                mov[state] = 1
            # Si la politica que ya tenia era la 2 se cambia a la 1
            else:
                P[state] = P1[state]
                r[state] = r1[state]
                mov[state] = 0
        print()
        
    it += 1
    print('----------------------------------------------')

print('Ya no se realizaron mas cambios en el valor de la politica')    
print('Por lo tanto la politica optima es: \n')
print(v)

ITERACION  1

Valor de la politica 
 [[2.28247549]
 [2.28247549]
 [1.63909314]
 [0.        ]
 [0.        ]
 [0.        ]] 

Estado 1
[2.28247549]
[1.47931985]

Estado 2
[2.28247549]
[1.47931985]

Estado 3
[1.63909314]
[2.32751225]
Cambio en la politica

Estado 4
[0.]
[0.]

Estado 5
[0.]
[0.]

Estado 6
[0.]
[0.]

----------------------------------------------
ITERACION  2

Valor de la politica 
 [[3.33333333]
 [3.33333333]
 [3.33333333]
 [0.        ]
 [0.        ]
 [0.        ]] 

Estado 1
[3.33333333]
[1.7]

Estado 2
[3.33333333]
[1.7]

Estado 3
[1.93333333]
[3.33333333]

Estado 4
[0.]
[0.]

Estado 5
[0.]
[0.]

Estado 6
[0.]
[0.]

----------------------------------------------
Ya no se realizaron mas cambios en el valor de la politica
Por lo tanto la politica optima es: 

[[3.33333333]
 [3.33333333]
 [3.33333333]
 [0.        ]
 [0.        ]
 [0.        ]]
