# Сеточный мир

## Постановка задачи

Условия: задана матрица состояний 5х5, функция ценности перехода из одного состояния в другое, $\gamma = 0.9$. Стратегия выбора перехода (действия) - равновероятная.

Задача: для каждого состояния вычислить его ценность. Вычисления провести двумя методами: путём решения СЛАУ и методом Монте-Карло.

<img src="mesh_world_problem.png" width=600 height=600/>

## Решение

### Монте-Карло

Определим функцию, которая делает броски по Монте-Карло и для перехода из одного состояния в другое пользуется предоставленной стратегией.

Стратегия - это функция, которая принимает на вход текущее состояние и возвращает следующее состояние и награду за переход в следующее состояние.

In [1]:
from typing import Callable, Tuple

import numpy as np

def mc_solution(
        strategy: Callable[[int, int], Tuple[int, int, float]],
        width: int=5, 
        height: int=5, 
        gamma: float=0.9, 
        exp_cnt: int=10**6
    ):
    '''
    Monte-Carlo based solution. Model `exp_cnt` experiments, extract average out of results.
    Arguments:
    * width, height - size of statuses' matrix.
    * gamma - decay coefficient.
    * exp_cnt - number of experiments per state.
    * strategy - callable object, which accepts current state (starting from (1,1)) and returns next state (also starting from (1,1))
and reward for passing to this state.
    
    Returns numpy.ndarray of size height*width, which elements are value function of corresponding state.
    '''
    def _make_throw(i, j, gamma, gamma_i = -1):
        eps = 10**(-20)
        result_i = 0.
        gamma_i = gamma if gamma_i == -1 else gamma_i
        
        next_i, next_j, reward = strategy(i, j)
        result_i += reward
        if gamma_i >= eps:
            result_i += gamma_i * _make_throw(next_i, next_j, gamma, gamma_i*gamma)
        
        return result_i
    
    result = np.zeros((height, width))
    
    for i in range(height):
        for j in range(width):
            total_value = 0.
            
            for _ in range(exp_cnt):
                total_value += _make_throw(i+1, j+1, gamma)
            result[i,j] = total_value / exp_cnt
            
    return result

Определим стратегию, которая соответствует нашей задаче.

In [2]:
import numpy as np

def strategy(i: int, j: int):
    possible_states = [
        (i+1, j),
        (i-1, j),
        (i, j+1),
        (i, j-1)
    ]
    reward = 0.
    
    next_state = possible_states[np.random.randint(0, len(possible_states))]
    
    # Check for special states.
    if i == 1 and j == 2:
        next_state = (5,2)
        reward = 10.
    elif i == 1 and j == 4:
        next_state = (3,4)
        reward = 5.
        
    # Check if we are out of grid.
    if next_state[0] < 1 or next_state[0] > 5 or \
       next_state[1] < 1 or next_state[1] > 5:
        next_state = (i,j)
        reward = -1.
    
    return *next_state, reward

In [3]:
print(mc_solution(strategy, exp_cnt=100))

[[ 2.80139515  9.41983516  4.54353174  5.10241533  0.9700123 ]
 [ 1.36944605  2.95182404  1.36515031  1.24760696 -0.0186247 ]
 [-0.23637236  0.20362285  0.22714912  0.48405759 -0.41205169]
 [-0.7493346  -0.29791078 -0.1662934  -0.2691216  -0.86678921]
 [-1.23336684 -0.76277585 -0.85732181 -0.99532201 -1.30354217]]


In [4]:
print(mc_solution(strategy, exp_cnt=1000))

[[ 2.73344995e+00  9.34575208e+00  4.00785152e+00  5.10829236e+00
   1.00348144e+00]
 [ 7.58619585e-01  2.71877974e+00  1.57223010e+00  1.50643567e+00
  -7.74246549e-03]
 [-4.15810115e-01  4.23875064e-01  3.57277092e-01  1.28258183e-01
  -5.48568546e-01]
 [-7.89485036e-01 -2.35076193e-01 -1.93303972e-01 -3.40621184e-01
  -8.85231326e-01]
 [-1.37351778e+00 -9.08097047e-01 -7.76913434e-01 -8.78539587e-01
  -1.34956990e+00]]


In [5]:
print(mc_solution(strategy, exp_cnt=10000))

[[ 2.85357028  9.32852835  4.0004718   5.10245232  0.94855464]
 [ 0.77533485  2.58388212  1.63078069  1.43364655  0.05412706]
 [-0.33218977  0.42994241  0.32803727  0.15303313 -0.51903862]
 [-0.79856469 -0.2924005  -0.21003864 -0.33830301 -0.85233398]
 [-1.36156277 -0.89249412 -0.77310798 -0.8959561  -1.35860484]]


Решение методом Монте-Карло значительно расходится с реальным. Кажется, это можно списать на стохастическую природу метода - можно заметить, как в зависимости от количества бросков меняется финальный результат.

### Решение СЛАУ

Мы знаем следующее: $\nu_{\pi}(s) = \sum_{a}{\pi(a|s)}\sum_{s'}\sum_{r}p(s',r|s,a)[r + \gamma\nu_{\pi}(s')]$

Наша стратегия - равновероятная, поэтому $\pi(a|s) = 1/4$ для обычных клеток (всего четыре различных действия), $\pi(a|s) = 1$ для клеток A и B (в них мы можем сделать только одно конкретное действие).

Также нам известно, что при любом действии у нас возможно только одно вознаграждение и переход в одно конкретное состояние.

Таким образом, изначальная формула преобразуется в 

$\nu_{\pi}(s) = \begin{cases} \sum_{a}\frac{1}{4}(r_{a} + \gamma\nu_{\pi}(s'_{a})), & s \notin \{A,B\} \\ r + \gamma\nu_{\pi}(s'), & s \in \{A,B\} \end{cases}$

Подставив в формулу каждое состояние $s$, получим СЛАУ, решив которую, мы получим искомые стоимости.

Формула выше в матричном виде будет иметь вид $Ax + b = x$, 

где $b = (\sum_{a_{s_{1}}}\frac{1}{4}r_{a_{s_{1}}} \dots \sum_{a_{s_{n}}}\frac{1}{4}r_{a_{s_{n}}})^{T}$ - вектор свободных членов, которые являются матожиданием награды в соответствующих состояниях,

$a_{ij} = \begin{cases} \sum{\frac{\gamma}{4}}, & \mbox{если из состояния } s_{i} \mbox{ можно перейти в состояние } s_{j} \mbox{ и } s_{i} \notin \{A,B\} \mbox{. Сумма считается по всем действиям, в результате которых из состояния } s_{i} \mbox{ достигается состояние } s_{j}, \\ \gamma, & \mbox{если из состояния } s_{i} \mbox{ можно перейти в состояние } s_{j} \mbox{ и } s_{i} \in \{A,B\}, \\ 0, & \mbox{иначе.} \end{cases}$,

$x$ - вектор $\nu_{\pi}(s)$.

Преобразовав это уравнение, получим $(A-E)x = -b$, 

оно же $(E - A)x = b$.

Для решения, как и раньше, заведём две отдельные функции. На этот раз одна функция определяет стратегию, строит матрицу и решает СЛАУ, а вторая по заданным координатам генерирует все возможные действия с наградами.

In [6]:
from typing import Callable, Generator, Tuple

import numpy as np

def system_solution(
        action_generator: Callable[[int, int], Generator[Tuple[int, int, float], None, None]],
        n: int=5,
        m: int=5,
        gamma: float=0.9
    ):
    n,m = 5,5
    a = np.eye(n*m)
    b = np.zeros(n*m)
    
    for i in range(n):
        for j in range(m):
            current_state = i*m + j
            states_to_update = dict()
            
            for state_info in action_generator(i+1, j+1):
                next_state = (state_info[0]-1)*m + (state_info[1]-1)
                reward = state_info[2]
                
                if next_state in states_to_update:
                    states_to_update[next_state] += 1
                else:
                    states_to_update[next_state] = 1
                b[current_state] += reward
                
            states_cnt = sum(states_to_update[state] for state in states_to_update)
            for state in states_to_update:
                for _ in range(states_to_update[state]):
                    a[current_state, state] -= gamma / states_cnt
    
    result = np.linalg.solve(a, b)
    result.resize((n,m))
    
    return result

In [7]:
def action_generator(i: int, j: int):
    possible_states = [
        (i+1, j),
        (i-1, j),
        (i, j+1),
        (i, j-1)
    ]
    
    if i == 1 and j == 2:
        yield 5, 2, 10.
    elif i == 1 and j == 4:
        yield 3, 4, 5.
    else:
        for state in possible_states:
            reward = 0.
            
            if state[0] < 1 or state[0] > 5 or \
               state[1] < 1 or state[1] > 5:
                state = (i,j)
                reward = -1. / 4
                
            yield *state, reward
        

In [8]:
print(system_solution(action_generator))

[[ 3.30899634  8.78929186  4.42761918  5.32236759  1.49217876]
 [ 1.52158807  2.99231786  2.25013995  1.9075717   0.54740271]
 [ 0.05082249  0.73817059  0.67311326  0.35818621 -0.40314114]
 [-0.9735923  -0.43549543 -0.35488227 -0.58560509 -1.18307508]
 [-1.85770055 -1.34523126 -1.22926726 -1.42291815 -1.97517905]]


Решение методом решения СЛАУ прекрасно сошлось с ожидаемым!