In [20]:
import numpy as np

gamma = 0.8 # Коэффициент дисконтирования

# Стратегия
Pi1 = np.array([[0.6, 0.4]])
Pi2 = np.array([[1.0]])
Pi3 = np.array([[0.6, 0.4]])
Pi4 = np.array([[1.0]])
Pi = [Pi1, Pi2, Pi3, Pi4]

# Вероятности перехода в новые состояния
P1 = np.array([[0, 0.1, 0.1, 0.8], [0, 0, 1.0, 0]])
P2 = np.array([[1.0, 0, 0, 0]])
P3 = np.array([[1.0, 0, 0, 0], [0, 0, 0.2, 0.8]])
P4 = np.array([[0.6, 0.4, 0, 0]])
P = [P1, P2, P3, P4]

# Награды
R1 = np.array([[0, 2.0, 3.0, -1.0], [0, 0, 4.0, 0]])
R2 = np.array([[3.0, 0, 0, 0]])
R3 = np.array([[-3.0, 0, 0, 0], [0, 0, 1.0, 6.0]])
R4 = np.array([[5.0, -3.0, 0, 0]])
R = [R1, R2, R3, R4]

In [18]:
def bellman_eq(Pi: np.ndarray, P: np.ndarray, R: np.ndarray, gamma: float, v: np.ndarray) -> float:
    """
    Формула Беллмана для расчета ценности состояния
    :param Pi: Политика в заданном состоянии
    :param P: Вероятности перехода в новые состояния
    :param R: Награды
    :param gamma: Коэффициент дисконтирования
    :param v: Ценности новых состояний
    :return: новая ценность заданного состояния
    """
    y = np.array([gamma for i in range(Pi.shape[1])]).reshape(1,-1).transpose() # Создание диагональной матрицы с коэффициентами
    return np.sum(Pi.dot(P*(R + y.dot(v)))) 

In [23]:
v = np.zeros((1,4)) # Ценности состояний
k = 0 # Номер итерации
max_diff =0 # Максимальная разница с предыдущим состоянием

while True:
    delta = 0.0
    for i in range(4): # Проход по всем 4 состояниям
        v_cur = v[0][i]
        v[0][i] = bellman_eq(Pi[i], P[i], R[i], gamma, v)
        delta = np.max([delta, np.absolute(v_cur - v[0][i])]) # Расчет максимальной разницы на текущей итерации
    k += 1
    if k == 1:
        max_diff = delta
    if delta >= gamma**k/(1-gamma)*max_diff: # Формула выведена из интервала, указанного в лекции
        break

print(v)
for i, s in enumerate(v[0]):
    print(f's{i+1}: {s:0.3f}')

[[7.16100136 8.72880108 6.08235885 8.030497  ]]
s1: 7.161
s2: 8.729
s3: 6.082
s4: 8.030
