In [19]:
import numpy as np

# Заданные параметры
gamma_values = [0, 0.2, 0.5, 0.9]

# Вероятности и вознаграждения
p = {
    '1->2': 1,
    '1->3': 1,
    '2->1': 1,
    '3->1': 1
}

r = {
    '1->2': 1,
    '1->3': 0,
    '2->1': 0,
    '3->1': 2
}

# Итерационный метод для функции ценности состояния
def value_iteration(gamma):
    V = {1: 0, 2: 0, 3: 0}  # Инициализация начальных значений

    while True:
        V_new = V.copy()
        for state in [1, 2, 3]:
            if (state == 2):
                V_new[state] = p[f'{state}->1'] * (r[f'{state}->1'] + gamma * V[1])
            elif (state == 3):
                V_new[state] = p[f'{state}->1'] * (r[f'{state}->1'] + gamma * V[1])
            # Вычисление функции ценности состояния
            else:
                V_new[state] = max(p[f'{state}->2'] * (r[f'{state}->2'] + gamma * V[2]),
                p[f'{state}->3'] * (r[f'{state}->3'] + gamma * V[3]))

        # Проверка на сходимость
        if np.allclose(list(V.values()), list(V_new.values()), atol=1e-6):
            break

        V = V_new

    return V

# Итерационный метод для функции ценности действия
def action_value_iteration(gamma):
    Q = {(1, 2): 0, (1, 3): 0, (2, 1): 0, (3, 1): 0}  # Инициализация начальных значений

    while True:
        Q_new = Q.copy()
        for state in [1, 2, 3]:
            if state == 2:
                Q_new[(state, 1)] = p[f'{state}->1'] * (r[f'{state}->1'] + gamma * max(Q[(1, a)] for a in [2,3]))
            elif state == 3:
                Q_new[(state, 1)] = p[f'{state}->1'] * (r[f'{state}->1'] + gamma * max(Q[(1, a)] for a in [2,3]))
            # Вычисление функции ценности действия
            else:
                for action in [2, 3]:
                    Q_new[(state, action)] = p[f'{state}->{action}'] * (r[f'{state}->{action}'] + gamma * max(Q[(action, a)] for a in [1]))

        # Проверка на сходимость
        if np.allclose(list(Q.values()), list(Q_new.values()), atol=1e-6):
            break

        Q = Q_new

    return Q

# Расчёт значений для каждого значения gamma
for gamma in gamma_values:
    print(f'\nGamma = {gamma}')
    
    # Функция ценности состояния
    V_result = value_iteration(gamma)
    print(f'Optimal State Values (V*) for gamma={gamma}: {V_result}')

    # Функция ценности действия
    Q_result = action_value_iteration(gamma)
    print(f'Optimal Action Values (Q*) for gamma={gamma}: {Q_result}')


Gamma = 0
Optimal State Values (V*) for gamma=0: {1: 1, 2: 0, 3: 2}
Optimal Action Values (Q*) for gamma=0: {(1, 2): 1, (1, 3): 0, (2, 1): 0, (3, 1): 2}

Gamma = 0.2
Optimal State Values (V*) for gamma=0.2: {1: 1.041664, 2: 0.20833279999999998, 3: 2.2083328}
Optimal Action Values (Q*) for gamma=0.2: {(1, 2): 1.041664, (1, 3): 0.44166400000000006, (2, 1): 0.20833279999999998, (3, 1): 2.2083328}

Gamma = 0.5
Optimal State Values (V*) for gamma=0.5: {1: 1.3333282470703125, 2: 0.666656494140625, 3: 2.666656494140625}
Optimal Action Values (Q*) for gamma=0.5: {(1, 2): 1.3333282470703125, (1, 3): 1.3333282470703125, (2, 1): 0.666656494140625, (3, 1): 2.666656494140625}

Gamma = 0.9
Optimal State Values (V*) for gamma=0.9: {1: 9.472793247391278, 2: 8.525430326111087, 3: 10.525430326111087}
Optimal Action Values (Q*) for gamma=0.9: {(1, 2): 8.67288729349998, (1, 3): 9.472887293499978, (2, 1): 8.52551392265215, (3, 1): 10.52551392265215}
