## Задание №13

В далёком киберпространстве, в мире, где данные циркулируют среди огней серверных стоек, вы — знаменитый хакер, известный как "Квантовый Оверрайд". Ваш новый заказчик — таинственная организация, которая стремится минимизировать влияние конкурента в сетевом пространстве. Они предоставили вам доступ к особой системе Марковского процесса принятия решений (МППР), управляемой функцией полезности $Q$. Эта функция оценивает каждую возможную пару "состояние-действие", и ваша миссия — подобрать такие значения в этой функции для определенных пар, чтобы жадная стратегия системы привела к наименьшему суммарному дисконтированному вознаграждению. Это необходимо сделать с осторожностью, чтобы не вызвать подозрений, поэтому для одного МППР можно изменить полезность лишь одной пары "состояние-действие". Вашим нанимателям удалось выяснить коэффициент дисконтирования, используемый в системе $\gamma=0.9$.

**Формат ввода**

В файле `mdps.json` находится список МППР. В файле `q_tables.json` представлены таблицы полезности $Q$ для каждого МППР. В файле `submit.json` даны примеры решений. В файле `example.py` находится пример чтения входных данных и генерации ответа.

**Формат вывода**

Измените файл `submit.json`, выбрав состояния действия, а также новую полезность $Q$ для каждого МППР.

In [9]:
import json
import pandas as pd
import numpy as np

with open('mdps.json') as f1:
    mdps = json.load(f1)

with open('q_tables.json') as f2:
    q_tables = json.load(f2)
    
print("Mdps: ", mdps[:2])
print("Q_tables: ", q_tables[:2])

Mdps:  [{'0': {'0': [{'probability': 1.0, 'next_state': '1', 'reward': 0.33}], '1': [{'probability': 1.0, 'next_state': '1', 'reward': -0.64}]}, '1': {'0': [{'probability': 1.0, 'next_state': '0', 'reward': 0.1}], '1': [{'probability': 1.0, 'next_state': '0', 'reward': -0.25}]}}, {'0': {'0': [{'probability': 1.0, 'next_state': '1', 'reward': -0.02}], '1': [{'probability': 1.0, 'next_state': '1', 'reward': 0.37}]}, '1': {'0': [{'probability': 1.0, 'next_state': '0', 'reward': -0.7}], '1': [{'probability': 1.0, 'next_state': '0', 'reward': 0.78}]}}]
Q_tables:  [{'0': {'0': 2.2063543094206666, '1': 1.2363543094206664}, '1': {'0': 2.0857188784786, '1': 1.7357188784786}}, {'0': {'0': 5.248027004989674, '1': 5.638027004989674}, '1': {'0': 4.374224304490706, '1': 5.854224304490707}}]


In [10]:
# Коэффициент дисконтирования
gamma = 0.9

# Список для новых значений
new_values = []

# Цикл по каждому МППР
for i in range(len(mdps)):
    mdp = mdps[i]
    q_table = q_tables[i]
    
    # Минимальное значение суммарного дисконтированного вознаграждения
    min_reward = float('inf')
    min_state = None
    min_action = None

    # Проход по каждому состоянию и действию
    for state, actions in mdp.items():
        for action, outcomes in actions.items():
            
            # Суммарное дисконтированное вознаграждение для текущего действия
            total_reward = sum(outcome['probability'] * (outcome['reward'] + gamma * q_table[outcome['next_state']][action]) for outcome in outcomes)

            # Если это действие имеет наименьшее вознаграждение, обновим минимальное значение и запомним состояние и действие
            if total_reward < min_reward:
                min_reward = total_reward
                min_state = state
                min_action = action

    new_values.append({
        'state': min_state,
        'action': min_action,
        'value': -1
    })

with open('submit.json', 'w') as f:
    json.dump(new_values, f)

Файл submit.json успешно обновлен.
