Numeric experiments in agent-based two-sided market model
Схема действий:
-
environment -- схема устройства взаимодейтсивя фирм, платформы и потребителей. В ней определены последовательность действий агентов в экономике и критерии остановы (в идеале: критерии проверки того, сошлись ли стратегии всех участников к оптимальным; на практике: число итераций взаимодействия, признанное для "удовлетворительной" сходимости). Сам процесс обучения происходит уже внутри среды, а его архитектура описана в соотв. файлах.
-
firms -- отдельная папка под решение оптимизационной задачи фирмами. Содержит различные спецификации алгоритмов (TN-DDQN, PPO-D, PPO-C, SAC).
-
platform -- отдельная папка под решение оптимизационной задачи платформы. Содержит различные спецификации алгоритмов (None, fixed, PPO-D + LayerNorm()). В случае фиксированной\отсутствия стратегии предполагает роль макро-регулятора, не оптимизирующего свою прибыль (задача вырождается в Johnson et al., 2023).
Все графики будут в папке platforms. Технические таблицы -- в tex_reports. Параметры симуляции и результаты экспериментов -- в соответствующих папках в simulation_results (первые индексы -- индексы алгоритма платформы: 0 = None, 1 = fixed, 2 = PPO-D, а название папки -- алгоритмы фирм).
Ссылка на актуальный текст работы: ссылка на OverLeaf.