Анализ соответствия стратегий социально-экономического развития регионов методическим рекомендациям Минэкономразвития России при помощи глубоких нейронных сетей
Введение. Стратегия социально-экономического развития региона является ключевым документом, определяющим целеполагание на долгосрочный период. Грамотно разработанная стратегия обеспечивает эффективное распределение ограниченных ресурсов и сфокусированное решение проблем, способствует реализации инвестиционных проектов, снижает дифференциацию уровня жизни населения, направляет инфраструктурное развитие.
Новый виток разработки стратегий начался в связи с принятием Федерального закона от 28.06.2014 № 172-ФЗ «О стратегическом планировании в Российской Федерации» (далее – Закон № 172-ФЗ). На основе верхнеуровневых правил, содержащихся в Законе, регионы стали разрабатывать собственные стратегии.
Однако через 3 года вышел Приказ Минэкономразвития России от 23.03.2017 № 132 «Об утверждении Методических рекомендаций по разработке и корректировке стратегии социально-экономического развития субъекта Российской Федерации и плана мероприятий по ее реализации» (далее – Методрекомендации), устанавливающий требования к единообразному содержанию региональных стратегий. При этом стратегии не в полной мере приводились в соответствие с указанными Методрекомендациями. Поэтому отсутствует единый методологический подход к пониманию сущности и базовых элементов региональных стратегий [1].
Цель исследования – разработать программное обеспечение для выявления уровня соответствия региональных стратегий требованиям Методрекомендаций к разделам и Закону № 172-ФЗ на основе использования глубоких нейронных сетей.
Задачи исследования:
- Собрать и подготовить датасет из региональных стратегий
- Подобрать оптимальную модель для обработки русскоязычных юридических текстов
- Выбрать метрики для оценки качества работы моделей
- Дообучить выбранную модель на основе собранного датасета
- Интерпретировать результат сопоставления стратегий и Методрекомендаций
- сайты субъектов РФ;
- ГАС «Управление»;
- СПС «КонсультантПлюс: Регионы» (доступен в библиотеках, торренте);
- сайт Минэкономразвития.
- Скачать файлы в едином формате, например, docx.
- Привести заголовки к одному формату и удалить разрывы строк.
- Формирование оглавления внутри файла. Также предлагалось использовать скрипт для этого, но в связи с разными подходами регионов к формированию наименования разделов («Раздел 1», «I», «СЦ-1», «Глава 1» и др.) использование одного форматирования не является корректным.
- Перевод наименования файлов на транслит.
- Конвертация docx в txt.
- Чистка документа от лишних символов и фраз.
- Оглавления стратегий в формате csv;
- Стратегии социально-экономического развития субъектов РФ в формате docx;
- Стратегии социально-экономического развития субъектов РФ в формате txt;
- "Эталонное" оглавление, составленное на основе Закона № 172-ФЗ и Методрекомендаций.
- Промты, составленные с учетом "эталонного" оглавления, в формате: Есть ли в <данном тексте> следующая информация: <>.
Обучение (16) - тест (2) - валидация (2)
Для достижения целей настоящего исследования решались две задачи:
- классификация – сопоставление «эталонного» оглавления, составленного на основе требований Методрекомендаций и Закона № 172-ФЗ, с положениями содержания стратегий;
- генерация – формат «вопрос-ответ» о наличии определенных пунктов.
- ruBert-base - 768
- ruRoberta-large - 1024
- rubert-tiny - 312
- rubert-tiny2 - 312
Метрика - косинусовая мера
Рис. 1. Точность моделей с учетом неэталонных пунктов
Рис. 2. Точность моделей без учета неэталонных пунктов
Рис. 3. Выбор граничного значения косинусной меры
Каждой строке (пункту оглавления) соответствует 18 косинусных мер сравнения с «эталонным» оглавлением (рис. 1). В одних случаях максимальное значение верно указывает на соответствующий «эталонный» раздел, в других – нет. При расчете точности была получена медиана – 16% (рис. 2), что выше случайной, но не намного. Причиной такой низкой точности в том числе является то, что при разметке возник класс -1 в тех случаях, когда похожего пункта в «эталонном» оглавлении не было, т.к. регионы вправе самостоятельно расширять содержание стратегий. Однако после подсчета точности только по значимым пунктам было получено медианное значение – 77% (рис. 3). При этом каждый раз rubert-tiny2 показывал лучший результат. Вследствие этого для базового решения было решено «отсечь» класс -1, т.е. выбрать граничное значение косинусной меры, при котором данная строка будет считаться незначимой.
Выбор граничного значения косинусной меры для «отсечения» класса -1 по распределению значений косинусной меры для класса -1 (префикс min) и остальных классов (префикс max). Выбираем по модели rubert-tiny2 все, что выше минимального значения косинусной меры по значимым классам (нижний край «уса» у самого правого ящика), оставляем для анализа c ошибкой на части комбинаций (часть верхнего «уса«» tiny2_min от его верхней части до уровня низа «уса» tiny2_max).
После попарного сравнения вектор-представлений пунктов оглавлений стратегий с «эталонным» на основе сопоставления максимумов и минимумов косинусной меры была выбрана модель rubert-tiny2.
Согласно Рис. 3 пограничным значением отсечения класса -1, минимум распределения tiny2_max является 0.53 (а максимумом tini2_min – 0.58), ошибка будет на 45 комбинациях из ~20 документов х 18 строк эталона х 30 строк в каждой стратегии, т.е. около 0,5%.
На основе Open LLM Leaderboardыбрана опенсорсная модель TheBloke/OpenBuddy-Llama2-13B-v11.1-GPTQ, которая работает на хорошем уровне с русским языком и показывает наиболее оптимальные результаты, не сильно хуже по многим тестам.
Демонстрация работы Llama 2
Также дообучили предобученную опенсурсную модель с открытым исходным кодом TheBloke/OpenBuddy-Llama2-13B-v11.1-GPTQ на наборе данных из оглавлений при помощи QLora. QLoRA, один из новейших методов, который уменьшает использование памяти при тонкой настройке LLM без компромиссов в производительности, используя класс LoraConfig
из библиотеки peft
.