Анализ соответствия стратегий социально-экономического развития регионов методическим рекомендациям Минэкономразвития России при помощи глубоких нейронных сетей

Введение. Стратегия социально-экономического развития региона является ключевым документом, определяющим целеполагание на долгосрочный период. Грамотно разработанная стратегия обеспечивает эффективное распределение ограниченных ресурсов и сфокусированное решение проблем, способствует реализации инвестиционных проектов, снижает дифференциацию уровня жизни населения, направляет инфраструктурное развитие.

Новый виток разработки стратегий начался в связи с принятием Федерального закона от 28.06.2014 № 172-ФЗ «О стратегическом планировании в Российской Федерации» (далее – Закон № 172-ФЗ). На основе верхнеуровневых правил, содержащихся в Законе, регионы стали разрабатывать собственные стратегии.

Однако через 3 года вышел Приказ Минэкономразвития России от 23.03.2017 № 132 «Об утверждении Методических рекомендаций по разработке и корректировке стратегии социально-экономического развития субъекта Российской Федерации и плана мероприятий по ее реализации» (далее – Методрекомендации), устанавливающий требования к единообразному содержанию региональных стратегий. При этом стратегии не в полной мере приводились в соответствие с указанными Методрекомендациями. Поэтому отсутствует единый методологический подход к пониманию сущности и базовых элементов региональных стратегий [1].

Цель исследования – разработать программное обеспечение для выявления уровня соответствия региональных стратегий требованиям Методрекомендаций к разделам и Закону № 172-ФЗ на основе использования глубоких нейронных сетей.

Задачи исследования:

Собрать и подготовить датасет из региональных стратегий
Подобрать оптимальную модель для обработки русскоязычных юридических текстов
Выбрать метрики для оценки качества работы моделей
Дообучить выбранную модель на основе собранного датасета
Интерпретировать результат сопоставления стратегий и Методрекомендаций

Данные

Источники данных:

сайты субъектов РФ;
ГАС «Управление»;
СПС «КонсультантПлюс: Регионы» (доступен в библиотеках, торренте);
сайт Минэкономразвития.

Обработка данных:

Скачать файлы в едином формате, например, docx.
Привести заголовки к одному формату и удалить разрывы строк.
Формирование оглавления внутри файла. Также предлагалось использовать скрипт для этого, но в связи с разными подходами регионов к формированию наименования разделов («Раздел 1», «I», «СЦ-1», «Глава 1» и др.) использование одного форматирования не является корректным.
Перевод наименования файлов на транслит.
Конвертация docx в txt.
Чистка документа от лишних символов и фраз.

Датасет:

Дополнительные файлы:

"Эталонное" оглавление, составленное на основе Закона № 172-ФЗ и Методрекомендаций.
Промты, составленные с учетом "эталонного" оглавления, в формате: Есть ли в <данном тексте> следующая информация: <>.

Размеченные данные

Обучение (16) - тест (2) - валидация (2)

Методология

Для достижения целей настоящего исследования решались две задачи:

классификация – сопоставление «эталонного» оглавления, составленного на основе требований Методрекомендаций и Закона № 172-ФЗ, с положениями содержания стратегий;
генерация – формат «вопрос-ответ» о наличии определенных пунктов.

Bert-подобные модели и работа с оглавлением для решения задачи классификации

Модели

ruBert-base - 768
ruRoberta-large - 1024
rubert-tiny - 312
rubert-tiny2 - 312

Метрика - косинусовая мера

Выбор модели

Рис. 1. Точность моделей с учетом неэталонных пунктов

Рис. 2. Точность моделей без учета неэталонных пунктов

Рис. 3. Выбор граничного значения косинусной меры

Каждой строке (пункту оглавления) соответствует 18 косинусных мер сравнения с «эталонным» оглавлением (рис. 1). В одних случаях максимальное значение верно указывает на соответствующий «эталонный» раздел, в других – нет. При расчете точности была получена медиана – 16% (рис. 2), что выше случайной, но не намного. Причиной такой низкой точности в том числе является то, что при разметке возник класс -1 в тех случаях, когда похожего пункта в «эталонном» оглавлении не было, т.к. регионы вправе самостоятельно расширять содержание стратегий. Однако после подсчета точности только по значимым пунктам было получено медианное значение – 77% (рис. 3). При этом каждый раз rubert-tiny2 показывал лучший результат. Вследствие этого для базового решения было решено «отсечь» класс -1, т.е. выбрать граничное значение косинусной меры, при котором данная строка будет считаться незначимой.

Выбор граничного значения косинусной меры для «отсечения» класса -1 по распределению значений косинусной меры для класса -1 (префикс min) и остальных классов (префикс max). Выбираем по модели rubert-tiny2 все, что выше минимального значения косинусной меры по значимым классам (нижний край «уса» у самого правого ящика), оставляем для анализа c ошибкой на части комбинаций (часть верхнего «уса«» tiny2_min от его верхней части до уровня низа «уса» tiny2_max).

После попарного сравнения вектор-представлений пунктов оглавлений стратегий с «эталонным» на основе сопоставления максимумов и минимумов косинусной меры была выбрана модель rubert-tiny2.

Согласно Рис. 3 пограничным значением отсечения класса -1, минимум распределения tiny2_max является 0.53 (а максимумом tini2_min – 0.58), ошибка будет на 45 комбинациях из ~20 документов х 18 строк эталона х 30 строк в каждой стратегии, т.е. около 0,5%.

Модели кодировщик-декодировщик и работа с основным текстом

На основе Open LLM Leaderboardыбрана опенсорсная модель TheBloke/OpenBuddy-Llama2-13B-v11.1-GPTQ, которая работает на хорошем уровне с русским языком и показывает наиболее оптимальные результаты, не сильно хуже по многим тестам.

Демонстрация работы Llama 2

Также дообучили предобученную опенсурсную модель с открытым исходным кодом TheBloke/OpenBuddy-Llama2-13B-v11.1-GPTQ на наборе данных из оглавлений при помощи QLora. QLoRA, один из новейших методов, который уменьшает использование памяти при тонкой настройке LLM без компромиссов в производительности, используя класс LoraConfig из библиотеки peft.

Name		Name	Last commit message	Last commit date
Latest commit History 35 Commits
Analisys		Analisys
Code		Code
Dataset		Dataset
images		images
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Analisys

Analisys

Code

Code

Dataset

Dataset

images

images

LICENSE

LICENSE

README.md

README.md

Repository files navigation

Данные

Источники данных:

Обработка данных:

Датасет:

Дополнительные файлы:

Размеченные данные

Методология

Bert-подобные модели и работа с оглавлением для решения задачи классификации

Модели

Метрика - косинусовая мера

Выбор модели

Модели кодировщик-декодировщик и работа с основным текстом

Результаты

Результаты по пунктам оглавления

Результаты по регионам

About

Releases

Packages

Languages

License

EduNetArchive/Dubrovina_Strategy_analysis

Folders and files

Latest commit

History

Repository files navigation

Данные

Источники данных:

Обработка данных:

Датасет:

Дополнительные файлы:

Методология

Bert-подобные модели и работа с оглавлением для решения задачи классификации

Метрика - косинусовая мера

Выбор модели

Модели кодировщик-декодировщик и работа с основным текстом

Результаты по пунктам оглавления

Результаты по регионам

About

Resources

License

Stars

Watchers

Forks

Languages