Skip to content

EduNetArchive/Dubrovina_Strategy_analysis

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

35 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Анализ соответствия стратегий социально-экономического развития регионов методическим рекомендациям Минэкономразвития России при помощи глубоких нейронных сетей

Введение. Стратегия социально-экономического развития региона является ключевым документом, определяющим целеполагание на долгосрочный период. Грамотно разработанная стратегия обеспечивает эффективное распределение ограниченных ресурсов и сфокусированное решение проблем, способствует реализации инвестиционных проектов, снижает дифференциацию уровня жизни населения, направляет инфраструктурное развитие.

Новый виток разработки стратегий начался в связи с принятием Федерального закона от 28.06.2014 № 172-ФЗ «О стратегическом планировании в Российской Федерации» (далее – Закон № 172-ФЗ). На основе верхнеуровневых правил, содержащихся в Законе, регионы стали разрабатывать собственные стратегии.

Однако через 3 года вышел Приказ Минэкономразвития России от 23.03.2017 № 132 «Об утверждении Методических рекомендаций по разработке и корректировке стратегии социально-экономического развития субъекта Российской Федерации и плана мероприятий по ее реализации» (далее – Методрекомендации), устанавливающий требования к единообразному содержанию региональных стратегий. При этом стратегии не в полной мере приводились в соответствие с указанными Методрекомендациями. Поэтому отсутствует единый методологический подход к пониманию сущности и базовых элементов региональных стратегий [1].

Цель исследования – разработать программное обеспечение для выявления уровня соответствия региональных стратегий требованиям Методрекомендаций к разделам и Закону № 172-ФЗ на основе использования глубоких нейронных сетей.

Задачи исследования:

  1. Собрать и подготовить датасет из региональных стратегий
  2. Подобрать оптимальную модель для обработки русскоязычных юридических текстов
  3. Выбрать метрики для оценки качества работы моделей
  4. Дообучить выбранную модель на основе собранного датасета
  5. Интерпретировать результат сопоставления стратегий и Методрекомендаций

Данные

Источники данных:

  1. сайты субъектов РФ;
  2. ГАС «Управление»;
  3. СПС «КонсультантПлюс: Регионы» (доступен в библиотеках, торренте);
  4. сайт Минэкономразвития.
  1. Скачать файлы в едином формате, например, docx.
  2. Привести заголовки к одному формату и удалить разрывы строк.
  3. Формирование оглавления внутри файла. Также предлагалось использовать скрипт для этого, но в связи с разными подходами регионов к формированию наименования разделов («Раздел 1», «I», «СЦ-1», «Глава 1» и др.) использование одного форматирования не является корректным.
  4. Перевод наименования файлов на транслит.
  5. Конвертация docx в txt.
  6. Чистка документа от лишних символов и фраз.

Датасет:

  1. Оглавления стратегий в формате csv;
  2. Стратегии социально-экономического развития субъектов РФ в формате docx;
  3. Стратегии социально-экономического развития субъектов РФ в формате txt;

Дополнительные файлы:

  1. "Эталонное" оглавление, составленное на основе Закона № 172-ФЗ и Методрекомендаций.
  2. Промты, составленные с учетом "эталонного" оглавления, в формате: Есть ли в <данном тексте> следующая информация: <>.

Обучение (16) - тест (2) - валидация (2)

Методология

Для достижения целей настоящего исследования решались две задачи:

  1. классификация – сопоставление «эталонного» оглавления, составленного на основе требований Методрекомендаций и Закона № 172-ФЗ, с положениями содержания стратегий;
  2. генерация – формат «вопрос-ответ» о наличии определенных пунктов.

Bert-подобные модели и работа с оглавлением для решения задачи классификации

  1. ruBert-base - 768
  2. ruRoberta-large - 1024
  3. rubert-tiny - 312
  4. rubert-tiny2 - 312

Выбор модели

Рис. 1. Точность моделей с учетом неэталонных пунктов

Точность моделей с учетом неэталонных пунктов

Рис. 2. Точность моделей без учета неэталонных пунктов

Точность моделей без учета неэталонных пунктов

Рис. 3. Выбор граничного значения косинусной меры

Выбор граничного значения косинусной меры

Каждой строке (пункту оглавления) соответствует 18 косинусных мер сравнения с «эталонным» оглавлением (рис. 1). В одних случаях максимальное значение верно указывает на соответствующий «эталонный» раздел, в других – нет. При расчете точности была получена медиана – 16% (рис. 2), что выше случайной, но не намного. Причиной такой низкой точности в том числе является то, что при разметке возник класс -1 в тех случаях, когда похожего пункта в «эталонном» оглавлении не было, т.к. регионы вправе самостоятельно расширять содержание стратегий. Однако после подсчета точности только по значимым пунктам было получено медианное значение – 77% (рис. 3). При этом каждый раз rubert-tiny2 показывал лучший результат. Вследствие этого для базового решения было решено «отсечь» класс -1, т.е. выбрать граничное значение косинусной меры, при котором данная строка будет считаться незначимой.

Выбор граничного значения косинусной меры для «отсечения» класса -1 по распределению значений косинусной меры для класса -1 (префикс min) и остальных классов (префикс max). Выбираем по модели rubert-tiny2 все, что выше минимального значения косинусной меры по значимым классам (нижний край «уса» у самого правого ящика), оставляем для анализа c ошибкой на части комбинаций (часть верхнего «уса«» tiny2_min от его верхней части до уровня низа «уса» tiny2_max).

После попарного сравнения вектор-представлений пунктов оглавлений стратегий с «эталонным» на основе сопоставления максимумов и минимумов косинусной меры была выбрана модель rubert-tiny2.

Согласно Рис. 3 пограничным значением отсечения класса -1, минимум распределения tiny2_max является 0.53 (а максимумом tini2_min – 0.58), ошибка будет на 45 комбинациях из ~20 документов х 18 строк эталона х 30 строк в каждой стратегии, т.е. около 0,5%.

Модели кодировщик-декодировщик и работа с основным текстом

На основе Open LLM Leaderboardыбрана опенсорсная модель TheBloke/OpenBuddy-Llama2-13B-v11.1-GPTQ, которая работает на хорошем уровне с русским языком и показывает наиболее оптимальные результаты, не сильно хуже по многим тестам.

Демонстрация работы Llama 2

Демонстрация работы  Llama 2

Также дообучили предобученную опенсурсную модель с открытым исходным кодом TheBloke/OpenBuddy-Llama2-13B-v11.1-GPTQ на наборе данных из оглавлений при помощи QLora. QLoRA, один из новейших методов, который уменьшает использование памяти при тонкой настройке LLM без компромиссов в производительности, используя класс LoraConfig из библиотеки peft.

Результаты по пунктам оглавления

Результаты по пунктам оглавления

Результаты по регионам

Результаты по регионам

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%