Skip to content

Latest commit

 

History

History
19 lines (13 loc) · 2.95 KB

README.md

File metadata and controls

19 lines (13 loc) · 2.95 KB

Репозиторий с файлами проекта "Фрейм-парсер".

Скрипты:

  • parse_framebank.py - обрабатывает Фреймбанк (совмещает примеры и разметку ролей) и переводит его в табличную форму. Этот скрипт использует файлы exampleindex.csv и framebank_anno_ex_items_fixed.txt.
  • create_features.py - превращает данные фреймбанка в таблички с фичами для классификаторов. Можно генерировать таблички для распознавания предикатов и их аргументов, а также для классификации уже распознанных аргументов по ролям. Фичи такие: * морфология (часть речи, грамматические признаки текущего и предыдущего слова) * лексическая информация (лемма слова, лемма предыдущего слова) * синтаксическая информация (длина пути от корня до текущего слова, синтО между текущим словом и его родителем, лемма предиката). Синтаксическая информация берётся из модели, обученной на UD for Russian
  • classify.py - классифицирует данные при помощи SGDClassifier.
  • parser.py - полный пайплайн, от текста, введенного пользователем, к ролям. Использует натренированные модели, которые создаются скриптом classify.py (frame_parser.pkl и feature_transformer.pkl)

Результаты распознавания предикатов и аргументов:

alt-text

Результаты по ролям:

alt-text