Репозиторий с файлами проекта "Фрейм-парсер".

Скрипты:

parse_framebank.py - обрабатывает Фреймбанк (совмещает примеры и разметку ролей) и переводит его в табличную форму. Этот скрипт использует файлы exampleindex.csv и framebank_anno_ex_items_fixed.txt.
create_features.py - превращает данные фреймбанка в таблички с фичами для классификаторов. Можно генерировать таблички для распознавания предикатов и их аргументов, а также для классификации уже распознанных аргументов по ролям. Фичи такие: * морфология (часть речи, грамматические признаки текущего и предыдущего слова) * лексическая информация (лемма слова, лемма предыдущего слова) * синтаксическая информация (длина пути от корня до текущего слова, синтО между текущим словом и его родителем, лемма предиката). Синтаксическая информация берётся из модели, обученной на UD for Russian
classify.py - классифицирует данные при помощи SGDClassifier.
parser.py - полный пайплайн, от текста, введенного пользователем, к ролям. Использует натренированные модели, которые создаются скриптом classify.py (frame_parser.pkl и feature_transformer.pkl)

Результаты распознавания предикатов и аргументов:

Результаты по ролям:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly