В рамках работы Методы автоматического реферирования научных статей на русском языке
Основная программа написана с использованием языка Python3.
Необходимые библиотеки:
- transformers
- sentencepiece
- datasets
- evaluate
- rouge
- bert_score
- nltk
Архив с сохраненными дообученными моделями можно скачать с диска по ссылке ниже. Из-за размера файлов их невозможно выложить в систему GitHub.
archive: https://drive.google.com/drive/folders/1YWwnGua7Eh1LKGEVwwq8Hsep8R6f6zET?usp=sharing
Программное средство содержится в файле pipeline.py
Собранные датасеты находятся в директории /dataset
Обработка текстовой коллекции: https://disk.yandex.ru/d/UW1_0JASBxJUbw
Процесс перевода arxiv: https://disk.yandex.ru/d/c_gE8O4fpPj1_w
Директория /experiments содержит ipynb ноутбуки с проведенными экспериментами и рассчетами, проведенными в рамках работы.
В директории /texts содержатся тексты, для которых проводилась экспертная оценка.