В рамках работы Автоматическое реферирование научных текстов для русского языка с помощью моделей T5
Необходимые библиотеки:
- transformers
- sentencepiece
- datasets
- evaluate
- rouge
- bert_score
- nltk
Архив с сохраненными дообученными моделями можно скачать с диска по ссылке ниже. Из-за размера файлов их невозможно выложить в систему GitHub.
archive: https://drive.google.com/drive/folders/1YWwnGua7Eh1LKGEVwwq8Hsep8R6f6zET?usp=share_link
Программное средство содержится в файле pipeline.py
Собранный датасет находится в директории /dataset
Директория /experiments содержит ipynb ноутбуки с проведенными экспериментами и рассчетами, проведенными в рамках работы
Директория /texts содержит примеры текстов, на которых можно тестировать работу программы. Пронумерованные файлы составляют более короткие тексты тезисов к ВКР, более длинный текст находится в файле text.txt