Данные со стихами за 2020-2021 гг лежат в папке data.
Спарсены все стихи за указанные года из 4 категорий:
- Гражданская лирика (14 тема)
- Любовная лирика (01 тема)
- Пейзажная лирика (02 тема)
- Религиозная лирика (19 тема)
Код для подсчета словарей рифма и подбора рифмы
Код для обучения марковских моделей
Код для генерации стихов марковскими моделями
Код для подготовки данных для lstm
Код для обучения lstm с предобученными эмбеддингами
Код для генерации стихотворений с помощью lstm
Оценка генерации предобученной моделью ruGPT2
Сгенерированные стихи с оценкой gpt
Все модели доступны по ссылке
- Ссылка на стих
- Имя автора
- Ссылка на автора
- Название стиха
- Текст стиха
Всего произведений в изначальных данных:
- poems_2020_civil.csv - 13532
- poems_2021_civil.csv - 14633
- poems_2020_love.csv - 13876
- poems_2021_love.csv - 14756
- poems_2020_nature.csv - 12161
- poems_2021_nature.csv - 12443
- poems_2020_religion.csv - 12225
- poems_2021_religion.csv - 13112