Skip to content

Pstva/nlp-project

Repository files navigation

nlp-project

Структура репозитория

Данные

Код для парсинга данных.

Команда для запуска скрипта

Данные со стихами за 2020-2021 гг лежат в папке data.

Спарсены все стихи за указанные года из 4 категорий:

  • Гражданская лирика (14 тема)
  • Любовная лирика (01 тема)
  • Пейзажная лирика (02 тема)
  • Религиозная лирика (19 тема)

Контроль рифмы

Код для подсчета словарей рифма и подбора рифмы

Команда для запуска скритпа

Марковские модели

Код для обучения марковских моделей

Код для генерации стихов марковскими моделями

Команды для обучения

Команды для генерации

LSTM

Код для подготовки данных для lstm

Код для обучения lstm

Код для обучения lstm с предобученными эмбеддингами

Команды для обучения

Код для генерации стихотворений с помощью lstm

Оценка генерации

Оценка генерации предобученной моделью ruGPT2

Подсчет статистик для оценок

Примеры генерации

Сгенерированные стихи

Сгенерированные стихи с оценкой gpt

Модели

Все модели доступны по ссылке

Описание данных:

  • Ссылка на стих
  • Имя автора
  • Ссылка на автора
  • Название стиха
  • Текст стиха

Всего произведений в изначальных данных:

  • poems_2020_civil.csv - 13532
  • poems_2021_civil.csv - 14633
  • poems_2020_love.csv - 13876
  • poems_2021_love.csv - 14756
  • poems_2020_nature.csv - 12161
  • poems_2021_nature.csv - 12443
  • poems_2020_religion.csv - 12225
  • poems_2021_religion.csv - 13112

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published