Skip to content
Поэтический корпус русского языка
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
conf
datasets
poetry
.codeclimate.yml
.gitattributes
.gitignore
.travis.yml
Dockerfile
LICENSE
NOTICE
README.md
__init__.py
docker-compose.yml
download.sh
manage.py
requirements.txt
reset_db.sh

README.md

Поэтический корпус русского языка

Build Status Code Climate

Пакет для анализа и синтеза стихов: https://github.com/IlyaGusev/rupo

Статистика корпуса текстов с метаинформацией

  • Символов: 13208090
  • Слов: 2186827
  • Стихотворений: 16694
  • Стихотворений, протегированных темами: 3904
  • Авторов: 195

Установка зависимостей вручную

sudo apt-get install build-essential libssl-dev libffi-dev python-dev libxslt1-dev libxslt1.1 libxml2-dev libxml2 libssl-dev
sudo pip3 install -r requirements.txt

Препроцессинг

# "Пауки", собирающие тексты с сайтов
scrapy runspider poetry/apps/corpus/spiders/klassika.py -o datasets/web/klassika.xml
scrapy runspider poetry/apps/corpus/spiders/strofa.py -o datasets/web/strofa.xml
scrapy runspider poetry/apps/corpus/spiders/themes.py -o datasets/web/themes.xml
scrapy runspider poetry/apps/corpus/spiders/rupoem.py -o datasets/web/rupoem.xml
# Скрипт объединения и дедупликации текстов, генерация xml и json версий корпуса текстов
python3 poetry/apps/corpus/scripts/unite.py

or

# Получить готовую версию корпуса
git lfs pull

Для инициализации базы данных с разметкой по слогам и ударениям

sh reset_db.sh

Запуск через Docker Compose

# Установка Docker и docker-compose
curl -sSL https://get.docker.com/ | sh
curl -L "https://github.com/docker/compose/releases/download/1.10.0/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
# Запуск
docker-compose up

Литература

You can’t perform that action at this time.