Skip to content
master
Switch branches/tags
Code

Latest commit

 

Git stats

Files

Permalink
Failed to load latest commit information.
Type
Name
Latest commit message
Commit time
 
 
 
 
 
 
 
 

Башкирский корпус

Тексты для корпуса башкирского языка

Текущий объем коллекции

20934729 токенов в текстах со случайно переставленными предложениями

Правовые вопросы

В этом репозитории хранятся лицензионно чистые тексты. Они либо не охраняются авторским правом (тексты законов), либо срок ограничений, связанных с авторским правом, истек. Такие тексты хранятся в директории public_domain. Метаданные к этим текстам лежат в таблице.

Другая категория текстов хранится в директории shuffled_texts. Это тексты, которые получились случайной перестановкой предложений в исходных произведениях, которые подпадали под ограничения, связанные с авторским правом. Так как целостность таких текстов нарушена, они уже не могут считаться объектами авторского права, но по-прежнему представляют интерес для компьютерно-лингвистической обработки.

Как добавить тексты в корпус

Тексты добавляются с помощью инструмента, который называется pull-request.

Видео про pull-request

Несколько видеороликов, которые объясняют, что это и как это сделать:

Подробное объяснение с картинками

Здесь пошагово объясняется, как сделать pull-request, начиная с регистрации на github

About

Тексты для корпуса башкирского языка

Topics

Resources

License

Releases

No releases published

Packages

No packages published

Languages