О лингвистической онтологии "Тезаурус РуТез"

Тезаурус РуТез представляет собой лингвистический ресурс концептуального типа, то есть представляет собой иерархическую сеть понятий, к которым приписаны текстовые выражения. И в этом смысле РуТез относится к тому же классу, что и тезаурус WordNet. При этом, в отличие от WordNet, который создавался как модель человеческой памяти (раздельное описание частей речи, специальные типы отношений и др.), тезаурус РуТез создавался именно как ресурс для автоматической обработки текстов.

Данный скрипт парсит версию тезауруса русского языка РуТез (далее РуТез-lite) с сайта http://www.labinform.ru/ruthes/index.htm. Версия тезауруса РуТез-lite выложена для бесплатного некоммерческого использования (лицензия типа Attribution-NonCommercial-ShareAlike 3.0 Unported, позволяющая копировать, изменять и некоммерчески использовать данную версию тезауруса). Данный скрипт распространяется по лицензии MIT.

Текущий объем тезауруса РуТез составляет 158 тысяч слов и выражений, уложенных в сеть 55 тысяч понятий, между которыми вручную установлено более 210 тысяч отношений. Особенностью тезауруса является то, что в течение многих лет он тестировался в реальных проектах.

Запуск

Требуется scrapy 0.14, python-sqlite3. Запуск командой:

scrapy crawl rutez

Можно указать директорию для сохранения состояния: -s JOBDIR=crawls/state-1 для возможности продолжения в случае предварительного завершения (Ctrl+C)

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
crawler		crawler
.gitignore		.gitignore
README.md		README.md
rutez.rest.xml.gz		rutez.rest.xml.gz
rutez.sample.xml		rutez.sample.xml
scrapy.cfg		scrapy.cfg

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

О лингвистической онтологии "Тезаурус РуТез"

Запуск

About

Releases

Packages

Languages

ainy/rutez

Folders and files

Latest commit

History

Repository files navigation

О лингвистической онтологии "Тезаурус РуТез"

Запуск

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages