KBQA

Датасет для вопросно-ответного поиска на основе базы знаний.

Базы знаний (БЗ) содержат факты о мире в структурированном виде данных, представленных в формате графа, их очень естественно использовать для ответов на вопросы. Основная сложность в разборе вопроса к виду, пригодному для выполнения запроса к БЗ. Для обучения соответствующих методов и оценки их качества необходимы датасеты, но на данный момент для русского языка нет ни одного.

Данный проект представляет из себя набор скриптов для ответов на вопросы на естественном языке.

Этапы поиска ответа по базе знаний

Выделение сущностей (Entity Detection)
Сопоставление сущности в БЗ (Entity Linking)
Выделение и сопоставление отношения
Выполнение запроса к БЗ

Выделение и сопоставление сущностей

С помощью SPARQL соберем информацию о сущности (различные названия) и отфильтруем лишнее.
С помощью морфологического анализатора (MyStem) приведем все слова к нормальной форме.
Разобьем информацию на n-граммы и построим индекс (ElasticSearch).
Каждый вопрос обработаем MyStem, отфильтруем лишние слова и сделаем запрос к построенному индексу.
Отсортируем результат по лучшему совпадению.

Выделение и сопоставление отношений

Выделим сущность для ответа, сущность для вопроса и найдем путь в графе базы знаний между сущностями.
Запрос к индексу ElasticSearch по ответу и по вопросу.
Определение топ 10 сущностей для каждого.
SPARQL запрос для определения цепочки отношений каждой сущности с каждой.
Выбор наиболее подходящего варианта с помощью краудсорсинга.

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
question retrieval		question retrieval
.gitignore		.gitignore
README.md		README.md
Simple.ipynb		Simple.ipynb
dataset.csv		dataset.csv
elastic.py		elastic.py
elastic_test.py		elastic_test.py
labels.py		labels.py
labels_new.py		labels_new.py
lsh.py		lsh.py
names.tsv		names.tsv
names_result.txt		names_result.txt
names_test.py		names_test.py
questions_mapping.py		questions_mapping.py
relations.txt		relations.txt
stats.py		stats.py
test.py		test.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

KBQA

Датасет для вопросно-ответного поиска на основе базы знаний.

Этапы поиска ответа по базе знаний

Выделение и сопоставление сущностей

Выделение и сопоставление отношений

About

Releases

Packages

Contributors 2

Languages

Fatalll/KBQA

Folders and files

Latest commit

History

Repository files navigation

KBQA

Датасет для вопросно-ответного поиска на основе базы знаний.

Этапы поиска ответа по базе знаний

Выделение и сопоставление сущностей

Выделение и сопоставление отношений

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages