任务概述
l 倒排索引也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
基本目标
l 编程实现对一组文档建立关键词倒排索引,以加快对文档中关键词检索
编程语言
l C/C++,Java,Python
数据源
l 数据来自路透社,包含2016年至2013年共106,519 个新闻文档。
数据下载地址:http://pan.baidu.com/s/1sl8Tz3Z
操作步骤: 1、运行initData.py来生成倒排文件inverted_file,当前已生成。 2、运行queryDict.py来生成数据字典,进行关键词查询操作。
注:queryDict.py文件中的commands即为需要输入的关键词。