Skip to content

liupenny/Inverted-index

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 

Repository files navigation

基于倒排索引的关键词搜索

任务概述

l 倒排索引也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构。通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。

基本目标

l 编程实现对一组文档建立关键词倒排索引,以加快对文档中关键词检索

编程语言

l C/C++,Java,Python

数据源

l 数据来自路透社,包含2016年至2013年共106,519 个新闻文档。

数据下载地址:http://pan.baidu.com/s/1sl8Tz3Z

操作步骤: 1、运行initData.py来生成倒排文件inverted_file,当前已生成。 2、运行queryDict.py来生成数据字典,进行关键词查询操作。

注:queryDict.py文件中的commands即为需要输入的关键词。

About

Setting up a keyword inverted index for a set of documents to speed up keyword search in the document

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages