基本要求:自己动手设计实现一个信息检索系统,中、英文皆可,数据源可以自选,数据通过开源的网络爬虫获取,规模不低于100篇文档,进行本地存储。中文可以分词(可用开源代码),也可以不分词,直接使用字作为基本单元。英文可以直接通过空格分隔。构建基本的倒排索引文件。实现基本的向量空间检索模型的匹配算法。用户查询输入可以是自然语言字串,查询结果输出按相关度从大到小排序,列出相关度、题目、主要匹配内容、URL、日期等信息。最好能对检索结果的准确率进行人工评价。界面不做强制要求,可以是命令行,也可以是可操作的界面。提交作业报告和源代码。
扩展要求:鼓励有兴趣和有能力的同学积极尝试多媒体信息检索以及优化各模块算法,也可关注各类相关竞赛。自主开展相关文献调研与分析,完成算法评估、优化、论证创新点的过程。
评分标准如下(按照100分计算):
- 完成基本的信息检索功能且有对环境和社会可持续发展影响的考虑,系统能够正常运行,并提交源代码和实验报告:60分;
- 完成要求的信息检索功能且有对环境和社会可持续发展影响的考虑,系统能够正常运行,并按时提交源代码和实验报告:61~70分;
- 在2的基础上,且实验报告撰写认真、思路清晰、表达准确:71~80分;
- 在3的基础上,支持检索结果准确率人工评价:81~90分;
- 在4的基础上,融入了自己的创新性思考、优化算法或对多媒体信息检索进行了尝试:91-100分。
本系统采用倒排索引的方式为1000篇源数据建立了索引(使用TF-IDF算法筛选关键词),并实现了基本的向量空间检索模型的匹配算法。在此基础之上,系统同时支持用户主观评价检索结果和多媒体检索方式,并设计了一个简约美观的可操作页面。该系统的主要使用场景截图如下:
更多信息详见docs/report.md
