该项目主要包含两个部分:
- 基于 VSM 的 IR 检索模块
- Ranklists 五种筛选方式,以及评价指标的计算
这部分可以先忽略,我提一下遇到的问题。 输入:代码、需求文本 输出:相似度矩阵 (db 文件)
注意:
- 输入已经 TraceLab 预处理(去停用词、词根还原等),该项目还未实现预处理模块。
- 项目中 VSM 模型检索效果,和 TraceLab 中的 VSM 构件一致。
- 抽取类名、函数名、参数名作为代码文本,暂时没有实现抽取函数的注释
- 检索结果 Recall 达不到100%, 可能原因是缺少注释,或其它。
- Oracle 中方法缺少参数信息,因此存在同名方法。
- Oracle 中方法在源码中缺失,可能有两种原因。1. 版本不一致;2. 抽取方法时,只处理单一文件,丢失了父类的方法 (暂未处理)
- 暂时取 Oracle 和 源码的交集作为 Oracle_Lite
主要是先让师兄看一下我有没有理解错。在此版本基础上,可以详细提一下,需要什么接口,我来实现,以及反馈Bug。
详见 Demo 。