Arise组件可以全自动抽取目前主流搜索引擎(百度、谷歌、Bing、Yahoo、Sogou、haosou、Sina、s.weibo、Youdao、Goso、盘古等)结果页面数据记录的三个元信息(标题、URL、摘要)。
Arise由C++编写,由Cmake构建工程,支持Linux和windows平台。
algorithm reference : my blog
$ mkdir build
$ cd build
$ cmake ..
$ make
使用 --help 打印用法
可执行程序包含四个参数:
第一个参数为运行程序exe
第二个参数为待抽取搜索结果页面文件存储路径
第三个参数为是否修补网页标签的bool值,0不修补,1修补,其他整数对应不修补
第四个参数为抽取结果文件的存储路径
同样可以生成lib供调用
precision/recall more than 95%.
time consuming 10ms/page.