Skip to content
/ hotword Public

大三上学期用go语言beego框架写的一个小型爬虫和数据展示的小项目,主要统计信息领域的热词

License

Notifications You must be signed in to change notification settings

cy486/hotword

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

hotword

简介

基于beego框架

功能设计:

  1. 数据采集:要求从定期自动从网络中爬取信息领域的相关热词;
  2. 数据清洗:对热词信息进行数据清洗,并采用自动分类技术生成信息领域热词目录;
  3. 热词解释:针对每个热词名词自动添加中文解释(参照百度百科或维基百科);
  4. 热词引用:并对近期引用热词的文章或新闻进行标记,生成超链接目录,用户可以点击访问;
  5. 数据可视化展示: 用字符云或热词图进行可视化展示; 用关系图标识热词之间的紧密程度。
  6. 数据报告:可将所有热词目录和名词解释生成 WORD 版报告。

运用的技术

(1)自动分词技术

以词典为基础,规则与统计相结合的分词技术,有效解决切分歧义。综合运用基于概率统计的语言模型方法,分词准确性达到 99%。

(2)自动关键词和自动摘要技术

对采集到的网络信息,自动摘取相关关键字,并生成摘要,并与快速浏览与检索。

(3)全文检索技术

全文检索将传统的全文检索技术与最新的 WEB 搜索技术相结合,大大提升检索引擎的性能指标。还融合多种技术,提供丰富的检索手段以及同义词等智能检索方式。

(4)自动分类技术

基于内容对经过双重过滤处理后的重要舆情自动分类,无需人工干预,准确率达到 95%以上。先设置分类关键词,每一个关键词都设置一个相应的优先级分值。对收集到的文章内容进行分析,分别对标题和内容进行匹配,统计匹配的次数,然后根据设定好的关键字匹配模型对每个关键字进行分值计算。分值超过一定分值的都将自动处理所对应的处理,匹配分值最高的关键字就自动分类。

(5)自动聚类技术

基于相似性算法的自动聚类技术,自动对海量的无规则文档进行归类,把内容相近的文档归为一类,并自动为其生成主题词,为确定类目名称提供方便。

(6)相似性排重技术

采用“文章相似性技术”根据文档内容的匹配程度确定是否重复,比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键比较计算,得出文章相似度,相似度高于 0.75 以上的文章系统默认处理为“已处理”,无需再进行任何操作,相似度位于 0.5-0.75 之间的相似转载文章需要用户在页面进行再次确认,确保文章无漏处理。

成果展示

image.png image.png image.png

About

大三上学期用go语言beego框架写的一个小型爬虫和数据展示的小项目,主要统计信息领域的热词

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published