hotword

简介

基于beego框架。

功能设计：

数据采集：要求从定期自动从网络中爬取信息领域的相关热词；
数据清洗：对热词信息进行数据清洗，并采用自动分类技术生成信息领域热词目录；
热词解释：针对每个热词名词自动添加中文解释（参照百度百科或维基百科）；
热词引用：并对近期引用热词的文章或新闻进行标记，生成超链接目录，用户可以点击访问；
数据可视化展示：用字符云或热词图进行可视化展示；用关系图标识热词之间的紧密程度。
数据报告：可将所有热词目录和名词解释生成 WORD 版报告。

运用的技术

（1）自动分词技术

以词典为基础，规则与统计相结合的分词技术，有效解决切分歧义。综合运用基于概率统计的语言模型方法，分词准确性达到 99%。

（2）自动关键词和自动摘要技术

对采集到的网络信息，自动摘取相关关键字，并生成摘要，并与快速浏览与检索。

（3）全文检索技术

全文检索将传统的全文检索技术与最新的 WEB 搜索技术相结合，大大提升检索引擎的性能指标。还融合多种技术，提供丰富的检索手段以及同义词等智能检索方式。

（4）自动分类技术

基于内容对经过双重过滤处理后的重要舆情自动分类，无需人工干预，准确率达到 95%以上。先设置分类关键词，每一个关键词都设置一个相应的优先级分值。对收集到的文章内容进行分析，分别对标题和内容进行匹配，统计匹配的次数，然后根据设定好的关键字匹配模型对每个关键字进行分值计算。分值超过一定分值的都将自动处理所对应的处理，匹配分值最高的关键字就自动分类。

（5）自动聚类技术

基于相似性算法的自动聚类技术，自动对海量的无规则文档进行归类，把内容相近的文档归为一类，并自动为其生成主题词，为确定类目名称提供方便。

（6）相似性排重技术

采用“文章相似性技术”根据文档内容的匹配程度确定是否重复，比利用网页标题和大小等规则判断具有更强的准确性、实用性以及运行效率。采用中文分词技术对文章关键比较计算，得出文章相似度，相似度高于 0.75 以上的文章系统默认处理为“已处理”，无需再进行任何操作，相似度位于 0.5-0.75 之间的相似转载文章需要用户在页面进行再次确认，确保文章无漏处理。

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
conf		conf
controllers		controllers
file		file
models		models
routers		routers
static		static
tests		tests
views		views
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
main.go		main.go

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

conf

conf

controllers

controllers

file

file

models

models

routers

routers

static

static

tests

tests

views

views

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

main.go

main.go

Repository files navigation

hotword

简介

功能设计：

运用的技术

成果展示

About

Releases

Packages

Languages

License

cy486/hotword

Folders and files

Latest commit

History

Repository files navigation

hotword

简介

功能设计：

运用的技术

成果展示

About

Resources

License

Stars

Watchers

Forks

Languages