Skip to content

shishi11/AI_study

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 

Repository files navigation

AI_study

AI学习实用记录

1.文本相似的一些试验

1.1 句向量相似性比较

####(1)安装了bert as service,这种可生成句向量的服务,好处是不用预先处理数据,进行分词操作,因为分词本身的准确性对结果的影响就很大,而使用预训练的模型这部分可以不考虑。 ####(2)但bert as service只适合句(短句)一级的相似度比较,对于整篇文章的相似度就要差得多,特别是在最后的向量差上,由于文章比较长,最后的差就变得比较小了。 ####(3)选择利用annoy进行向量索引和相似度计算,特点是:单机,速度快,有些类似lucene,在生成时比较慢,但可以放在硬盘上。试验 ####(4)利用19大报告拆成句之后,启动bert as service,在client上取得encode句向量,按顺序将向量放到annoy(768)中,生成树,保存模型到硬盘。将句子按顺序保存到文件。 ####(5)做了一个flask,在类初始化时,加载模型和文本文件(readlines),提供一个服务,输入句子,得到最接近的5句话。总体效果还不错。 ####(6)bert的向量包含了部分语义,并非完全简单的相同,所以有时会更加宽泛,是否能结合人工指定关键词进行过滤。

1.2 文章相似性比较

####(1)早听说gensim的doc2vec效果时好时坏,试了一下,vector_size=300,epochs=300,对于长文章的一致性好像还可以,但确实有同一篇文章得分低的情况,还有前5篇文章第一名竟基本对不上的情况。

About

AI学习实用记录

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published