AI_study

AI学习实用记录

1.文本相似的一些试验

1.1 句向量相似性比较

####（1）安装了bert as service，这种可生成句向量的服务，好处是不用预先处理数据，进行分词操作，因为分词本身的准确性对结果的影响就很大，而使用预训练的模型这部分可以不考虑。 ####（2）但bert as service只适合句（短句）一级的相似度比较，对于整篇文章的相似度就要差得多，特别是在最后的向量差上，由于文章比较长，最后的差就变得比较小了。 ####（3）选择利用annoy进行向量索引和相似度计算，特点是：单机，速度快，有些类似lucene，在生成时比较慢，但可以放在硬盘上。试验 ####（4）利用19大报告拆成句之后，启动bert as service，在client上取得encode句向量，按顺序将向量放到annoy（768）中，生成树，保存模型到硬盘。将句子按顺序保存到文件。 ####（5）做了一个flask，在类初始化时，加载模型和文本文件（readlines），提供一个服务，输入句子，得到最接近的5句话。总体效果还不错。 ####（6）bert的向量包含了部分语义，并非完全简单的相同，所以有时会更加宽泛，是否能结合人工指定关键词进行过滤。

1.2 文章相似性比较

####（1）早听说gensim的doc2vec效果时好时坏，试了一下，vector_size=300，epochs=300，对于长文章的一致性好像还可以，但确实有同一篇文章得分低的情况，还有前5篇文章第一名竟基本对不上的情况。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AI_study

1.文本相似的一些试验

1.1 句向量相似性比较

1.2 文章相似性比较

About

Releases

Packages

shishi11/AI_study

Folders and files

Latest commit

History

Repository files navigation

AI_study

1.文本相似的一些试验

1.1 句向量相似性比较

1.2 文章相似性比较

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages