## 文本推荐

该部分的内容之所以在一起是因其底层原理相同。文本推荐，语义距离，同义改写等都是基于word2vec的。因为作者HanLP源代码和博客都没有写该部分的原理。所以笔者大概查看了源码，发现功能实现原理非常之简单，就是根据文档与给定单词的距离进行打分，而这个语义距离就是从word2vec来的。熟悉word2vec的同学听到这里应该也就明白其内部运行的原理了吧。

这里的文本推荐属于。句子级别，从一系列句子中挑出与输入句子最相似的那一个。在搜索中是有用的。

有关内容你还可以参考这里：
- 说明
  * [word2vec文档](https://github.com/hankcs/HanLP/wiki/word2vec)
  * [《word2vec原理推导与代码分析》](http://www.hankcs.com/nlp/word2vec.html)
  
### 文本推荐代码

In [12]:
from pyhanlp import *
# 文本推荐
Suggester = JClass("com.hankcs.hanlp.suggest.Suggester")
suggester = Suggester()
title_array = [
    "威廉王子发表演说 呼吁保护野生动物",
    "魅惑天后许佳慧不爱“预谋” 独唱《许某某》",
    "《时代》年度人物最终入围名单出炉 普京马云入选",
    "“黑格比”横扫菲：菲吸取“海燕”经验及早疏散",
    "日本保密法将正式生效 日媒指其损害国民知情权",
    "英报告说空气污染带来“公共健康危机”"
]
for title in title_array:
    suggester.addSentence(title)

print(suggester.suggest("陈述", 2))      # 语义
print(suggester.suggest("危机公关", 1))  # 字符
print(suggester.suggest("mayun", 1))   # 拼音
print(suggester.suggest("徐家汇", 1)) # 拼音

[威廉王子发表演说 呼吁保护野生动物, 英报告说空气污染带来“公共健康危机”]
[英报告说空气污染带来“公共健康危机”]
[《时代》年度人物最终入围名单出炉 普京马云入选]
[魅惑天后许佳慧不爱“预谋” 独唱《许某某》]


## 语义距离

语义距离该部分是其实还是word2vec的应用，简单的来说，我们可以获取两个词的语义距离。因此我们也就获取了，同义改写的功能（语义距离最近的是哦同义词）。而基于此，我们当然还可以获得更多功能。不过本文只简介CoreSynonymDictionary该类的用法，下面的两个段代码一个是原作者给的，第二段代码是我查看源码之后给出了可以使用的方法。但是想要获得完整的功能还是直接使用word2vec好些，对于python而言或许自己编写或者使用gensim可能是更好的选择。

* [word2vec](https://github.com/hankcs/HanLP/wiki/word2vec)
    * 词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类
    * 文档语义相似度计算
    
    
## 第一段代码

In [1]:
CoreSynonymDictionary = JClass("com.hankcs.hanlp.dictionary.CoreSynonymDictionary")

word_array = [
    "香蕉",
    "苹果",
    "白菜",
    "水果",
    "蔬菜",
    "自行车",
    "公交车",
    "飞机",
    "买",
    "卖",
    "购入",
    "新年",
    "春节",
    "丢失",
    "补办",
    "办理",
    "送给",
    "寻找",
    "孩子",
    "教室",
    "教师",
    "会计",
]
print("%-5s\t%-5s\t%-10s\t%-5s\n" % ("词A", "词B", "语义距离", "语义相似度"))
for a in word_array:
    for b in word_array:
        print("%-5s\t%-5s\t%-15d\t%-5.10f" % (a, b, CoreSynonymDictionary.distance(a, b),
            CoreSynonymDictionary.similarity(a, b)))

词A   	词B   	语义距离      	语义相似度

香蕉   	香蕉   	0              	1.0000000000
香蕉   	苹果   	19980          	0.9999997311
香蕉   	白菜   	2628369        	0.9999646244
香蕉   	水果   	32967          	0.9999995563
香蕉   	蔬菜   	2630367        	0.9999645975
香蕉   	自行车  	1854515628     	0.9750398066
香蕉   	公交车  	1854535619     	0.9750395376
香蕉   	飞机   	1857307833     	0.9750022259
香蕉   	买    	39729797433    	0.4652709248
香蕉   	卖    	39729897333    	0.4652695802
香蕉   	购入   	39729797433    	0.4652709248
香蕉   	新年   	4981789224     	0.9329493801
香蕉   	春节   	4981789224     	0.9329493801
香蕉   	丢失   	46784535633    	0.3703201856
香蕉   	补办   	39205230527    	0.4723311464
香蕉   	办理   	39205222533    	0.4723312540
香蕉   	送给   	40831595534    	0.4504416652
香蕉   	寻找   	41124601233    	0.4464980592
香蕉   	孩子   	6734891367     	0.9093541255
香蕉   	教室   	1548030420     	0.9791648353
香蕉   	教师   	7516908567     	0.8988288432
香蕉   	会计   	7547972472     	0.8984107496
苹果   	香蕉   	19980          	0.9999997311
苹果   	苹果   	0              

## 第二段代码
利用CoreSynonymDictionary，我们还可以干哪些事情。这里我们直接调用了CoreSynonymDictionary的同义改写功能，

In [9]:
# 同义改写
CoreSynonymDictionary = JClass("com.hankcs.hanlp.dictionary.CoreSynonymDictionary")
text = "这个方法可以利用同义词词典将一段文本改写成意思相似的另一段文本，而且差不多符合语法"
print(CoreSynonymDictionary.rewrite(text),'\n')


print("获取同义词",CoreSynonymDictionary.rewrite("丢失"))
print("获取同义词，不分词，相当于同义改写",CoreSynonymDictionary.rewriteQuickly("丢失信息"))
print("计算文档语义距离",CoreSynonymDictionary.similarity("你好啊","还行吧"))
print("获取词典中的位置",CoreSynonymDictionary.get("丢失"))

是法可利用同义词词典将同一段落文本改写成意思相似的外一样段落文本，而且基本上符合语法 

获取同义词 丢
获取同义词，不分词，相当于同义改写 丢信息
计算文档语义距离 0.0
获取词典中的位置 丢失=If19C01000 EQUAL [遗失=If19C01000, 丢失=If19C01000, 丢掉=If19C01000, 不见=If19C01000, 散失=If19C01000, 丢=If19C01000, 少=If19C01000, 掉=If19C01000, 不翼而飞=If19C01000, 遗落=If19C01000, 有失=If19C01000]


## word2vec

除此之外，你也可以使用hanlp中的word2vec训练自己的模型或者加载自己的模型，来完成更多的事情。详细内容你可以浏览[HanLP-wiki-word2vec](https://github.com/hankcs/HanLP/wiki/word2vec),不过个人感觉wiki中给的几个例子除了玩玩实际意义不大。不过也有实际意义大的用法，比如拿词向量作文本分类，情感分析或者文本聚类，这个我在之后会写。不过基于Python还是更推荐自己写，或者使用gensim。因为本文档仅仅是HanLP的介绍，此处不再作更多描写，你可以自行查询资料，或者关注我的专栏---剑指汉语自然语言处理[知乎地址](https://zhuanlan.zhihu.com/fonttian),[CSDN地址](https://blog.csdn.net/column/details/16265.html)我会在之后补充这些部分。

In [None]:
WordVectorModel = JClass("com.hankcs.hanlp.mining.word2vec.WordVectorModel")
wordVectorModel = WordVectorModel("xxx.txt") # 此处添加模型
print(wordVectorModel.similarity("山东", "江苏"))