Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

线上分享: Synonyms 中文近义词工具包 #21

Closed
hailiang-wang opened this issue Jan 15, 2018 · 0 comments
Closed

线上分享: Synonyms 中文近义词工具包 #21

hailiang-wang opened this issue Jan 15, 2018 · 0 comments

Comments

@hailiang-wang
Copy link
Member

description

目前很缺乏质量好的中文近义词库,于是便考虑使用word2vec训练一个高质量的同义词库将"非标准表述" 映射到 "标准表述",这就是Synonyms的起源。
在经典的信息检索系统中,相似度的计算是基于匹配的,而且是Query经过分词后与文档库的严格的匹配,这种就缺少了利用词汇之间的“关系”。
而word2vec使用大量数据,利用上下文信息进行训练,将词汇映射到低维空间,产生了这种“关系”,这种“关系”是基于距离的。有了这种“关系”,就可以进一步利用词汇之间的距离进行检索。所以,在算法层面上,检索更是基于了“距离”而非“匹配”,基于“语义”而非“形式”。

项目地址:
https://github.com/huyingxi/Synonyms

主要内容:

  • 应用场景
  • 现有的近义词包
  • N-gram模型介绍
  • word2vec原理
  • 使用的开放数据集
  • 训练过程
  • 计算句子相似度公式
  • 待改进的地方

分享渠道:

Gitchat - 在线分享

时间:

2018年2月7日

报名:

微信扫一扫
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant