Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

对于非常用词的误判 #27

Closed
cloudfool opened this issue Oct 12, 2018 · 3 comments
Closed

对于非常用词的误判 #27

cloudfool opened this issue Oct 12, 2018 · 3 comments

Comments

@cloudfool
Copy link

您好,
对于文档里如人名、公司名、地名等一些非常用词,模型一般都会误认为这些词是有问题的。对此请问您有什么建议?谢谢!

@shibing624
Copy link
Owner

  1. 语言模型是根据中文维基百科及人民日报数据训练得到的,对于该模型来说,人名、公司名、地名信息是未登录词,因此会有很大概率把这部分词认为是疑似错词。
  2. 解决思路:几点建议:
  • a)使用对人名、公司名、地名识别效果较好的CRF模型,把这类专名识别出来,并过滤掉。
  • b) 对于领域内的纠错场景,如商标侵权保护、语音识别纠错,添加原体词表,只识别原体词表的错误情况,其他不考虑,可以对准确率及效率有比较大的提升。
  • c) 使用带序列特征的rnn类深度模型处理,模型本身会学到词语的语义表示,对于监督模型来讲,人名类的专名本身错别字较少。这类模型效果应该不错,但我这类数据量有限,未做实验进行效果比对。

@cloudfool
Copy link
Author

谢谢!
关于第二个建议,原体词表具体指的是什么?能举个例子么?

@shibing624
Copy link
Owner

比如保护的商标品牌词库。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants