对于非常用词的误判 #27

cloudfool · 2018-10-12T04:10:38Z

您好，
对于文档里如人名、公司名、地名等一些非常用词，模型一般都会误认为这些词是有问题的。对此请问您有什么建议？谢谢！

shibing624 · 2018-10-12T11:18:27Z

a）使用对人名、公司名、地名识别效果较好的CRF模型，把这类专名识别出来，并过滤掉。
b) 对于领域内的纠错场景，如商标侵权保护、语音识别纠错，添加原体词表，只识别原体词表的错误情况，其他不考虑，可以对准确率及效率有比较大的提升。
c) 使用带序列特征的rnn类深度模型处理，模型本身会学到词语的语义表示，对于监督模型来讲，人名类的专名本身错别字较少。这类模型效果应该不错，但我这类数据量有限，未做实验进行效果比对。

cloudfool · 2018-10-12T11:42:53Z

谢谢！
关于第二个建议，原体词表具体指的是什么？能举个例子么？

shibing624 · 2018-10-12T14:55:22Z

比如保护的商标品牌词库。

cloudfool closed this as completed Oct 15, 2018

Provide feedback