Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于添加自定义词典分词与词性标注问题 #525

Closed
Helen0804 opened this issue May 8, 2017 · 6 comments
Closed

关于添加自定义词典分词与词性标注问题 #525

Helen0804 opened this issue May 8, 2017 · 6 comments
Labels

Comments

@Helen0804
Copy link

当前最新版本号是:
我使用的版本是:HanLP1.3.2

我的问题

在词性标注中,我们使用了用户自定义词典,发现自定义词典中的大部分词语能按用户自定义记号进行标注,而存在少部分词语无法按自定义标注进行词性标注。

复现问题

如:用户添加自定义词典userdict.txt 存在如下几个词语:
性别 sex
男 man
女 woman
故意伤害罪 anyou

其中,“性别”、“男”、“女”这三个词可以按自定义词典的标注进行标注,结果为 :性别/sex、男/man、女/ woman,而“ 故意伤害罪”这个词语词性标注为“nt”,结果为:故意伤害罪/nt。

期望输出

我们的期望输出是:
性别 / sex
男 /man
女 /woman
故意伤害罪/ anyou

@hankcs
Copy link
Owner

hankcs commented May 8, 2017

词条必须含有词频
请仔细阅读文档:https://github.com/hankcs/HanLP#基本格式

@hankcs hankcs added the question label May 8, 2017
@Helen0804
Copy link
Author

我们也试过加词频的,结果还是未按自定义标注标注出来。请问用户自定义词典词频设置有什么要求吗?

@hankcs
Copy link
Owner

hankcs commented May 8, 2017

还必须删缓存,必须配路径。有问题第一步 HanLP.Config.enableDebug(true); 大部分情况都是路径不对,根本没加载。少数情况是JDK版本不支持反射词性(可能性很小,JDK1.6到1.8都支持)。

如果实在不知道出什么问题了,就用代码加。

    CustomDictionary.insert("故意伤害罪", "anyou 1");
    System.out.println(HanLP.segment("故意伤害罪"));

@ghost
Copy link

ghost commented Aug 4, 2017

我用下来好像自定义词典仍然不是优先,代码如下:

    CustomDictionary.insert("龙一");
    CustomDictionary.insert("龙二");
    CustomDictionary.insert("龙三");
    CustomDictionary.insert("第一创业");
   CustomDictionary.insert("浙商证券");
   CustomDictionary.insert("国元证券");

title = "券商板块开盘急速拉升,龙一第一创业涨4%,龙二浙商证券、龙三国元证券跟涨";

HanLP.segment(title)的结果是
[券商/nnd, 板块/n, 开盘/vi, 急速/z, 拉/v, 升/v, ,/w, 龙一/nz, 第一创业/nz, 涨/vi, 4/m, %/nx, ,/w, 龙二/nz, 浙商证券/nz, 、/w, 龙三国/nr, 元/q, 证券/nis, 跟/p, 涨/vi]

NLPTokenizer.segment(title)的结果是
[券商/nnd, 板块/n, 开盘/vi, 急速/z, 拉/v, 升/v, ,/w, 龙一/nz, 第一创业/nz, 涨/vi, 4/m, %/nx, ,/w, 龙二/nz, 浙商证券/nz, 、/w, 龙三国元证券/nt, 跟/p, 涨/vi]

这者都没有正确将“龙三”、“国元证券”识别。

是否有我不知道的设置?

@qiuwei
Copy link

qiuwei commented Jul 5, 2018

@Chuongwang 你强制按照自定义词典切分了吗?

@hankcs
Copy link
Owner

hankcs commented Jan 1, 2020

感谢您对HanLP1.x的支持,我一直为没有时间回复所有issue感到抱歉,希望您提的问题已经解决。或者,您可以从《自然语言处理入门》中找到答案。

时光飞逝,HanLP1.x感谢您的一路相伴。我于东部标准时间2019年12月31日发布了HanLP1.x在上一个十年最后一个版本,代号为最后的武士。此后1.x分支将提供稳定性维护,但不是未来开发的焦点。

值此2020新年之际,我很高兴地宣布,HanLP2.0发布了。HanLP2.0的愿景是下一个十年的前沿NLP技术。为此,HanLP2.0采用TensorFlow2.0实现了最前沿的深度学习模型,通过精心设计的框架支撑下游NLP任务,在海量语料库上取得了最前沿的准确率。作为第一个alpha版本,HanLP 2.0.0a0支持分词、词性标注、命名实体识别、依存句法分析、语义依存分析以及文本分类。而且,这些功能并不仅限中文,而是面向全人类语种设计。HanLP2.0提供许多预训练模型,而终端用户仅需两行代码即可部署,深度学习落地不再困难。更多详情,欢迎观看HanLP2.0的介绍视频,或参与论坛讨论

展望未来,HanLP2.0将集成1.x时代继承下来的高效率务实风范,同时冲刺前沿研究,做工业界和学术界的两栖战舰,请诸君继续多多指教,谢谢。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

No branches or pull requests

3 participants