Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

能否更新HanLP的分词结果?HanLP2.x的深度学习模型在古汉语上的效果大幅提升了 #15

Closed
hankcs opened this issue Oct 20, 2021 · 2 comments

Comments

@hankcs
Copy link

hankcs commented Oct 20, 2021

感谢你们的工作,Jiayan在古汉语处理上独树一帜,也感谢与HanLP对比。

我注意到文档中HanLP的效果应该是1.x,的确不太好。不过自从2021年初,HanLP发布了深度学习驱动的2.x。由于使用了大规模语料上预训练的语言模型,这些语料已经包括了互联网上几乎所有的古汉语和现代汉语,所以在古汉语上的效果已经得到了质的提升。不仅仅是分词,就连词性标注和语义分析也有一定zero-shot learning的效果。例如:

from hanlp_restful import HanLPClient

HanLP = HanLPClient('https://www.hanlp.com/api')
HanLP('是故内圣外王之道,暗而不明,郁而不发,天下之人各为其所欲焉以自为方。').pretty_print()

Dep Tree        	Toke	Relati	PoS	Tok 	SRL PA1     	Tok 	SRL PA2     	Tok 	SRL PA3 	Tok 	SRL PA4     	Tok 	PoS    3       4       5       6       7       8       9       10
────────────────	────	──────	───	────	────────────	────	────────────	────	────────	────	────────────	────	─────────────────────────────────────────────────────────────────
┌┬─┬┬────────┬──	   	root  	VC 	   	            	   	            	   	        	   	            	   	VC ──────────────────────────────────┐                           
││ ││        └─►	   	advmod	AD 	   	───►ARGM-DIS	   	            	   	        	   	            	   	AD ───────────────────────────►ADVP──┤                           
││ ││     ┌─►┌──	内圣外王	nn    	NN 	内圣外王	◄─┐         	内圣外王	            	内圣外王	        	内圣外王	            	内圣外王	NN ───►NP ───┐                       │                           
││ ││     │  └─►	   	assm  	DEG	   	  ├►ARG0    	   	            	   	        	   	            	   	DEG──────────┴►DNP ──┐               │                           
││ ││  ┌─►└─────	   	nsubj 	NN 	   	◄─┘         	   	            	   	        	   	            	   	NN ───────────►NP ───┴────────►NP────┤                           
││ ││  │     ┌─►	,   	punct 	PU 	,   	            	,   	            	,   	        	,   	            	,   	PU ──────────────────────────────────┼────────────────►IP ───┐   
││ │└─►└┬──┬┬┼──	   	dep   	VA 	   	╟──►PRED    	   	            	   	        	   	            	   	VA ──────────┐                       │                       │   
││ │    │  ││└─►	   	prtmod	MSP	   	            	   	            	   	        	   	            	   	MSP──────────┼────────►VP ───┐       │                       │   
││ │    │  │└──►	不明  	dep   	VA 	不明  	            	不明  	            	不明  	        	不明  	            	不明  	VA ───►VP ───┘               │       │                       │   
││ │    │  └───►	,   	punct 	PU 	,   	            	,   	            	,   	        	,   	            	,   	PU ──────────────────────────┤       │                       │   
││ │    │  ┌───►	   	dep   	VA 	   	            	   	            	   	        	   	            	   	VA ───────────►VP ───┐       ├►VP ───┘                       │   
││ │    │  │┌──►	   	prtmod	MSP	   	            	   	            	   	        	   	            	   	MSP──────────────────┤       │                               │   
││ │    │  ││┌─►	   	neg   	AD 	   	            	   	───►ARGM-ADV	   	        	   	            	   	AD ───►ADVP──┐       ├►VP ───┘                               │   
││ │    └─►└┴┴──	   	dep   	VV 	   	            	   	╟──►PRED    	   	        	   	            	   	VV ───►VP ───┴►VP ───┘                                       │   
││ └───────────►	,   	punct 	PU 	,   	            	,   	            	,   	        	,   	            	,   	PU ──────────────────────────────────────────────────────────┤   
││        ┌─►┌──	天下  	assmod	NN 	天下  	            	天下  	            	天下  	        	天下  	◄─┐         	天下  	NN ───►NP ───┐                                               │   
││        │  └─►	   	assm  	DEG	   	            	   	            	   	        	   	  ├►ARG0    	   	DEG──────────┴►DNP ──┐                                       │   
││  ┌────►└─────	   	nsubj 	NN 	   	            	   	            	   	        	   	◄─┘         	   	NN ───────────►NP ───┴────────────────────────►NP ───┐       ├►IP
││  │┌─────────►	   	advmod	AD 	   	            	   	            	   	        	   	───►ARGM-ADV	   	AD ───────────────────────────►ADVP──┐               │       │   
││  ││┌─►┌──────	   	prep  	P  	   	            	   	            	   	        	   	            	   	P ───────────────────────────┐       ├►VP ───┐       │       │   
││  │││  │  ┌──►	   	nsubj 	PN 	   	            	   	            	   	───►ARG0	   	            	   	PN ───────────►NP ───┐       ├►VP ───┘       │       ├►IP────┤   
││  │││  │  │┌─►	   	prtmod	MSP	   	            	   	            	   	        	   	            	   	MSP──────────┐       ├►IP ───┘               │       │       │   
││  │││  └─►└┴──	   	dep   	VV 	   	            	   	            	   	╟──►PRED	   	            	   	VV ───►VP ───┴►VP ───┘                       │       │       │   
││  │││  ┌─────►	   	dep   	SP 	   	            	   	            	   	        	   	            	   	SP ──────────────────────────────────────────┼►VP ───┘       │   
││  │││  │┌─►┌──	   	prep  	P  	   	            	   	            	   	        	   	◄─┐         	   	P ───────────┐                               │               │   
││  │││  ││  └─►	   	pobj  	PN 	   	            	   	            	   	        	   	◄─┴►ARG2    	   	PN ───►NP ───┴►PP ───┐                       │               │   
│└─►└┴┴──┴┴──┬──	   	dep   	VV 	   	            	   	            	   	        	   	╟──►PRED    	   	VV ──────────┐       ├────────────────►VP ───┘               │   
│            └─►	   	dobj  	NN 	   	            	   	            	   	        	   	───►ARG1    	   	NN ───►NP ───┴►VP ───┘                                       │   
└──────────────►	。   	punct 	PU 	。   	            	。   	            	。   	        	。   	            	。   	PU ──────────────────────────────────────────────────────────┘   

可以在线体验其他古汉语句子的效果。方便的话,能否更新HanLP的分词结果?

谢谢。

@jiaeyan
Copy link
Owner

jiaeyan commented Nov 2, 2021

hankcs大你好!感谢告知,已经在README分词部分添加HanLP相应更新。很高兴一同见证古汉语的自动化处理更上一层楼!

@hankcs
Copy link
Author

hankcs commented Nov 2, 2021

谢谢!预感预训练和机器翻译技术还会使古汉语处理再进一步,期待。

@hankcs hankcs closed this as completed Nov 2, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants