We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
感谢你们的工作,Jiayan在古汉语处理上独树一帜,也感谢与HanLP对比。
我注意到文档中HanLP的效果应该是1.x,的确不太好。不过自从2021年初,HanLP发布了深度学习驱动的2.x。由于使用了大规模语料上预训练的语言模型,这些语料已经包括了互联网上几乎所有的古汉语和现代汉语,所以在古汉语上的效果已经得到了质的提升。不仅仅是分词,就连词性标注和语义分析也有一定zero-shot learning的效果。例如:
from hanlp_restful import HanLPClient HanLP = HanLPClient('https://www.hanlp.com/api') HanLP('是故内圣外王之道,暗而不明,郁而不发,天下之人各为其所欲焉以自为方。').pretty_print() Dep Tree Toke Relati PoS Tok SRL PA1 Tok SRL PA2 Tok SRL PA3 Tok SRL PA4 Tok PoS 3 4 5 6 7 8 9 10 ──────────────── ──── ────── ─── ──── ──────────── ──── ──────────── ──── ──────── ──── ──────────── ──── ───────────────────────────────────────────────────────────────── ┌┬─┬┬────────┬── 是 root VC 是 是 是 是 是 VC ──────────────────────────────────┐ ││ ││ └─► 故 advmod AD 故 ───►ARGM-DIS 故 故 故 故 AD ───────────────────────────►ADVP──┤ ││ ││ ┌─►┌── 内圣外王 nn NN 内圣外王 ◄─┐ 内圣外王 内圣外王 内圣外王 内圣外王 NN ───►NP ───┐ │ ││ ││ │ └─► 之 assm DEG 之 ├►ARG0 之 之 之 之 DEG──────────┴►DNP ──┐ │ ││ ││ ┌─►└───── 道 nsubj NN 道 ◄─┘ 道 道 道 道 NN ───────────►NP ───┴────────►NP────┤ ││ ││ │ ┌─► , punct PU , , , , , PU ──────────────────────────────────┼────────────────►IP ───┐ ││ │└─►└┬──┬┬┼── 暗 dep VA 暗 ╟──►PRED 暗 暗 暗 暗 VA ──────────┐ │ │ ││ │ │ ││└─► 而 prtmod MSP 而 而 而 而 而 MSP──────────┼────────►VP ───┐ │ │ ││ │ │ │└──► 不明 dep VA 不明 不明 不明 不明 不明 VA ───►VP ───┘ │ │ │ ││ │ │ └───► , punct PU , , , , , PU ──────────────────────────┤ │ │ ││ │ │ ┌───► 郁 dep VA 郁 郁 郁 郁 郁 VA ───────────►VP ───┐ ├►VP ───┘ │ ││ │ │ │┌──► 而 prtmod MSP 而 而 而 而 而 MSP──────────────────┤ │ │ ││ │ │ ││┌─► 不 neg AD 不 不 ───►ARGM-ADV 不 不 不 AD ───►ADVP──┐ ├►VP ───┘ │ ││ │ └─►└┴┴── 发 dep VV 发 发 ╟──►PRED 发 发 发 VV ───►VP ───┴►VP ───┘ │ ││ └───────────► , punct PU , , , , , PU ──────────────────────────────────────────────────────────┤ ││ ┌─►┌── 天下 assmod NN 天下 天下 天下 天下 ◄─┐ 天下 NN ───►NP ───┐ │ ││ │ └─► 之 assm DEG 之 之 之 之 ├►ARG0 之 DEG──────────┴►DNP ──┐ │ ││ ┌────►└───── 人 nsubj NN 人 人 人 人 ◄─┘ 人 NN ───────────►NP ───┴────────────────────────►NP ───┐ ├►IP ││ │┌─────────► 各 advmod AD 各 各 各 各 ───►ARGM-ADV 各 AD ───────────────────────────►ADVP──┐ │ │ ││ ││┌─►┌────── 为 prep P 为 为 为 为 为 P ───────────────────────────┐ ├►VP ───┐ │ │ ││ │││ │ ┌──► 其 nsubj PN 其 其 其 ───►ARG0 其 其 PN ───────────►NP ───┐ ├►VP ───┘ │ ├►IP────┤ ││ │││ │ │┌─► 所 prtmod MSP 所 所 所 所 所 MSP──────────┐ ├►IP ───┘ │ │ │ ││ │││ └─►└┴── 欲 dep VV 欲 欲 欲 ╟──►PRED 欲 欲 VV ───►VP ───┴►VP ───┘ │ │ │ ││ │││ ┌─────► 焉 dep SP 焉 焉 焉 焉 焉 SP ──────────────────────────────────────────┼►VP ───┘ │ ││ │││ │┌─►┌── 以 prep P 以 以 以 以 ◄─┐ 以 P ───────────┐ │ │ ││ │││ ││ └─► 自 pobj PN 自 自 自 自 ◄─┴►ARG2 自 PN ───►NP ───┴►PP ───┐ │ │ │└─►└┴┴──┴┴──┬── 为 dep VV 为 为 为 为 ╟──►PRED 为 VV ──────────┐ ├────────────────►VP ───┘ │ │ └─► 方 dobj NN 方 方 方 方 ───►ARG1 方 NN ───►NP ───┴►VP ───┘ │ └──────────────► 。 punct PU 。 。 。 。 。 PU ──────────────────────────────────────────────────────────┘
可以在线体验其他古汉语句子的效果。方便的话,能否更新HanLP的分词结果?
谢谢。
The text was updated successfully, but these errors were encountered:
hankcs大你好!感谢告知,已经在README分词部分添加HanLP相应更新。很高兴一同见证古汉语的自动化处理更上一层楼!
Sorry, something went wrong.
谢谢!预感预训练和机器翻译技术还会使古汉语处理再进一步,期待。
No branches or pull requests
感谢你们的工作,Jiayan在古汉语处理上独树一帜,也感谢与HanLP对比。
我注意到文档中HanLP的效果应该是1.x,的确不太好。不过自从2021年初,HanLP发布了深度学习驱动的2.x。由于使用了大规模语料上预训练的语言模型,这些语料已经包括了互联网上几乎所有的古汉语和现代汉语,所以在古汉语上的效果已经得到了质的提升。不仅仅是分词,就连词性标注和语义分析也有一定zero-shot learning的效果。例如:
可以在线体验其他古汉语句子的效果。方便的话,能否更新HanLP的分词结果?
谢谢。
The text was updated successfully, but these errors were encountered: