unicode 中文标点符号完全无法正确标注 #917

trulyspinach · 2021-04-25T03:01:55Z

>>> pseg.lcut('小明硕士毕业于中国科学院计算所,后在日本京都大学深造.；', use_paddle=True)
[pair('小明', 'PER'), pair('硕士', 'n'), pair('毕业', 'v'), pair('于', 'p'), pair('中国科学院计算所', 'ORG'), pair(',', 'w'), pair('后', 'f'), pair('在', 'p'), pair('日本京都大学', 'ORG'), pair('深造', 'v'), pair('.', 'w'), pair('；', 'v')]

>>> pseg.lcut('.,;"" ，。；“”', use_paddle=True)
[pair('.', 'w'), pair(',', 'w'), pair(';', 'w'), pair('"', 'w'), pair('"', 'w'), pair(' ，。；“”', 'nz')]

>>> pseg.lcut('。', use_paddle=True)
[pair('。', 'n')]

可见不同的unicode中文句号被标注为名词和动词。请问这是我这边设置的有问题吗？

谢谢

The text was updated successfully, but these errors were encountered:

trulyspinach closed this as completed Jan 22, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

unicode 中文标点符号完全无法正确标注 #917

unicode 中文标点符号完全无法正确标注 #917

trulyspinach commented Apr 25, 2021

unicode 中文标点符号完全无法正确标注 #917

unicode 中文标点符号完全无法正确标注 #917

Comments

trulyspinach commented Apr 25, 2021