-
Notifications
You must be signed in to change notification settings - Fork 86
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
PySpark环境下分词+POS标注会有ValueError的报错 #20
Comments
你好,可以提供下报错时具体的输入字符串吗? |
您好,感谢您的快速回复。 经过排查,我找出了一个可以模拟这个错误的例子。
该字符串的长度是511是少于512的,在执行
|
这个错误是因为模型在输入BERT的时候要加上[CLS]、[SEP]和fastHan的corpus tag,所以用户需要输入长度小于等于509的。。其实这是另一个报错,还有能够触发“ValueError: xx is not in list”这个报错的字符串吗? |
我在分词的时候是把句子长度输入设成<=512,我改成509试一下,看看还会不会出现这个ValueError. 谢谢回复! |
已经把最大长度设成了<=509,把text的值替换成 "【日值四离 大事勿用】 解除 求医 词讼 和讼 求嗣 祭祀 纳财 栽种 破屋 服药 招赘 纳婿 立券 忌"会报 |
再补充一个例子:text = "1% 而据新修订的 北京市生活垃圾管理条例 个人违反条例的先行由生活垃圾分类管理责任人 如小区物业 垃圾桶值守人员等进行劝阻 对拒不听从劝阻的 城管执法部门给予书面警告 再次违反规定的 处50元以上200元以下罚款 依据规定应当受到处罚的个人 自愿参加生活垃圾分类等社区服务活动的 可不予行政处罚 垃圾分类 小习惯透视大文明 据廊坊市建委的方案要求 严格执行分类收集规范 杜绝混装混运 完善双向监督机制 探索建立 不分类 不收运 的倒逼机制 建设简便易行的分类投放系统 合理设置居住小区 公共机构 商业和办公场所的生活垃圾分类收集容器 箱房 桶站等设施设备 推动生活垃圾定点分类投放 同时抓好示范片区建设 以居民社区为单元 开展生活垃圾分类示范片区建设 落实示范街道主体责任 将垃圾分类工作落实到人 2020年底前市主城区 北三县等率先实现全覆盖 屏幕前的小伙伴们 垃圾分类从我开始 你准备好了吗",这个必须将%号删除才能分词。 |
再补充一个例子: text = "64亿元项目金额占2018年营收的16天邑股份3005046路由器已进入中国电信采购目录且已经实现批量发货海鸥住工002084与工业富联601138签署战略合作框架协议双方就共同打造5工业互联网应用于住宅工业",这个也会报ValueError。 |
好的,我先查着bug。如果你需要POS,不需要依存树的话,可以用“POS”模式,就是model(text,"POS"),这样不会报错。另外,字符“\u3000”建议替换为普通的空格,因为它不在fasthan的词表里,可能会影响性能。 |
64亿元这句话里面base model可以正常跑,large model不行,可能是parsing和base和large模型衔接有问题。 |
我在PySpark环境下使用FastHan进行大量微博语料的分词。由于我只想保留具有实意的词语,因此同时根据POS进行了筛选,只保留动词、副词、名词和形容词。小样本测验时,下面的代码能够完全正常执行并产生期待的结果,但是推广到全样本时,分词的步骤不知为何会产生
ValueError
的报错。我不明白其中在调用FastHan过程中的
ValueError: 69 is not in list
是如何产生的。之前测试的几次尝试中也出现过相同的报错,只是数字不是69, 是1,是10等等不一样的数字。求大佬解答。The text was updated successfully, but these errors were encountered: