-
Notifications
You must be signed in to change notification settings - Fork 36
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
wikievents 等英文数据集实验 #51
Comments
后期适配了wikievents数据集,不过没有调整参数。预训练模型改成英文即可。 https://github.com/Spico197/DocEE/blob/main/scripts/run_ptpcg_wikievents_wTgg.sh |
我这边换成了英文的 但是数据读取报了个错误
|
看起来是将单词分成字母了 |
Lines 144 to 157 in d6b585e
|
我是github 下的代码 版本是对的 |
是不是这个wikievent的数据处理的脚本哪里有点问题 |
线下测试的时候是可以正常跑通的。如果方便的话麻烦提供多一点信息给我,或者您也在本地debug一下。 |
报错信息在上面 |
不正常,应该是以空格切分 |
是的 看起来是分割的时候有问题 |
这个我刚才改好了 但是后续的训练发现几轮下来 预测的结果统计 全部都是0哈 是英文的结果哪里没对齐吗 |
|
我是将 BertTokenizerForDocEE 里面的self.dee_tokenize = self.dee_space_tokenize 不判断语言了 你意思是加载哪个预训练模型 ,初始化加载的是bert 哈 还是你训练后的模型吗 这个没看到有吧 |
|
了解了~~~ 可能我本地代码哪里改了导致的这个 |
我感觉问题不在这个地方 应该是这个 self.dee_space_tokenize 后的结果很多都是 unk 实体里面也是的 |
bert 也没啥结果 |
您是用cased还是uncased模型?如果是UNK比较多的话可以把所有字符串lower一下,然后用uncased,或者直接用cased试试 |
用的uncased模型 |
试了下 貌似还是一样的几轮都是 0 不知道你本地最后跑出来的F1是多少 |
我只开debug模式测试了可以训练,暂无训练结果 |
这样我感觉这个英文的数据集肯定是需要哪里继续改 |
换了个数据集是有结果了 但是结果不是很高 这块要是想把unk的去掉如何整比较好 |
准备实验个英文数据集 不知道作者是否在wikievents 上面跑出结果 因为看 scripts 里面的预训练模型名称都是中文的 ~~~
The text was updated successfully, but these errors were encountered: