Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于使用Chinese目录下的中文数据集 #25

Closed
LangDaoAI opened this issue May 31, 2021 · 22 comments
Closed

关于使用Chinese目录下的中文数据集 #25

LangDaoAI opened this issue May 31, 2021 · 22 comments

Comments

@LangDaoAI
Copy link

您好, 如果使用使用Chinese目录下的中文数据集, 程序要修改吧, 比如spacy models是不是要修改为加载zh_core_web_sm等?

感谢!

@yangheng95
Copy link
Owner

如果是使用基于语法树距离的LCF则需要修改代码,这也是后面的工作。我最近在重构代码,现有的预发布的代码近期或者后面会更新,但由于我一个人精力有限,没有时间逐一测试代码验证模型,所以关于中文的相关代码可能不会及时更新,如果可能的话欢迎您提交PR帮助我改进代码,谢谢!

@LangDaoAI
Copy link
Author

如果是使用基于语法树距离的LCF则需要修改代码,这也是后面的工作。我最近在重构代码,现有的预发布的代码近期或者后面会更新,但由于我一个人精力有限,没有时间逐一测试代码验证模型,所以关于中文的相关代码可能不会及时更新,如果可能的话欢迎您提交PR帮助我改进代码,谢谢!

感谢回复, 就是说目前pyabsa还没有在中文数据集上做过测试,不知道理解是否正确?

@yangheng95
Copy link
Owner

是的,我是边重构边测试,进度有限

@LangDaoAI
Copy link
Author

是的,我是边重构边测试,进度有限

理解, 想进一步确认一下, 这些预训练模型都是在英文语料库上做的训练, 所以中文场景应该不能迁移吧, 需要重训练, 还是说模型本身可以迁移?

@yangheng95
Copy link
Owner

你指的是提供的训练好的模型吗?提供的训练用到了提供的所有数据集的数据,包括中文,理论上可以用于中文APC(LCFS模型不推荐,代码需要改)

@yangheng95
Copy link
Owner

是的,我是边重构边测试,进度有限

理解, 想进一步确认一下, 这些预训练模型都是在英文语料库上做的训练, 所以中文场景应该不能迁移吧, 需要重训练, 还是说模型本身可以迁移?

但是我还没有测试过中文的方面情感推理

@LangDaoAI
Copy link
Author

你指的是提供的训练好的模型吗?提供的训练用到了提供的所有数据集的数据,包括中文,理论上可以用于中文APC(LCFS模型不推荐,代码需要改)

有看到您的paper中,
image

四个中文数据集的LCF得出了ATE/APC的F1和ACC, 所以不太理解为什么您说的理论上可以用于中文APC?还请帮忙解惑一下,谢谢!

@yangheng95
Copy link
Owner

LCF_ATEPC属于多任务学习模型,没有使用语法树和Spacy。这个库提供两种模型,一种是极性分类模型APC,一种是方面抽取与情感分析多任务学习模型。不过LCF-ATEPC的代码移植改动比较大,中文数据集同样也没有测试。如果你想获取论文源码请见LCF-ATEPC仓库

@LangDaoAI
Copy link
Author

LCF_ATEPC属于多任务学习模型,没有使用语法树和Spacy。这个库提供两种模型,一种是极性分类模型APC,一种是方面抽取与情感分析多任务学习模型。不过LCF-ATEPC的代码移植改动比较大,中文数据集同样也没有测试。如果你想获取论文源码请见LCF-ATEPC仓库

好的, 我先看一下

@LangDaoAI
Copy link
Author

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

@yangheng95
Copy link
Owner

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

@yangheng95
Copy link
Owner

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

另外,中文还不支持LCFS-BERT类的模型,因为spacy的代码没有来得及review

@LangDaoAI
Copy link
Author

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

我正在基于你的working准备尝试, 有一个问题还要问一下, pyabsa中的apc以及atepc两个目录下都有training,也就是训练, 这个training与LCF-ATEPC仓库中training是啥关系, 不太理解

@LangDaoAI
Copy link
Author

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

另外,中文还不支持LCFS-BERT类的模型,因为spacy的代码没有来得及review

好的,我记下来

@yangheng95
Copy link
Owner

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

我正在基于你的working准备尝试, 有一个问题还要问一下, pyabsa中的apc以及atepc两个目录下都有training,也就是训练, 这个training与LCF-ATEPC仓库中training是啥关系, 不太理解

pyabsa可以理解为是对LCF-ATEPC的封装,当前版本大部分的training代码跟LCF-ATEPC都是相同/相似的,不同的是为了方便使用所以进行了必要的模块化改动,比如超参的初始移到了pyabsa.functional,等等。而LCF-ATEPC里面包含训练用到的完整代码。

@LangDaoAI
Copy link
Author

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

我正在基于你的working准备尝试, 有一个问题还要问一下, pyabsa中的apc以及atepc两个目录下都有training,也就是训练, 这个training与LCF-ATEPC仓库中training是啥关系, 不太理解

pyabsa可以理解为是对LCF-ATEPC的封装,当前版本大部分的training代码跟LCF-ATEPC都是相同/相似的,不同的是为了方便使用所以进行了必要的模块化改动,比如超参的初始移到了pyabsa.functional,等等。而LCF-ATEPC里面包含训练用到的完整代码。

明白了,感谢!我先开始尝试,有问题再咨询你

@yangheng95
Copy link
Owner

yangheng95 commented Jun 2, 2021

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

我正在基于你的working准备尝试, 有一个问题还要问一下, pyabsa中的apc以及atepc两个目录下都有training,也就是训练, 这个training与LCF-ATEPC仓库中training是啥关系, 不太理解

pyabsa可以理解为是对LCF-ATEPC的封装,当前版本大部分的training代码跟LCF-ATEPC都是相同/相似的,不同的是为了方便使用所以进行了必要的模块化改动,比如超参的初始移到了pyabsa.functional,等等。而LCF-ATEPC里面包含训练用到的完整代码。

明白了,感谢!我先开始尝试,有问题再咨询你

完整的中文支持已经发布,如果可能请更新版本帮助我测试,十分感谢

@LangDaoAI
Copy link
Author

我已经看到了你把APC中文预训练模型(使用pretrained_bert_models = bert-base-chinese )已经上传到了 google drive 0.5-beta中了, 我可以测试一下中文APC, ATEPC目前还没有看到, 想问一下, 使用LCF-ATEPC代码仓库,我自己拿自己的数据训练ATEPC中文预训练模型的话, 有没有详细的手顺。

我只测试了APC,中文方面抽取还没有测试。LCF-ATEPC的代码为了减少运行内存一些细节改了一点,我很久没有维护了,所以还没有详细的使用方法,我最近可能不会高频更新了,因为手上来了任务,你可以自己先尝试,有问题再联系我。

我正在基于你的working准备尝试, 有一个问题还要问一下, pyabsa中的apc以及atepc两个目录下都有training,也就是训练, 这个training与LCF-ATEPC仓库中training是啥关系, 不太理解

pyabsa可以理解为是对LCF-ATEPC的封装,当前版本大部分的training代码跟LCF-ATEPC都是相同/相似的,不同的是为了方便使用所以进行了必要的模块化改动,比如超参的初始移到了pyabsa.functional,等等。而LCF-ATEPC里面包含训练用到的完整代码。

明白了,感谢!我先开始尝试,有问题再咨询你

完整的中文支持已经发布,如果可能请更新版本帮助我测试,十分感谢

OK, 感谢, 我马上更新版本

@LangDaoAI
Copy link
Author

另外,我想问一下, 我在laptop上用CPU想尝试训练一下, 主要GPU太匮乏了,
image

有没有什么好的建议(我已经按照你说的OOM的建议修改了一下配置,但是还是出现上面问题),或者就是这个根本没法在laptop上CPU训练?

@yangheng95
Copy link
Owner

支持,默认自动选择CPU和GPU,这个错误是系统内存不足导致的。

@yangheng95
Copy link
Owner

可以尝试读取我训练的模型进行推理

@LangDaoAI
Copy link
Author

可以尝试读取我训练的模型进行推理

我open 了一个问题,请看一下

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants