Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于如何调用微调后的模型有些疑问 #34

Closed
27182812 opened this issue Nov 23, 2020 · 28 comments
Closed

关于如何调用微调后的模型有些疑问 #34

27182812 opened this issue Nov 23, 2020 · 28 comments

Comments

@27182812
Copy link

您好,按照官方说明,训练模型和生成文本的model-checkpoint是一个路径,然而使用CDial-GPT_LCCC-large微调后,这个文件里面的模型应该没有发生修改(从时间看出来的),那我生成文本的时候应该调用的是哪个路径呢?请问run文件夹里的是什么啊?

@lemon234071
Copy link
Member

lemon234071 commented Nov 23, 2020

微调之后保存的模型就是runs里的文件,“官方说明”是指?

@27182812
Copy link
Author

就是快速使用那段,哈哈。那也就是说我微调后,生成文本的时候,model-checkpoint的路径应该是runs里面的文件吗?可是我用了之后会报这个错误
OSError: Error no file named ['pytorch_model.bin', 'tf_model.h5', 'model.ckpt.index'] found in directory ./runs/Nov22_23-50-23_10-255-0-133/ or from_tf set to False

@lemon234071
Copy link
Member

1、快速使用那里是示例啦, 需要改模型的path, 我去改一下吧,避免误会。
2、你应该是没微调完,他名字没保存为pytorch_model.bin。 没微调完想用中间保存的模型需要你手动改名字。

@27182812
Copy link
Author

原来是这样啊,太谢谢您了!辛苦辛苦。

@lemon234071
Copy link
Member

原来是这样啊,太谢谢您了!辛苦辛苦。

客气客气

@27182812
Copy link
Author

您好,我在微调自己的数据的时候,出现了下图这个情况,很长时间都没有变化了,请问您知道是什么原因吗?
image

@lemon234071
Copy link
Member

lemon234071 commented Nov 24, 2020

看起来是卡住了?很难凭借这个图想出问题在哪(捂脸
数据长度处理了吗?最长小于512

@27182812
Copy link
Author

哈哈,对就是一直卡在这,之前有超过512的,不过数据处理就会报错,然后调整了就可以训练,但是训练每次到这都卡住。

@lemon234071
Copy link
Member

要不尝试一下找到这个样本(if step == 4998: pdb.set_trace()),测试一下这个样本看看他有什么问题?

@27182812
Copy link
Author

哦哦好的,谢谢,那应该是我自己数据的问题了,我好好研究一下。

@lemon234071
Copy link
Member

哦哦好的,谢谢,那应该是我自己数据的问题了,我好好研究一下。

具体是哪问题也不好确定,您这边找到后还望分享来让我学习一下哈。(抱拳

@27182812
Copy link
Author

哦哦好的。(抱拳

@BFJL
Copy link

BFJL commented Nov 25, 2020

我也遇到了这个问题,不过是在完成第一个epoch后卡住了,请问这个问题您解决了吗

@lemon234071
Copy link
Member

对了你门的库的版本都对齐了吗?

@27182812
Copy link
Author

首先得说下抱歉,我其实不是卡住了,只是因为训练太慢了,所以长时间没有变化,我建议你也多等等。不过按这个训练速度,在给定的预估时间内肯定是完成不了的,我这个数据集没STC数据量大,用STC微调的时候还挺快来着,不过我这个数据集是有很多历史对话,这个应该影响了速度,以及限制这个模型训练速度的瓶颈好像不在GPU,在我服务器的CPU。版本是对齐的。

@lemon234071
Copy link
Member

CPU吗,数据处理部分?那可能要试着优化dataloader那里

@27182812
Copy link
Author

数据处理部分虽然也挺慢,但是有缓存,一次就够了,训练的过程中,我去查看了下GPU使用情况也就30%,但是cpu一直是百分百。所以我在想可能是cpu性能限制了速度?不确定,不过是真的太慢了,感觉还是我数据的问题。

@27182812
Copy link
Author

那个CDial-GPT2_LCCC-base模型,没微调直接看结果,输出的都是一堆脏话。。。太6了

@lemon234071
Copy link
Member

context给的是STC吗? STC中包含很多脏话

@27182812
Copy link
Author

自己的数据集,都是正常的语言,用其他的模型输出来是正常的话,就这个GPT2输出来的是一堆。。。

@lemon234071
Copy link
Member

这有点奇怪呀,LCCC-base比LCCC-large要干净

@27182812
Copy link
Author

image
image
真的,用的是同一个数据集

@silverriver
Copy link
Collaborator

image
image
真的,用的是同一个数据集

上面这张图片是用其他模型输出的吗?

并且,下面这张图里面的句子都说不溜看起来。

@27182812
Copy link
Author

27182812 commented Dec 1, 2020

上面的是GPTbase,下面是GPT2base,不过都是没有微调直接调用的情况。我今天全预测完看看,也许只是前几句这样。

@lemon234071
Copy link
Member

lemon234071 commented Dec 1, 2020

我一会儿去检查下,我放没放错模型,有可能放错STC微调后的(捂脸。
方便提供您的部分测试样例和解码参数吗

@27182812
Copy link
Author

27182812 commented Dec 1, 2020

好的,方便加下您微信吗,我发给您,我的微信号是qys1357924680。其实就是千言比赛的那个数据集,未公开的微博语料。

@lemon234071
Copy link
Member

我知道了,你是不是没指定--gpt2参数,来加载GPT2模型。我测了一下,如果用GPT模型加载GPT2会出现这样的情况。

@27182812
Copy link
Author

嗯嗯对的!就是这个原因,加了参数后可以了,谢谢!

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants