中文plato2，单机单卡可以训练，单机多卡跑到一定步数就退出，无有用报错信息 #79

jidlin · 2021-09-05T14:42:21Z

中文对话数据，数据量400w，单卡可以跑完整个epoch，单机4卡运行到一定步数就退出

环境：
paddlepaddle-gpu==2.0.1
cuda==11.0
cudnn==8.0

终端报错是：

INFO 2021-09-05 21:51:40,245 launch_utils.py:327] terminate all the procs
ERROR 2021-09-05 21:51:40,245 launch_utils.py:584] ABORT!!! Out of all 4 trainers, the trainer process with rank=[3] was aborted. Please check its log.
INFO 2021-09-05 21:51:43,248 launch_utils.py:327] terminate all the procs`

work_log.3里面报错如下：

--------------------------------------
C++ Traceback (most recent call last):
--------------------------------------
0   paddle::framework::ParallelExecutor::Run(std::vector<std::string, std::allocator<std::string > > const&, bool)
1   paddle::framework::details::ScopeBufferedSSAGraphExecutor::Run(std::vector<std::string, std::allocator<std::string > > const&, bool)
2   paddle::framework::details::FastThreadedSSAGraphExecutor::Run(std::vector<std::string, std::allocator<std::string > > const&, bool)
3   paddle::framework::BlockingQueue<unsigned long>::Pop()
4   paddle::framework::SignalHandle(char const*, int)
5   paddle::platform::GetCurrentTraceBackString[abi:cxx11]()

----------------------
Error Message Summary:
----------------------
FatalError: `Termination signal` is detected by the operating system.
  [TimeInfo: *** Aborted at 1630683022 (unix time) try "date -d @1630683022" if you are using GNU date ***]
  [SignalInfo: *** SIGTERM (@0x3e800000a5e) received by PID 2812 (TID 0x7f718f576b80) from PID 2654 ***]

The text was updated successfully, but these errors were encountered:

jidlin · 2021-09-06T02:25:30Z

另外，400w的数据集分成2个200w的子数据集，多卡也能跑完一个epoch，400w的时候也没有发现内存不够的现象

sserdoubleh · 2021-09-06T06:00:19Z

是否稳定复现？大概多少 step 的时候出错，能否看下其他 GPU 的报错情况，有没有什么异常？

jidlin · 2021-09-06T06:46:00Z

是否稳定复现？大概多少 step 的时候出错，能否看下其他 GPU 的报错情况，有没有什么异常？

稳定复现，batch_size 16000的时候，3270step左右报错;GPU内存好像无异常，单卡是正常跑的

附训练config：

job settings

job_script="./scripts/distributed/train.sh"

task settings

model=UnifiedTransformer
task=DialogGeneration

vocab_path="./package/dialog_cn/vocab.txt"
spm_model_file="./package/dialog_cn/spm.model"
train_file="./data/example/train_filelist"
valid_file="./data/example/valid_filelist"
data_format="raw"
file_format="filelist"
config_path="./package/dialog_cn/12L.json"

training settings

is_cn="true"
in_tokens="true"
batch_size=16000
lr=1e-3
warmup_steps=4000
weight_decay=0.01
num_epochs=2

log_steps=1
validation_steps=1000
save_steps=5000

log_dir="./log"
save_path="./output"

jidlin · 2021-09-06T06:54:56Z

是否稳定复现？大概多少 step 的时候出错，能否看下其他 GPU 的报错情况，有没有什么异常？

刚刚看了下，多卡的时候GPU内存一直比较稳定，利用率基本在100%，但是CPU内存占用一直在稳步上升不知道怎么回事；单卡的时候CPU和GPU的内存占用都比较稳定

jidlin · 2021-09-06T07:09:36Z

确定了，是内存一直增加报的错，但是日志里面没有oom的报错信息，很奇怪，为什么分布式训练CPU内存会一直增加呢

sserdoubleh · 2021-09-06T07:12:12Z

Knover/knover/utils/tokenization.py

Line 159 in ac58d76

return self.cached[text]

有可能是因为这个 caced 的原因，保存住了分词结果，会占用 CPU 资源
对于大数据的训练，最好还是使用 knover/tools/pre_tokenize.py，先对整个数据集做分词，然后再设置 data_format="tokenized"（也可以使用 knover/tools/pre_numericalize.py，对应设置 data_format="numerical"，可以参考 docs/usage.md）

jidlin · 2021-09-06T09:35:56Z

Knover/knover/utils/tokenization.py

Line 159 in ac58d76

return self.cached[text]

有可能是因为这个 caced 的原因，保存住了分词结果，会占用 CPU 资源
对于大数据的训练，最好还是使用 knover/tools/pre_tokenize.py，先对整个数据集做分词，然后再设置 data_format="tokenized"（也可以使用 knover/tools/pre_numericalize.py，对应设置 data_format="numerical"，可以参考 docs/usage.md）

感谢！先分词之后CPU果然比较稳定了，模型训练中，这个感觉可以写到说明文档里面，数据量>400w建议先分词~

jidlin closed this as completed Sep 8, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

中文plato2，单机单卡可以训练，单机多卡跑到一定步数就退出，无有用报错信息 #79

中文plato2，单机单卡可以训练，单机多卡跑到一定步数就退出，无有用报错信息 #79

jidlin commented Sep 5, 2021 •

edited by sserdoubleh

jidlin commented Sep 6, 2021

sserdoubleh commented Sep 6, 2021

jidlin commented Sep 6, 2021

jidlin commented Sep 6, 2021

jidlin commented Sep 6, 2021

sserdoubleh commented Sep 6, 2021

jidlin commented Sep 6, 2021

中文plato2，单机单卡可以训练，单机多卡跑到一定步数就退出，无有用报错信息 #79

中文plato2，单机单卡可以训练，单机多卡跑到一定步数就退出，无有用报错信息 #79

Comments

jidlin commented Sep 5, 2021 • edited by sserdoubleh

jidlin commented Sep 6, 2021

sserdoubleh commented Sep 6, 2021

jidlin commented Sep 6, 2021

job settings

task settings

training settings

jidlin commented Sep 6, 2021

jidlin commented Sep 6, 2021

sserdoubleh commented Sep 6, 2021

jidlin commented Sep 6, 2021

jidlin commented Sep 5, 2021 •

edited by sserdoubleh