fix uie dataloader memory overflow #3381

westfish · 2022-09-28T08:22:29Z

PR types

Bug fixes

PR changes

Models

Description

分析了一下bug出现的原因：
当输入过长时，在数据加载时reader会对输入的实例进行分割，返回多个实例，正常情况max_content_len是不会变化的，它的作用是分割content为两部分，即cur_content = content[:max_content_len] res_content = content[max_content_len:] 。
但是，当待抽取对象result的start id小于max_content_len且end id小于max_content_len，那么待抽取result就将位于cur_content和res_content两个地方，所以为了让整个result位于同一个地方，就会有一个特殊处理，也即进入if result['start'] + 1 <= max_content_len < result[ 'end']语句，并设置max_content_len = result['start']，从而让待抽取对象位于新实例的开始部分。
但是问题是，如果待抽取对象result过长，超过了max_content_len，即使执行了上一步骤之后，更新后的start id和end id仍然会位于两个不同的地方，就会再次进入if result['start'] + 1 <= max_content_len < result[ 'end']语句，从而无限循环，得到无限多的空实例，最终内存溢出。
所以结论就是，要考虑到待抽取对象result会出现超过max_content_len的情况，在这种情况下，我们是无法得到一个可以包含待抽取对象result的实例的，即对重制max_content_len对条件增加限制，也即if result['start'] + 1 <= max_content_len < result['end'] and result['end']-result['start'] <= max_content_len 。
经过bad case测试，增加测试后不再出现内存溢出的问题。

linjieccc · 2022-09-28T11:52:39Z

model_zoo/uie/utils.py

@@ -229,8 +229,7 @@ def reader(data_path, max_seq_len=512):
                    cur_result_list = []

                    for result in result_list:
-                        if result['start'] + 1 <= max_content_len < result[
-                                'end']:
+                        if result['start'] + 1 <= max_content_len < result['end'] and result['end'] - result['start'] <= max_content_len :


对于抽取目标超过最大长度限制result['end'] - result['start']的情况如果能给个warning的信息可能更好一些

最新的commit已添加相关warning

linjieccc

LGTM

fix dataloader memory overflow

829f445

westfish requested review from wawltor and linjieccc September 28, 2022 08:22

linjieccc reviewed Sep 28, 2022

View reviewed changes

westfish added 2 commits September 28, 2022 21:06

add warning

759ec97

codestyle

0eb3792

linjieccc approved these changes Oct 10, 2022

View reviewed changes

Merge branch 'develop' into uie_reader_memory_overflow

50cd219

westfish changed the title ~~fix dataloader memory overflow~~ fix uie dataloader memory overflow Oct 12, 2022

Merge branch 'develop' into uie_reader_memory_overflow

4c4f961

westfish merged commit c65dbb4 into PaddlePaddle:develop Oct 13, 2022

westfish mentioned this pull request Oct 13, 2022

PaddleNLP 2.4.1 Release Note Candidate #3448

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix uie dataloader memory overflow #3381

fix uie dataloader memory overflow #3381

westfish commented Sep 28, 2022

linjieccc Sep 28, 2022

westfish Sep 28, 2022

linjieccc left a comment

fix uie dataloader memory overflow #3381

fix uie dataloader memory overflow #3381

Conversation

westfish commented Sep 28, 2022

PR types

PR changes

Description

linjieccc Sep 28, 2022

Choose a reason for hiding this comment

westfish Sep 28, 2022

Choose a reason for hiding this comment

linjieccc left a comment

Choose a reason for hiding this comment