[BUGFIX] Cnn_dailymail and xnli raise error when downloading in multi-gpus mode #1587

gongel · 2022-01-13T06:49:19Z

PR types

Bug fixes

PR changes

Others

Description

FIx: When downloading, counting file_num in multi-gpus mode will raise error.

ZeyuChen · 2022-01-15T12:58:57Z

paddlenlp/datasets/xnli.py

+                                                     .trainer_endpoints[:])
+            if ParallelEnv().current_endpoint in unique_endpoints:
+                file_num = len(os.listdir(fullname))
+                if file_num != 15:


对于magic number需要进行额外注释

…nto dataset_bug

guoshengCS · 2022-01-26T03:55:53Z

paddlenlp/datasets/xnli.py

+                                                     .trainer_endpoints[:])
+            if ParallelEnv().current_endpoint in unique_endpoints:
+                file_num = len(os.listdir(fullname))
+                if file_num != len(ALL_LANGUAGES):


这里稍微说明下背景，相比其他数据集这里多了file_num = len(os.listdir(os.path.join(dir_path, "stories")))，这个在多进程下有些问题，当前多进程下载解压机制假定了_get_data中的文件相关操作是制定节点上的，咱们数据集依赖的 get_path_from_url 是符合这个假设的，这避免了绝大部分数据集多进程下载解压的问题，这里的file_num = len(os.listdir(os.path.join(dir_path, "stories")))不太一样，这个PR是临时修复办法，后续可以在从数据集层面解决下

这里稍微说明下背景，相比其他数据集这里多了file_num = len(os.listdir(os.path.join(dir_path, "stories")))，这个在多进程下有些问题，当前多进程下载解压机制假定了_get_data中的文件相关操作是制定节点上的，咱们数据集依赖的 get_path_from_url 是符合这个假设的，这避免了绝大部分数据集多进程下载解压的问题，这里的file_num = len(os.listdir(os.path.join(dir_path, "stories")))不太一样，这个PR是临时修复办法，后续可以在从数据集层面解决下

好的 Thx

gongel added 2 commits January 13, 2022 14:41

fix: multi-gpus count file_num

1e4a8d4

Merge branch 'develop' into dataset_bug

fe36c1e

ZeyuChen requested a review from guoshengCS January 13, 2022 08:09

ZeyuChen reviewed Jan 15, 2022

View reviewed changes

gongel and others added 3 commits January 24, 2022 14:09

Merge branch 'develop' of https://github.com/PaddlePaddle/PaddleNLP i…

9b3139d

…nto dataset_bug

fix: update xnli

f5742e2

Merge branch 'develop' into dataset_bug

e18e74a

gongel mentioned this pull request Jan 26, 2022

PaddleNLP 2.2.4 Release Note Candidate #1614

Closed

Merge branch 'develop' into dataset_bug

10fb05f

guoshengCS reviewed Jan 26, 2022

View reviewed changes

guoshengCS approved these changes Jan 26, 2022

View reviewed changes

Merge branch 'develop' into dataset_bug

6b634e3

LiuChiachi merged commit 2197402 into PaddlePaddle:develop Jan 26, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BUGFIX] Cnn_dailymail and xnli raise error when downloading in multi-gpus mode #1587

[BUGFIX] Cnn_dailymail and xnli raise error when downloading in multi-gpus mode #1587

gongel commented Jan 13, 2022

ZeyuChen Jan 15, 2022

gongel Jan 24, 2022

guoshengCS Jan 26, 2022

gongel Jan 26, 2022

[BUGFIX] Cnn_dailymail and xnli raise error when downloading in multi-gpus mode #1587

[BUGFIX] Cnn_dailymail and xnli raise error when downloading in multi-gpus mode #1587

Conversation

gongel commented Jan 13, 2022

PR types

PR changes

Description

ZeyuChen Jan 15, 2022

Choose a reason for hiding this comment

gongel Jan 24, 2022

Choose a reason for hiding this comment

guoshengCS Jan 26, 2022

Choose a reason for hiding this comment

gongel Jan 26, 2022

Choose a reason for hiding this comment