fix reduce op in nlp: text_matching/sentence_transformers when last dim is 1 and reduce mid dim #34941

AnnaTrainingG · 2021-08-16T11:40:22Z

PR types

Bug fixes

PR changes

OPs

Describe

fix a bug in nlp: text_matching/sentence_transformers when last dim is 1 and reduce mid dim

bug现象：

global step 10, epoch: 1, batch: 10, loss: nan, accu: 0.42500, speed: 12.92 step/s
global step 20, epoch: 1, batch: 20, loss: nan, accu: 0.42188, speed: 23.03 step/s
global step 30, epoch: 1, batch: 30, loss: nan, accu: 0.42292, speed: 23.87 step/s
global step 40, epoch: 1, batch: 40, loss: nan, accu: 0.43906, speed: 22.53 step/s
global step 50, epoch: 1, batch: 50, loss: nan, accu: 0.43562, speed: 22.56 step/s
global step 60, epoch: 1, batch: 60, loss: nan, accu: 0.43281, speed: 23.17 step/s
global step 70, epoch: 1, batch: 70, loss: nan, accu: 0.43661, speed: 21.93 step/s
global step 80, epoch: 1, batch: 80, loss: nan, accu: 0.43789, speed: 23.65 step/s
global step 90, epoch: 1, batch: 90, loss: nan, accu: 0.43368, speed: 23.62 step/s
global step 100, epoch: 1, batch: 100, loss: nan, accu: 0.43188, speed: 22.27 step/s

正常运行结果：
global step 10, epoch: 1, batch: 10, loss: 0.77060, accu: 0.56875, speed: 12.83 step/s
global step 20, epoch: 1, batch: 20, loss: 0.64212, accu: 0.58437, speed: 23.04 step/s
global step 30, epoch: 1, batch: 30, loss: 0.63177, accu: 0.60729, speed: 23.92 step/s
global step 40, epoch: 1, batch: 40, loss: 0.61330, accu: 0.60703, speed: 22.58 step/s
global step 50, epoch: 1, batch: 50, loss: 0.63015, accu: 0.62125, speed: 22.58 step/s
global step 60, epoch: 1, batch: 60, loss: 0.65486, accu: 0.63281, speed: 23.30 step/s
global step 70, epoch: 1, batch: 70, loss: 0.60717, accu: 0.63705, speed: 21.97 step/s
global step 80, epoch: 1, batch: 80, loss: 0.61400, accu: 0.63984, speed: 23.68 step/s
global step 90, epoch: 1, batch: 90, loss: 0.48885, accu: 0.64306, speed: 23.56 step/s
global step 100, epoch: 1, batch: 100, loss: 0.58543, accu: 0.64281, speed: 22.10 step/s

修复后：
global step 10, epoch: 1, batch: 10, loss: 0.77057, accu: 0.56875, speed: 12.79 step/s
global step 20, epoch: 1, batch: 20, loss: 0.64191, accu: 0.58437, speed: 22.83 step/s
global step 30, epoch: 1, batch: 30, loss: 0.63172, accu: 0.60729, speed: 23.88 step/s
global step 40, epoch: 1, batch: 40, loss: 0.61274, accu: 0.60703, speed: 22.50 step/s
global step 50, epoch: 1, batch: 50, loss: 0.63057, accu: 0.62062, speed: 22.54 step/s
global step 60, epoch: 1, batch: 60, loss: 0.65494, accu: 0.63229, speed: 23.25 step/s
global step 70, epoch: 1, batch: 70, loss: 0.60811, accu: 0.63661, speed: 21.94 step/s
global step 80, epoch: 1, batch: 80, loss: 0.61390, accu: 0.63984, speed: 23.60 step/s
global step 90, epoch: 1, batch: 90, loss: 0.48840, accu: 0.64306, speed: 23.63 step/s
global step 100, epoch: 1, batch: 100, loss: 0.58263, accu: 0.64250, speed: 22.28 step/s

现象说明：模型reduce中间维度的时候如case：【32 33 1】 reduce_dim = 1 模型运行结果为nan
原因分析：在进行代码整合的时候将kReduceALL 类型删除，并且增加了reduce.left_num == 1 调用cubReduce的判断，
但是在进行ReduceConfig中进行block、grid设置时，更新了reduce.left_num，导致reduce_left_num等于最低维1，进入cu bReduce调用，使得最终结果计算错误。

update

…s 1 and reduce mid dim

paddle-bot-old · 2021-08-16T11:40:26Z

Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

xingfeng01 · 2021-08-16T12:13:36Z

LGTM

ZzSean · 2021-08-16T12:22:43Z

LGTM

AnnaTrainingG and others added 18 commits March 25, 2021 16:46

Merge pull request #1 from PaddlePaddle/develop

7d58b91

update

Merge pull request #2 from PaddlePaddle/develop

1021e08

update

Merge pull request #3 from PaddlePaddle/develop

43f53fe

update

Merge pull request #4 from PaddlePaddle/develop

d25ab26

update

Merge pull request #5 from PaddlePaddle/develop

8c8717f

update

Merge pull request #6 from PaddlePaddle/develop

9ddf5e8

update

Merge pull request #9 from PaddlePaddle/develop

b0cbcca

update

Merge pull request #14 from PaddlePaddle/develop

cdecaf0

update

Merge pull request #16 from PaddlePaddle/develop

0da14c9

update

Merge pull request #17 from PaddlePaddle/develop

ca95763

update

Merge pull request #18 from PaddlePaddle/develop

25ba21c

update

Merge pull request #19 from PaddlePaddle/develop

3ce9983

update

Merge pull request #20 from PaddlePaddle/develop

61842ed

update

Merge pull request #21 from PaddlePaddle/develop

0e2c73b

update

Merge pull request #22 from PaddlePaddle/develop

c1e59cf

update

Merge pull request #23 from PaddlePaddle/develop

3a54149

update

Merge pull request #24 from PaddlePaddle/develop

7addd79

update

fix a bug in nlp: text_matching/sentence_transformers when last dim i…

23b6355

…s 1 and reduce mid dim

Xreki approved these changes Aug 17, 2021

View reviewed changes

Xreki merged commit 181f7ce into PaddlePaddle:develop Aug 17, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix reduce op in nlp: text_matching/sentence_transformers when last dim is 1 and reduce mid dim #34941

fix reduce op in nlp: text_matching/sentence_transformers when last dim is 1 and reduce mid dim #34941

AnnaTrainingG commented Aug 16, 2021 •

edited

Loading

paddle-bot-old bot commented Aug 16, 2021

xingfeng01 commented Aug 16, 2021

ZzSean commented Aug 16, 2021

fix reduce op in nlp: text_matching/sentence_transformers when last dim is 1 and reduce mid dim #34941

fix reduce op in nlp: text_matching/sentence_transformers when last dim is 1 and reduce mid dim #34941

Conversation

AnnaTrainingG commented Aug 16, 2021 • edited Loading

PR types

PR changes

Describe

paddle-bot-old bot commented Aug 16, 2021

xingfeng01 commented Aug 16, 2021

ZzSean commented Aug 16, 2021

AnnaTrainingG commented Aug 16, 2021 •

edited

Loading