Use an unified FLAGS_check_nan_inf_level to control the result of checking infinite. #47672

Xreki · 2022-11-04T07:25:29Z

PR types

Function optimization

PR changes

Others

Describe

在#47095 中，新增了FLAGS_abort_on_nan_inf和FLAGS_check_tensor_max_min，来控制FLAGS_check_nan_inf开启时的行为，便于进行精度排查。实现方式有2个弊端：

FLAGS数量太多，需要组合起来使用，配置相对麻烦
无法扩展至更多的精度检查

本PR删除FLAGS_abort_on_nan_inf和FLAGS_check_tensor_max_min，新增FLAGS_check_nan_inf_level来统一控制FLAGS_check_nan_inf工具的行为，具体功能如下：

FLAGS_check_nan_inf_level = 0，只打印存在NAN、Inf的Tensor信息，并在检测到NAN、Inf之后退出进程。为默认配置。
FLAGS_check_nan_inf_level = 1，只打印存在NAN、Inf的Tensor信息，在检测到NAN、Inf后不会退出进程，而是一直训练，可用于观察不同iter出现NAN、Inf的op_type、位置是否一样。
FLAGS_check_nan_inf_level = 2，float专用，当Tensor的Max、Min值超出了float16的表示范围时，也会打印。用于amp精度排查。
FLAGS_check_nan_inf_level = 3，打印全部Tensor的Max、Min等信息。用于进行float、amp训练精度比对。

…cking infinite.

paddle-bot · 2022-11-04T07:25:35Z

你的PR提交成功，感谢你对开源项目的贡献!
请关注后续CI自动化测试结果，详情请参考Paddle-CI手册。
Your PR has been submitted. Thanks for your contribution!
Please wait for the result of CI firstly. See Paddle CI Manual for details.

zhangting2020

LGTM

…cking infinite. (PaddlePaddle#47672)

Use an unified FLAGS_check_nan_inf_level to control the result of che…

112a038

…cking infinite.

Xreki requested a review from zhangting2020 November 4, 2022 09:14

zhangting2020 approved these changes Nov 4, 2022

View reviewed changes

lanxianghit approved these changes Nov 4, 2022

View reviewed changes

Xreki merged commit 54bc3b4 into PaddlePaddle:develop Nov 5, 2022

Xreki deleted the amp/opt_check_infinite branch November 5, 2022 02:48

This was referenced Jan 3, 2023

Save nan log to file when output_dir is setted #49200

Merged

add analysis tool of nan and inf op #49512

Closed

Xreki added a commit to Xreki/Paddle that referenced this pull request Apr 5, 2023

Use an unified FLAGS_check_nan_inf_level to control the result of che…

b5d1308

…cking infinite. (PaddlePaddle#47672)

Xreki mentioned this pull request Apr 5, 2023

modify cmake file for cuda11.8 compile (#49020) #52550

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Use an unified FLAGS_check_nan_inf_level to control the result of checking infinite. #47672

Use an unified FLAGS_check_nan_inf_level to control the result of checking infinite. #47672

Xreki commented Nov 4, 2022 •

edited

paddle-bot bot commented Nov 4, 2022

zhangting2020 left a comment

Use an unified FLAGS_check_nan_inf_level to control the result of checking infinite. #47672

Use an unified FLAGS_check_nan_inf_level to control the result of checking infinite. #47672

Conversation

Xreki commented Nov 4, 2022 • edited

PR types

PR changes

Describe

paddle-bot bot commented Nov 4, 2022

zhangting2020 left a comment

Choose a reason for hiding this comment

Xreki commented Nov 4, 2022 •

edited