Add OF_CUDA_CHECK/OF_CUDNN_CHECK/OF_CUBLAS_CHECK/OF_CURAND_CHECK #3446

liujuncheng · 2020-08-08T06:08:37Z

CudaCheck:

F0808 14:02:36.887184 29334 cuda_util.cpp:88] Check failed: error == cudaSuccess (2 vs. 0) out of memory
*** Check failure stack trace: ***
    @     0x7feeceb683ad  google::LogMessage::Fail()
    @     0x7feeceb6c56c  google::LogMessage::SendToLog()
    @     0x7feeceb67ed3  google::LogMessage::Flush()
    @     0x7feeceb6cfbe  google::LogMessageFatal::~LogMessageFatal()
    @     0x7feecd9fde50  oneflow::CudaCheck<>()
    @     0x7feecdf98436  oneflow::(anonymous namespace)::ConvGpuKernel<>::Compute()
    @     0x7feecdd3ba09  oneflow::UserKernel::ForwardDataContent()
    @     0x7feecdccb50c  oneflow::Kernel::Forward()
    @     0x7feecdcca9e7  oneflow::Kernel::Launch()
    @     0x7feecd99ab18  oneflow::Actor::AsyncLaunchKernel()
    @     0x7feecd9ae93c  oneflow::NormalForwardCompActor::Act()
    @     0x7feecd99c07e  oneflow::Actor::TryLogActEvent()
    @     0x7feecd99ec36  oneflow::Actor::ActUntilFail()
    @     0x7feecd99ed25  oneflow::Actor::HandlerNormal()
    @     0x7feecde9f051  oneflow::Thread::PollMsgChannel()
    @     0x7feecde9cee8  _ZNSt6thread5_ImplISt12_Bind_simpleIFZN7oneflow9GpuThreadC1EllEUlvE_vEEE6_M_runEv
    @     0x7feef2b84421  execute_native_thread_routine_compat
    @     0x7feefac36304  start_thread
    @     0x7feefa975d1d  __clone
    @              (nil)  (unknown)
Fatal Python error: Aborted

OF_CUDA_CHECK:

F0808 14:04:04.819490 32547 conv_cudnn_kernels.cpp:164] Check failed: cudaMalloc(&ptr, 1024LL * 1024LL * 1024LL * 32LL ) : out of memory (2) 
*** Check failure stack trace: ***
    @     0x7f66eb96887d  google::LogMessage::Fail()
    @     0x7f66eb96ca3c  google::LogMessage::SendToLog()
    @     0x7f66eb9683a3  google::LogMessage::Flush()
    @     0x7f66eb96d48e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7f66ead98c22  oneflow::(anonymous namespace)::ConvGpuKernel<>::Compute()
    @     0x7f66eab3ba09  oneflow::UserKernel::ForwardDataContent()
    @     0x7f66eaacb50c  oneflow::Kernel::Forward()
    @     0x7f66eaaca9e7  oneflow::Kernel::Launch()
    @     0x7f66ea79ab18  oneflow::Actor::AsyncLaunchKernel()
    @     0x7f66ea7ae93c  oneflow::NormalForwardCompActor::Act()
    @     0x7f66ea79c07e  oneflow::Actor::TryLogActEvent()
    @     0x7f66ea79ec36  oneflow::Actor::ActUntilFail()
    @     0x7f66ea79ed25  oneflow::Actor::HandlerNormal()
    @     0x7f66eac9f051  oneflow::Thread::PollMsgChannel()
    @     0x7f66eac9cee8  _ZNSt6thread5_ImplISt12_Bind_simpleIFZN7oneflow9GpuThreadC1EllEUlvE_vEEE6_M_runEv
    @     0x7f670f984421  execute_native_thread_routine_compat
    @     0x7f6717a36304  start_thread
    @     0x7f6717775d1d  __clone
    @              (nil)  (unknown)
Fatal Python error: Aborted

CudaCheck:

F0808 13:49:52.191977 13059 cuda_util.cpp:93] Check failed: error : CUDNN_STATUS_BAD_PARAM 
*** Check failure stack trace: ***
    @     0x7ff06e3d3a8d  google::LogMessage::Fail()
    @     0x7ff06e3d7c4c  google::LogMessage::SendToLog()
    @     0x7ff06e3d35b3  google::LogMessage::Flush()
    @     0x7ff06e3d869e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7ff06d269c84  oneflow::CudaCheck<>()
    @     0x7ff06d803e98  oneflow::(anonymous namespace)::ConvGpuKernel<>::Compute()
    @     0x7ff06d5a7689  oneflow::UserKernel::ForwardDataContent()
    @     0x7ff06d53718c  oneflow::Kernel::Forward()
    @     0x7ff06d536667  oneflow::Kernel::Launch()
    @     0x7ff06d206998  oneflow::Actor::AsyncLaunchKernel()
    @     0x7ff06d21a7bc  oneflow::NormalForwardCompActor::Act()
    @     0x7ff06d207efe  oneflow::Actor::TryLogActEvent()
    @     0x7ff06d20aab6  oneflow::Actor::ActUntilFail()
    @     0x7ff06d20aba5  oneflow::Actor::HandlerNormal()
    @     0x7ff06d70acd1  oneflow::Thread::PollMsgChannel()
    @     0x7ff06d708b68  _ZNSt6thread5_ImplISt12_Bind_simpleIFZN7oneflow9GpuThreadC1EllEUlvE_vEEE6_M_runEv
    @     0x7ff0923ef421  execute_native_thread_routine_compat
    @     0x7ff09a4a1304  start_thread
    @     0x7ff09a1e0d1d  __clone
    @              (nil)  (unknown)
Fatal Python error: Aborted

OF_CUDNN_CHECK:

F0808 14:00:59.760102 26053 conv_cudnn_kernels.cpp:181] Check failed: cudnnConvolutionForward( ctx->device_ctx()->cudnn_handle(), CudnnSPOnePtr<T>(), args.xdesc.Get(), in->dptr(), nullptr, weight->dptr(), args.cdesc.Get(), algo_perf.algo, buf->mut_dptr(), args.params.max_ws_size, CudnnSPZeroPtr<T>(), args.ydesc.Get(), out->mut_dptr()) : CUDNN_STATUS_BAD_PARAM (3) 
*** Check failure stack trace: ***
    @     0x7f68efa5824d  google::LogMessage::Fail()
    @     0x7f68efa5c40c  google::LogMessage::SendToLog()
    @     0x7f68efa57d73  google::LogMessage::Flush()
    @     0x7f68efa5ce5e  google::LogMessageFatal::~LogMessageFatal()
    @     0x7f68eee88727  oneflow::(anonymous namespace)::ConvGpuKernel<>::Compute()
    @     0x7f68eec2ba09  oneflow::UserKernel::ForwardDataContent()
    @     0x7f68eebbb50c  oneflow::Kernel::Forward()
    @     0x7f68eebba9e7  oneflow::Kernel::Launch()
    @     0x7f68ee88ab18  oneflow::Actor::AsyncLaunchKernel()
    @     0x7f68ee89e93c  oneflow::NormalForwardCompActor::Act()
    @     0x7f68ee88c07e  oneflow::Actor::TryLogActEvent()
    @     0x7f68ee88ec36  oneflow::Actor::ActUntilFail()
    @     0x7f68ee88ed25  oneflow::Actor::HandlerNormal()
    @     0x7f68eed8f051  oneflow::Thread::PollMsgChannel()
    @     0x7f68eed8cee8  _ZNSt6thread5_ImplISt12_Bind_simpleIFZN7oneflow9GpuThreadC1EllEUlvE_vEEE6_M_runEv
    @     0x7f6913a74421  execute_native_thread_routine_compat
    @     0x7f691bb26304  start_thread
    @     0x7f691b865d1d  __clone
    @              (nil)  (unknown)
Fatal Python error: Aborted

lixinqi · 2020-08-08T07:00:06Z

oneflow/core/device/cuda_util.h

+const char* CurandGetErrorString(curandStatus_t error);
+
+#define OF_CUDA_CHECK(condition)                                                               \
+  for (cudaError_t _of_cuda_check_status = (condition); _of_cuda_check_status != cudaSuccess;) \


用这个for做临时作用域来定义临时变量的技巧非常有意思

liujuncheng added 2 commits August 8, 2020 14:05

Add OF_CUDA_CHECK/OF_CUDNN_CHECK/OF_CUBLAS_CHECK/OF_CURAND_CHECK

c4dd692

OF_NCCL_CHECK

6b4dd1d

lixinqi reviewed Aug 8, 2020

View reviewed changes

lixinqi approved these changes Aug 8, 2020

View reviewed changes

lixinqi marked this pull request as ready for review August 8, 2020 07:02

liujuncheng added 10 commits August 8, 2020 15:40

use OF_CUDA_CHECK

ce27dce

use OF_CUDNN_CHECK

53fb5a6

use OF_CURAND_CHECK

0d7f5f0

use OF_NCCL_CHECK

ea96544

use OF_CUBLAS_CHECK

38e26c9

use OF_CUDNN_CHECK

d1a0494

use OF_CUBLAS_CHECK

3cf3e88

OF_CUDA_CHECK

2f2585d

OF_CUDA_CHECK

3151873

Merge branch 'master' into dev_of_cuda_check

73cbceb

liujuncheng merged commit 142b862 into master Aug 8, 2020

liujuncheng deleted the dev_of_cuda_check branch August 8, 2020 12:29

jackalcooper added this to the 0.1.9 milestone Aug 13, 2020

jackalcooper added the feature label Aug 20, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Add OF_CUDA_CHECK/OF_CUDNN_CHECK/OF_CUBLAS_CHECK/OF_CURAND_CHECK #3446

Add OF_CUDA_CHECK/OF_CUDNN_CHECK/OF_CUBLAS_CHECK/OF_CURAND_CHECK #3446

liujuncheng commented Aug 8, 2020

lixinqi Aug 8, 2020

Add OF_CUDA_CHECK/OF_CUDNN_CHECK/OF_CUBLAS_CHECK/OF_CURAND_CHECK #3446

Add OF_CUDA_CHECK/OF_CUDNN_CHECK/OF_CUBLAS_CHECK/OF_CURAND_CHECK #3446

Conversation

liujuncheng commented Aug 8, 2020

lixinqi Aug 8, 2020

Choose a reason for hiding this comment