Use libkineto in profiler #46470

Summary: Adding ability to use Kineto (CUPTI) to profile CUDA kernels Test Plan: python test/test_profiler.py [ghstack-poisoned]

Summary: Adding ability to use Kineto (CUPTI) to profile CUDA kernels Test Plan: USE_KINETO=1 USE_CUDA=1 USE_MKLDNN=1 BLAS=MKL BUILD_BINARY=1 python setup.py develop install python test/test_profiler.py ``` ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ Name Self CPU % Self CPU CPU total % CPU total CPU time avg Self CUDA Self CUDA % CUDA total CUDA time avg # of Calls ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ sgemm_32x32x32_NN 0.00% 0.000us 0.00% 0.000us 0.000us 12.000us 63.16% 12.000us 12.000us 1 void at::native::vectorized_elementwise_kernel<4, at... 0.00% 0.000us 0.00% 0.000us 0.000us 2.750us 14.47% 2.750us 2.750us 1 Memcpy HtoD (Pagable -> Device) 0.00% 0.000us 0.00% 0.000us 0.000us 2.250us 11.84% 2.250us 2.250us 1 Memcpy DtoH (Device -> Pagable) 0.00% 0.000us 0.00% 0.000us 0.000us 2.000us 10.53% 2.000us 2.000us 1 aten::mm 25.87% 364.400ms 25.87% 364.426ms 364.426ms 0.000us 0.00% 0.000us 0.000us 1 aten::empty 0.00% 39.585us 0.00% 39.585us 19.792us 0.000us 0.00% 0.000us 0.000us 2 aten::stride 0.00% 3.363us 0.00% 3.363us 1.121us 0.000us 0.00% 0.000us 0.000us 3 aten::add 74.12% 1.044s 74.12% 1.044s 1.044s 0.000us 0.00% 0.000us 0.000us 1 aten::to 0.00% 13.155us 0.01% 116.398us 116.398us 0.000us 0.00% 0.000us 0.000us 1 aten::empty_strided 0.00% 30.365us 0.00% 30.365us 30.365us 0.000us 0.00% 0.000us 0.000us 1 aten::copy_ 0.01% 72.878us 0.01% 72.878us 72.878us 0.000us 0.00% 0.000us 0.000us 1 ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ``` [ghstack-poisoned]

Summary: Adding ability to use Kineto (CUPTI) to profile CUDA kernels Test Plan: USE_KINETO=1 USE_CUDA=1 USE_MKLDNN=1 BLAS=MKL BUILD_BINARY=1 python setup.py develop install python test/test_profiler.py python test/test_autograd.py -k test_profile python test/test_autograd.py -k test_record ``` ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ Name Self CPU % Self CPU CPU total % CPU total CPU time avg Self CUDA Self CUDA % CUDA total CUDA time avg # of Calls ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ sgemm_32x32x32_NN 0.00% 0.000us 0.00% 0.000us 0.000us 12.000us 63.16% 12.000us 12.000us 1 void at::native::vectorized_elementwise_kernel<4, at... 0.00% 0.000us 0.00% 0.000us 0.000us 2.750us 14.47% 2.750us 2.750us 1 Memcpy HtoD (Pagable -> Device) 0.00% 0.000us 0.00% 0.000us 0.000us 2.250us 11.84% 2.250us 2.250us 1 Memcpy DtoH (Device -> Pagable) 0.00% 0.000us 0.00% 0.000us 0.000us 2.000us 10.53% 2.000us 2.000us 1 aten::mm 25.87% 364.400ms 25.87% 364.426ms 364.426ms 0.000us 0.00% 0.000us 0.000us 1 aten::empty 0.00% 39.585us 0.00% 39.585us 19.792us 0.000us 0.00% 0.000us 0.000us 2 aten::stride 0.00% 3.363us 0.00% 3.363us 1.121us 0.000us 0.00% 0.000us 0.000us 3 aten::add 74.12% 1.044s 74.12% 1.044s 1.044s 0.000us 0.00% 0.000us 0.000us 1 aten::to 0.00% 13.155us 0.01% 116.398us 116.398us 0.000us 0.00% 0.000us 0.000us 1 aten::empty_strided 0.00% 30.365us 0.00% 30.365us 30.365us 0.000us 0.00% 0.000us 0.000us 1 aten::copy_ 0.01% 72.878us 0.01% 72.878us 72.878us 0.000us 0.00% 0.000us 0.000us 1 ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ Name Self CPU % Self CPU CPU total % CPU total CPU time avg Self CUDA Self CUDA % CUDA total CUDA time avg # of Calls Node ID ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ sgemm_32x32x32_NN 0.00% 0.000us 0.00% 0.000us 0.000us 11.000us 64.71% 11.000us 11.000us 1 0 void at::native::vectorized_elementwise_kernel<4, at... 0.00% 0.000us 0.00% 0.000us 0.000us 3.000us 17.65% 3.000us 3.000us 1 0 Memcpy DtoH (Device -> Pageable) 0.00% 0.000us 0.00% 0.000us 0.000us 2.000us 11.76% 2.000us 2.000us 1 0 Memcpy HtoD (Pageable -> Device) 0.00% 0.000us 0.00% 0.000us 0.000us 1.000us 5.88% 1.000us 1.000us 1 0 aten::mm 13.86% 421.014ms 27.73% 842.019ms 421.010ms 0.000us 0.00% 0.000us 0.000us 2 0 aten::empty 0.00% 25.000us 0.00% 25.000us 12.500us 0.000us 0.00% 0.000us 0.000us 2 0 aten::stride 0.00% 0.000us 0.00% 0.000us 0.000us 0.000us 0.00% 0.000us 0.000us 3 0 aten::add 36.55% 1.110s 73.11% 2.220s 1.110s 0.000us 0.00% 0.000us 0.000us 2 0 aten::to 0.00% 9.000us 0.00% 99.000us 99.000us 0.000us 0.00% 0.000us 0.000us 1 0 aten::empty_strided 0.00% 21.000us 0.00% 21.000us 21.000us 0.000us 0.00% 0.000us 0.000us 1 0 aten::copy_ 0.00% 69.000us 0.00% 133.000us 66.500us 0.000us 0.00% 0.000us 0.000us 2 0 cudaFree 13.00% 394.907ms 13.00% 394.907ms 394.907ms 0.000us 0.00% 0.000us 0.000us 1 0 cudaDeviceGetAttribute 0.00% 1.000us 0.00% 1.000us 0.091us 0.000us 0.00% 0.000us 0.000us 11 0 cudaMalloc 0.02% 632.000us 0.02% 632.000us 210.667us 0.000us 0.00% 0.000us 0.000us 3 0 cudaMemcpy 0.00% 20.000us 0.00% 20.000us 20.000us 0.000us 0.00% 0.000us 0.000us 1 0 cudaEventCreateWithFlags 0.00% 9.000us 0.00% 9.000us 0.562us 0.000us 0.00% 0.000us 0.000us 16 0 cudaLaunchKernel 36.55% 1.110s 36.55% 1.110s 555.021ms 0.000us 0.00% 0.000us 0.000us 2 0 cudaMemcpyAsync 0.00% 33.000us 0.00% 33.000us 33.000us 0.000us 0.00% 0.000us 0.000us 1 0 cudaStreamSynchronize 0.00% 4.000us 0.00% 4.000us 4.000us 0.000us 0.00% 0.000us 0.000us 1 0 ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ``` [ghstack-poisoned]

Summary: Adding ability to use Kineto (CUPTI) to profile CUDA kernels Test Plan: USE_KINETO=1 USE_CUDA=1 USE_MKLDNN=1 BLAS=MKL BUILD_BINARY=1 python setup.py develop install python test/test_profiler.py python test/test_autograd.py -k test_profile python test/test_autograd.py -k test_record ``` ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ Name Self CPU % Self CPU CPU total % CPU total CPU time avg Self CUDA Self CUDA % CUDA total CUDA time avg # of Calls ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ Memcpy HtoD (Pageable -> Device) 0.00% 0.000us 0.00% 0.000us 0.000us 2.000us 33.33% 2.000us 1.000us 2 sgemm_32x32x32_NN 0.00% 0.000us 0.00% 0.000us 0.000us 2.000us 33.33% 2.000us 2.000us 1 void at::native::vectorized_elementwise_kernel<4, at... 0.00% 0.000us 0.00% 0.000us 0.000us 1.000us 16.67% 1.000us 1.000us 1 Memcpy DtoH (Device -> Pageable) 0.00% 0.000us 0.00% 0.000us 0.000us 1.000us 16.67% 1.000us 1.000us 1 aten::randn 5.17% 74.000us 6.71% 96.000us 48.000us 0.000us 0.00% 0.000us 0.000us 2 aten::empty 1.33% 19.000us 1.33% 19.000us 4.750us 0.000us 0.00% 0.000us 0.000us 4 aten::normal_ 1.05% 15.000us 1.05% 15.000us 7.500us 0.000us 0.00% 0.000us 0.000us 2 aten::to 77.90% 1.114ms 91.61% 1.310ms 436.667us 0.000us 0.00% 3.000us 1.000us 3 aten::empty_strided 2.52% 36.000us 2.52% 36.000us 12.000us 0.000us 0.00% 0.000us 0.000us 3 aten::copy_ 2.73% 39.000us 11.19% 160.000us 53.333us 0.000us 0.00% 3.000us 1.000us 3 cudaMemcpyAsync 4.34% 62.000us 4.34% 62.000us 20.667us 0.000us 0.00% 0.000us 0.000us 3 cudaStreamSynchronize 1.61% 23.000us 1.61% 23.000us 7.667us 0.000us 0.00% 0.000us 0.000us 3 aten::mm 0.21% 3.000us 7.20% 103.000us 103.000us 0.000us 0.00% 2.000us 2.000us 1 aten::stride 0.21% 3.000us 0.21% 3.000us 1.000us 0.000us 0.00% 0.000us 0.000us 3 cudaLaunchKernel 2.45% 35.000us 2.45% 35.000us 17.500us 0.000us 0.00% 0.000us 0.000us 2 aten::add 0.49% 7.000us 4.27% 61.000us 61.000us 0.000us 0.00% 1.000us 1.000us 1 ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ``` [ghstack-poisoned]

Summary: Adding ability to use Kineto (CUPTI) to profile CUDA kernels Test Plan: USE_KINETO=1 USE_CUDA=1 USE_MKLDNN=1 BLAS=MKL BUILD_BINARY=1 python setup.py develop install python test/test_profiler.py python test/test_autograd.py -k test_profile python test/test_autograd.py -k test_record ``` ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ Name Self CPU % Self CPU CPU total % CPU total CPU time avg Self CUDA Self CUDA % CUDA total CUDA time avg # of Calls ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ Memcpy HtoD (Pageable -> Device) 0.00% 0.000us 0.00% 0.000us 0.000us 2.000us 33.33% 2.000us 1.000us 2 sgemm_32x32x32_NN 0.00% 0.000us 0.00% 0.000us 0.000us 2.000us 33.33% 2.000us 2.000us 1 void at::native::vectorized_elementwise_kernel<4, at... 0.00% 0.000us 0.00% 0.000us 0.000us 1.000us 16.67% 1.000us 1.000us 1 Memcpy DtoH (Device -> Pageable) 0.00% 0.000us 0.00% 0.000us 0.000us 1.000us 16.67% 1.000us 1.000us 1 aten::randn 5.17% 74.000us 6.71% 96.000us 48.000us 0.000us 0.00% 0.000us 0.000us 2 aten::empty 1.33% 19.000us 1.33% 19.000us 4.750us 0.000us 0.00% 0.000us 0.000us 4 aten::normal_ 1.05% 15.000us 1.05% 15.000us 7.500us 0.000us 0.00% 0.000us 0.000us 2 aten::to 77.90% 1.114ms 91.61% 1.310ms 436.667us 0.000us 0.00% 3.000us 1.000us 3 aten::empty_strided 2.52% 36.000us 2.52% 36.000us 12.000us 0.000us 0.00% 0.000us 0.000us 3 aten::copy_ 2.73% 39.000us 11.19% 160.000us 53.333us 0.000us 0.00% 3.000us 1.000us 3 cudaMemcpyAsync 4.34% 62.000us 4.34% 62.000us 20.667us 0.000us 0.00% 0.000us 0.000us 3 cudaStreamSynchronize 1.61% 23.000us 1.61% 23.000us 7.667us 0.000us 0.00% 0.000us 0.000us 3 aten::mm 0.21% 3.000us 7.20% 103.000us 103.000us 0.000us 0.00% 2.000us 2.000us 1 aten::stride 0.21% 3.000us 0.21% 3.000us 1.000us 0.000us 0.00% 0.000us 0.000us 3 cudaLaunchKernel 2.45% 35.000us 2.45% 35.000us 17.500us 0.000us 0.00% 0.000us 0.000us 2 aten::add 0.49% 7.000us 4.27% 61.000us 61.000us 0.000us 0.00% 1.000us 1.000us 1 ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ``` benchmark: https://gist.github.com/ilia-cher/a5a9eb6b68504542a3cad5150fc39b1a [ghstack-poisoned]

Summary: Adding ability to use Kineto (CUPTI) to profile CUDA kernels Test Plan: USE_KINETO=1 USE_CUDA=1 USE_MKLDNN=1 BLAS=MKL BUILD_BINARY=1 python setup.py develop install python test/test_profiler.py python test/test_autograd.py -k test_profile python test/test_autograd.py -k test_record ``` ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ Name Self CPU % Self CPU CPU total % CPU total CPU time avg Self CUDA Self CUDA % CUDA total CUDA time avg # of Calls ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ Memcpy HtoD (Pageable -> Device) 0.00% 0.000us 0.00% 0.000us 0.000us 2.000us 33.33% 2.000us 1.000us 2 sgemm_32x32x32_NN 0.00% 0.000us 0.00% 0.000us 0.000us 2.000us 33.33% 2.000us 2.000us 1 void at::native::vectorized_elementwise_kernel<4, at... 0.00% 0.000us 0.00% 0.000us 0.000us 1.000us 16.67% 1.000us 1.000us 1 Memcpy DtoH (Device -> Pageable) 0.00% 0.000us 0.00% 0.000us 0.000us 1.000us 16.67% 1.000us 1.000us 1 aten::randn 5.17% 74.000us 6.71% 96.000us 48.000us 0.000us 0.00% 0.000us 0.000us 2 aten::empty 1.33% 19.000us 1.33% 19.000us 4.750us 0.000us 0.00% 0.000us 0.000us 4 aten::normal_ 1.05% 15.000us 1.05% 15.000us 7.500us 0.000us 0.00% 0.000us 0.000us 2 aten::to 77.90% 1.114ms 91.61% 1.310ms 436.667us 0.000us 0.00% 3.000us 1.000us 3 aten::empty_strided 2.52% 36.000us 2.52% 36.000us 12.000us 0.000us 0.00% 0.000us 0.000us 3 aten::copy_ 2.73% 39.000us 11.19% 160.000us 53.333us 0.000us 0.00% 3.000us 1.000us 3 cudaMemcpyAsync 4.34% 62.000us 4.34% 62.000us 20.667us 0.000us 0.00% 0.000us 0.000us 3 cudaStreamSynchronize 1.61% 23.000us 1.61% 23.000us 7.667us 0.000us 0.00% 0.000us 0.000us 3 aten::mm 0.21% 3.000us 7.20% 103.000us 103.000us 0.000us 0.00% 2.000us 2.000us 1 aten::stride 0.21% 3.000us 0.21% 3.000us 1.000us 0.000us 0.00% 0.000us 0.000us 3 cudaLaunchKernel 2.45% 35.000us 2.45% 35.000us 17.500us 0.000us 0.00% 0.000us 0.000us 2 aten::add 0.49% 7.000us 4.27% 61.000us 61.000us 0.000us 0.00% 1.000us 1.000us 1 ------------------------------------------------------- ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ------------ ``` benchmark: https://gist.github.com/ilia-cher/a5a9eb6b68504542a3cad5150fc39b1a Differential Revision: [D25142223](https://our.internmc.facebook.com/intern/diff/D25142223) [ghstack-poisoned]

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Use libkineto in profiler #46470

Use libkineto in profiler #46470

Commits on Oct 16, 2020

Commits on Oct 27, 2020

Commits on Nov 2, 2020

Commits on Nov 3, 2020

Commits on Nov 4, 2020

Commits on Nov 11, 2020

Commits on Nov 12, 2020

Commits on Nov 13, 2020

Commits on Nov 17, 2020

Commits on Nov 20, 2020

Commits on Nov 21, 2020

Commits on Nov 22, 2020

Commits on Nov 23, 2020

Commits on Nov 24, 2020

Commits on Nov 25, 2020