Support for 'delayed kernels' #569

maleadt · 2020-11-24T15:54:51Z

When you need to introspect the compiled kernel, e.g. to determine a launch configuration, you either have to do the whole cudaconvert and cufunction dance manually, or use the hacky config=callback argument to @cuda. Both are pretty cumbersome, so here I introduce an alternative: @cuda delayed=true kernel(args...), returning a callable object you can then just introspect and finally call using kernel_object(args...; threads=..., blocks=..., shmem=...).

cc @vchuravy, as KA probably uses the lower-level interface.

maleadt · 2020-11-24T15:55:16Z

Also, I don't particularly like the delayed name, so bikeshed away!

maleadt · 2020-11-24T17:31:10Z

Or maybe it should be @cufunction.

codecov · 2020-11-24T18:03:22Z

Codecov Report

Merging #569 (d7cd82e) into master (3c9e3dd) will decrease coverage by 0.06%.
The diff coverage is 96.07%.

@@            Coverage Diff             @@
##           master     #569      +/-   ##
==========================================
- Coverage   80.34%   80.28%   -0.07%     
==========================================
  Files         116      116              
  Lines        6889     6883       -6     
==========================================
- Hits         5535     5526       -9     
- Misses       1354     1357       +3

Impacted Files	Coverage Δ
src/compiler/execution.jl	`89.92% <81.81%> (-1.62%)`	⬇️
examples/pairwise.jl	`78.00% <100.00%> (-0.85%)`	⬇️
examples/peakflops.jl	`100.00% <100.00%> (ø)`
src/accumulate.jl	`97.14% <100.00%> (-0.23%)`	⬇️
src/gpuarrays.jl	`40.90% <100.00%> (-4.93%)`	⬇️
src/indexing.jl	`100.00% <100.00%> (ø)`
src/mapreduce.jl	`97.72% <100.00%> (-0.15%)`	⬇️

Continue to review full report at Codecov.

Legend - Click here to learn more
Δ = absolute <relative> (impact), ø = not affected, ? = missing data
Powered by Codecov. Last update 3c9e3dd...c8a8573. Read the comment docs.

vchuravy · 2020-11-24T20:11:30Z

KA probably uses the lower-level interface.

GPUifyLoops used to, but for KA I switched back to the simpler one. But yes this is great @cufunction is great.

maleadt · 2020-11-25T13:47:29Z

Changed it from delayed=true to launch=false. Every @cuda now returns the kernel object too. I decided against @cufunction because it uses values, not types.

Support for 'delayed kernels'

maleadt added the enhancement New feature or request label Nov 24, 2020

maleadt mentioned this pull request Nov 24, 2020

Constant memory support #552

Draft

maleadt added 4 commits November 25, 2020 14:37

Add a delayed launch keyword.

a6a78f2

Port uses of at-cuda config to delayed kernels.

86450b5

Rename delayed=true to launch=false and always return the kernel object.

06c0a44

Check inference of at-cuda.

c42b201

maleadt force-pushed the tb/delayed branch from c8a8573 to c42b201 Compare November 25, 2020 13:37

maleadt added the cuda kernels Stuff about writing CUDA kernels. label Nov 25, 2020

maleadt merged commit 4655350 into master Nov 25, 2020

maleadt deleted the tb/delayed branch November 25, 2020 17:00

maleadt mentioned this pull request Dec 1, 2020

Make @cuda return a kernel object #341

Closed

maleadt added a commit that referenced this pull request Jan 5, 2021

Merge pull request #569 from JuliaGPU/tb/delayed

702c9a3

Support for 'delayed kernels'

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Support for 'delayed kernels' #569

Support for 'delayed kernels' #569

maleadt commented Nov 24, 2020

maleadt commented Nov 24, 2020

maleadt commented Nov 24, 2020

codecov bot commented Nov 24, 2020 •

edited

vchuravy commented Nov 24, 2020

maleadt commented Nov 25, 2020

Support for 'delayed kernels' #569

Support for 'delayed kernels' #569

Conversation

maleadt commented Nov 24, 2020

maleadt commented Nov 24, 2020

maleadt commented Nov 24, 2020

codecov bot commented Nov 24, 2020 • edited

Codecov Report

vchuravy commented Nov 24, 2020

maleadt commented Nov 25, 2020

codecov bot commented Nov 24, 2020 •

edited