[NCCL] Record FutureNCCL callback stream on CUDA caching allocator

@pritamdamania87 noticed that we need to record FutureNCCL's callback stream on cuda caching allocator similar to: https://github.com/pytorch/pytorch/blob/master/torch/lib/c10d/ProcessGroupNCCL.cpp#L838.

cc @ngimel @pietern @mrshenli @pritamdamania87 @zhaojuanmao @satgera @rohan-varma @gqchen @aazzolini @xush6528 @osalpekar @jiayisuse @agolynski