pytorch · kshitij12345 · Aug 28, 2020 · Aug 28, 2020 · Aug 28, 2020 · Aug 29, 2020
diff --git a/aten/src/ATen/native/Distributions.cpp b/aten/src/ATen/native/Distributions.cpp
@@ -454,6 +454,7 @@ Tensor& multinomial_out(Tensor& result, const Tensor& self, int64_t n_sample, bo
   if (self.dim() > 1) {
     int64_t n_dist = self.size(-2);
     result.resize_({n_dist, n_sample});
+    if (n_dist == 0) { return result; };
   } else {
     result.resize_({n_sample});
   }

diff --git a/test/test_torch.py b/test/test_torch.py
@@ -17797,8 +17797,8 @@ def test(probs, replacement):
             test(z, True)
 
     def test_multinomial_empty(self, device):
-        probs = torch.ones(0, 3)
-        num_samples = 1
+        probs = torch.ones(0, 128, device=device)
+        num_samples = 64
     if (n_sample == 1 && maxShared >= requiredShared) { 
       // Optimized allocation-free implementation 
       // To exploit greater parallelism for the sampling, generate the 
       // Uniform random samples in a separate kernel launch, into 
       // temporarily allocated memory. The device RNG is thread-limited 
       Tensor sampled = native::empty_cuda({numDist, n_sample}, self_v.options()); 
       at::native::uniform_(sampled, 0.0, 1.0, generator); 
       dim3 block(numCategories < maxThreads ? numCategories : maxThreads); 
       dim3 grid(numDist < numSM * 4 ? numDist : numSM * 4); 
       sampleMultinomialOnce<scalar_t, accscalar_t> 
           <<<grid, block, 
           requiredShared, 
           at::cuda::getCurrentCUDAStream()>>>( 
               result.data_ptr<int64_t>(), 
                   numDist, 
                   numCategories, 
                   sampled.data_ptr<scalar_t>(), 
                   self_v.data_ptr<scalar_t>(), 
                   self_v.stride(0), 
                   self_v.stride(1) 
           ); 
       if (with_replacement) { 
         // Binary search is warp divergent (so effectively we're running 
         // with just a single thread), but for better utilization, 
         // we need each block to have at least 4 warps. 
         dim3 block(128); 
         // Each block will generate a sample from one 
         // distribution concurrently. 
         int grid_y=std::min<int>(numDist, at::cuda::getCurrentDeviceProperties()->maxGridSize[1]); 
         dim3 grid((n_sample-1)/block.x+1, grid_y); 
         { 
           // See Note [Acquire lock when using random generators] 
           std::lock_guard<std::mutex> lock(gen->mutex_); 
           // each thread generates a single sample for (numdist/numblocks.y) distributions, however, since we have to use 
           // curand_uniform4 (See Note [Register spilling in curand call for CUDA < 10]), 
           // offset is 4 times that. 
           auto offset = ((numDist-1)/grid.y+1)*4; 
           rng_engine_inputs = gen->philox_engine_inputs(offset); 
         } 
           auto offset = ((numDist-1)/grid.y+1)*4; 
     if (n_sample == 1 && maxShared >= requiredShared) { 
       // Optimized allocation-free implementation 
       // To exploit greater parallelism for the sampling, generate the 
       // Uniform random samples in a separate kernel launch, into 
       // temporarily allocated memory. The device RNG is thread-limited 
       Tensor sampled = native::empty_cuda({numDist, n_sample}, self_v.options()); 
       at::native::uniform_(sampled, 0.0, 1.0, generator); 
  
       dim3 block(numCategories < maxThreads ? numCategories : maxThreads); 
       dim3 grid(numDist < numSM * 4 ? numDist : numSM * 4); 
  
       sampleMultinomialOnce<scalar_t, accscalar_t> 
           <<<grid, block, 
           requiredShared, 
           at::cuda::getCurrentCUDAStream()>>>( 
               result.data_ptr<int64_t>(), 
                   numDist, 
                   numCategories, 
                   sampled.data_ptr<scalar_t>(), 
                   self_v.data_ptr<scalar_t>(), 
                   self_v.stride(0), 
                   self_v.stride(1) 
           ); 
       if (with_replacement) { 
         // Binary search is warp divergent (so effectively we're running 
         // with just a single thread), but for better utilization, 
         // we need each block to have at least 4 warps. 
         dim3 block(128); 
  
         // Each block will generate a sample from one 
         // distribution concurrently. 
         int grid_y=std::min<int>(numDist, at::cuda::getCurrentDeviceProperties()->maxGridSize[1]); 
         dim3 grid((n_sample-1)/block.x+1, grid_y); 
         { 
           // See Note [Acquire lock when using random generators] 
           std::lock_guard<std::mutex> lock(gen->mutex_); 
  
           // each thread generates a single sample for (numdist/numblocks.y) distributions, however, since we have to use 
           // curand_uniform4 (See Note [Register spilling in curand call for CUDA < 10]), 
           // offset is 4 times that. 
           auto offset = ((numDist-1)/grid.y+1)*4; 
           rng_engine_inputs = gen->philox_engine_inputs(offset); 
         } 
           auto offset = ((numDist-1)/grid.y+1)*4; 
         expected = torch.empty(0, num_samples, dtype=torch.int64)
         for replacement in (True, False):
             out = torch.multinomial(probs, num_samples=num_samples, replacement=replacement)