pytorch · jspark1105 · Sep 19, 2023 · Sep 19, 2023 · Sep 19, 2023 · gchanan
diff --git a/aten/src/ATen/native/TensorFactories.h b/aten/src/ATen/native/TensorFactories.h
@@ -101,7 +101,14 @@ inline void check_supported_max_int_with_precision(int64_t n, const Tensor& tens
 // fill the tensor with NaN if it is floating point or complex type, or fill
 // with max value if it is integer type
 inline Tensor& fill_empty_deterministic_(Tensor& tensor) {
-  if (tensor.is_floating_point() || tensor.is_complex()) {
+  constexpr auto FP8_NAN = 0b01111111;
+  if (tensor.scalar_type() == ScalarType::Float8_e5m2) {
+    at::Float8_e5m2 nan(FP8_NAN, at::Float8_e5m2::from_bits_t{});
+    tensor.fill_(nan);
+  } else if (tensor.scalar_type() == ScalarType::Float8_e4m3fn) {
+    at::Float8_e4m3fn nan(FP8_NAN, at::Float8_e4m3fn::from_bits_t{});
+    tensor.fill_(nan);
+  } else if (tensor.is_floating_point() || tensor.is_complex()) {
     AT_DISPATCH_FLOATING_AND_COMPLEX_TYPES_AND2(
       kBFloat16, kHalf, tensor.scalar_type(), "fill_empty_deterministic_", [&]() {
         tensor.fill_(std::numeric_limits<scalar_t>::quiet_NaN());

@@ -415,8 +415,8 @@ TORCH_IMPL_FUNC(cat_out_cuda)
       all_contiguous &&
       all32BitIndexable &&
       all_same_dtype) {
-      AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND4(
-          kComplexHalf, kHalf, kBool, kBFloat16,
+      AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND6(
+          kComplexHalf, kHalf, kBool, kBFloat16, kFloat8_e5m2, kFloat8_e4m3fn,
           result.scalar_type(), "cat_cuda", [&]() {
         parallel_cat<scalar_t, CAT_ARRAY_BATCH_SIZE, 1>(result, materialized, dim, nDims, memory_format);
       });
@@ -427,8 +427,8 @@ TORCH_IMPL_FUNC(cat_out_cuda)
       all32BitIndexable &&
       all_same_dtype &&
       memory_format == c10::MemoryFormat::Contiguous) {
-      AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND4(
-          kComplexHalf, kHalf, kBool, kBFloat16,
+      AT_DISPATCH_ALL_TYPES_AND_COMPLEX_AND6(
+          kComplexHalf, kHalf, kBool, kBFloat16, kFloat8_e5m2, kFloat8_e4m3fn,
           result.scalar_type(), "cat_cuda", [&]() {
         parallel_cat<scalar_t, CAT_ARRAY_BATCH_SIZE/2, CAT_ARRAY_BATCH_SIZE/2>(result, materialized, dim, nDims, memory_format);
       });

diff --git a/torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp b/torch/csrc/distributed/c10d/ProcessGroupNCCL.cpp
@@ -3342,11 +3342,20 @@ c10::intrusive_ptr<Work> ProcessGroupNCCL::_allgather_base(
           c10::cuda::CUDACachingAllocator::recordStream(
               output.storage().data_ptr(), stream);
         }
+
+        ncclDataType_t nccl_dtype;
+        if (input.scalar_type() == at::kFloat8_e5m2 ||
+            input.scalar_type() == at::kFloat8_e4m3fn) {
+          nccl_dtype = ncclInt8;
+        } else {
+          nccl_dtype = getNcclDataType(input.scalar_type());
+        }
+
         return ncclAllGather(
             input.data_ptr(),
             output.data_ptr(),
             input.numel(),
-            getNcclDataType(input.scalar_type()),
+            nccl_dtype,
             comm,
             stream.stream());
       },