Let NCCL2 Backend use ATEN instead deprecated THPP

pytorch · Nov 2, 2017 · ae2028e · ae2028e
1 parent cda4ad4
commit ae2028e
Show file tree

Hide file tree

Showing 9 changed files with 136 additions and 138 deletions.
diff --git a/test/test_distributed.py b/test/test_distributed.py
@@ -577,6 +577,7 @@ class TestMPI(TestCase, _DistTestBase):
 elif BACKEND == 'nccl':
     dist.init_process_group(init_method=INIT_METHOD, backend='nccl')
     # TODO
+
     class TestNCCL(TestCase, _DistTestBase):
         pass
 

diff --git a/torch/csrc/distributed/Module.cpp b/torch/csrc/distributed/Module.cpp
@@ -374,8 +374,8 @@ PyObject* THDPModule_allReduceMultiGPU(PyObject *_unused, PyObject *args)
   PyObject* sequence = PyTuple_GET_ITEM(args, 0);
   Py_ssize_t tmp_length;
   std::size_t length;
-  std::vector<THDPTensorDesc> descriptors;
-  std::vector<THDTensorDescriptor*> raw_descriptors;
+  std::vector<at::Tensor> descriptors;
+  std::vector<at::Tensor> raw_descriptors;
   THDGroup group;
   THDReduceOp op;
 
@@ -396,7 +396,7 @@ PyObject* THDPModule_allReduceMultiGPU(PyObject *_unused, PyObject *args)
     }
 
     descriptors.push_back(
-      THDPTensorDesc(THDPModule_makeDescriptor(PySequence_ITEM(sequence, i)))
+      THDPModule_makeDescriptor(PySequence_ITEM(sequence, i))
     );
     raw_descriptors.push_back(descriptors.back());
   }
@@ -424,8 +424,8 @@ PyObject* THDPModule_reduceMultiGPU(PyObject *_unused, PyObject *args)
   PyObject* sequence = PyTuple_GET_ITEM(args, 0);
   Py_ssize_t tmp_length;
   std::size_t length;
-  std::vector<THDPTensorDesc> descriptors;
-  std::vector<THDTensorDescriptor*> raw_descriptors;
+  std::vector<at::Tensor> descriptors;
+  std::vector<at::Tensor> raw_descriptors;
   THDGroup group;
   THDReduceOp op;
   int dst_rank;
@@ -448,7 +448,7 @@ PyObject* THDPModule_reduceMultiGPU(PyObject *_unused, PyObject *args)
     }
 
     descriptors.push_back(
-      THDPTensorDesc(THDPModule_makeDescriptor(PySequence_ITEM(sequence, i)))
+      THDPModule_makeDescriptor(PySequence_ITEM(sequence, i))
     );
     raw_descriptors.push_back(descriptors.back());
   }
@@ -478,8 +478,8 @@ PyObject* THDPModule_broadcastMultiGPU(PyObject *_unused, PyObject *args)
   PyObject* sequence = PyTuple_GET_ITEM(args, 0);
   Py_ssize_t tmp_length;
   std::size_t length;
-  std::vector<THDPTensorDesc> descriptors;
-  std::vector<THDTensorDescriptor*> raw_descriptors;
+  std::vector<at::Tensor> descriptors;
+  std::vector<at::Tensor> raw_descriptors;
   THDGroup group;
   int src_rank;
 
@@ -501,7 +501,7 @@ PyObject* THDPModule_broadcastMultiGPU(PyObject *_unused, PyObject *args)
     }
 
     descriptors.push_back(
-      THDPTensorDesc(THDPModule_makeDescriptor(PySequence_ITEM(sequence, i)))
+      THDPModule_makeDescriptor(PySequence_ITEM(sequence, i))
     );
     raw_descriptors.push_back(descriptors.back());
   }
@@ -535,11 +535,11 @@ PyObject* THDPModule_allGatherMultiGPU(PyObject *_unused, PyObject *args)
   size_t length_one;
   size_t length_two;
 
-  std::vector<THDPTensorDesc> output_descriptors;
-  std::vector<THDTensorDescriptor*> output_raw_descriptors;
+  std::vector<at::Tensor> output_descriptors;
+  std::vector<at::Tensor> output_raw_descriptors;
 
-  std::vector<THDPTensorDesc> input_descriptors;
-  std::vector<THDTensorDescriptor*> input_raw_descriptors;
+  std::vector<at::Tensor> input_descriptors;
+  std::vector<at::Tensor> input_raw_descriptors;
 
   THDGroup group;
 
@@ -574,14 +574,12 @@ PyObject* THDPModule_allGatherMultiGPU(PyObject *_unused, PyObject *args)
     }
 
     input_descriptors.push_back(
-      THDPTensorDesc(THDPModule_makeDescriptor(
-          PySequence_ITEM(sequence_two, i)))
+      THDPModule_makeDescriptor(PySequence_ITEM(sequence_two, i))
     );
     input_raw_descriptors.push_back(input_descriptors.back());
 
     output_descriptors.push_back(
-      THDPTensorDesc(THDPModule_makeDescriptor(
-          PySequence_ITEM(sequence_one, i)))
+      THDPModule_makeDescriptor(PySequence_ITEM(sequence_one, i))
     );
     output_raw_descriptors.push_back(output_descriptors.back());
   }

diff --git a/torch/distributed/__init__.py b/torch/distributed/__init__.py
@@ -5,7 +5,7 @@
 """
 import torch
 import warnings
-from torch._utils import _flatten_tensors, _unflatten_tensors
+from torch._utils import _flatten_dense_tensors, _unflatten_dense_tensors
 
 _INITIALIZED_PG = 1
 _INITIALIZED_MW = 2
@@ -311,6 +311,7 @@ def reduce_multigpu(tensor_list, dst, op=reduce_op.SUM, group=group.WORLD):
         "Multi GPU collectives only supported in nccl backend"
     return torch._C._dist_reduce_multigpu(tensor_list, dst, op, group)
 
+
 def reduce(tensor, dst, op=reduce_op.SUM, group=group.WORLD):
     """Reduces the tensor data across all machines.
 
@@ -353,7 +354,7 @@ def all_gather_multigpu(output_tensor_lists,
 
     flatten_tensor_list = []
     for output_tensor_list in output_tensor_lists:
-        flatten_tensor_list.append(_flatten_tensors(output_tensor_list))
+        flatten_tensor_list.append(_flatten_dense_tensors(output_tensor_list))
 
     ret = torch._C._dist_all_gather_multigpu(flatten_tensor_list,
                                              input_tensor_list,
@@ -362,8 +363,8 @@ def all_gather_multigpu(output_tensor_lists,
     for output_tensor_list, flatten_tensor in zip(output_tensor_lists,
                                                   flatten_tensor_list):
         for tensor, value in zip(output_tensor_list,
-                                 _unflatten_tensors(flatten_tensor,
-                                                    output_tensor_list)):
+                                 _unflatten_dense_tensors(flatten_tensor,
+                                                          output_tensor_list)):
             tensor.copy_(value)
 
     return ret

diff --git a/torch/lib/THD/base/DataChannel.cpp b/torch/lib/THD/base/DataChannel.cpp
@@ -1,4 +1,3 @@
-/* definition to expand macro then apply to pragma message */
 #include "DataChannel.hpp"
 #ifdef WITH_GLOO
 #include "data_channels/DataChannelGloo.hpp"

diff --git a/torch/lib/THD/base/data_channels/DataChannelGloo.cpp b/torch/lib/THD/base/data_channels/DataChannelGloo.cpp
@@ -268,8 +268,8 @@ auto DataChannelGloo::ireceive(at::Tensor& data, rank_type src_rank) -> RequestG
 }
 
 
-void DataChannelGloo::allReduce(std::vector<thpp::Tensor*>& input,
-                                std::vector<thpp::Tensor*>& output,
+void DataChannelGloo::allReduce(std::vector<at::Tensor>& input,
+                                std::vector<at::Tensor>& output,
                                 THDReduceOp operation,
                                 THDGroup groupId) {
 
@@ -278,16 +278,16 @@ void DataChannelGloo::allReduce(std::vector<thpp::Tensor*>& input,
 }
 
 
-void DataChannelGloo::allGather(std::vector<thpp::Tensor*>& input,
-                                std::vector<thpp::Tensor*>& output,
+void DataChannelGloo::allGather(std::vector<at::Tensor>& input,
+                                std::vector<at::Tensor>& output,
                                 THDGroup groupId) {
 
   throw std::runtime_error("DataChannelGloo does not support mult-GPU cross "
                            "node allgather");
 }
 
 
-void DataChannelGloo::reduce(std::vector<thpp::Tensor*>& data,
+void DataChannelGloo::reduce(std::vector<at::Tensor>& data,
                              THDReduceOp operation,
                              rank_type dstRank,
                              THDGroup groupId) {
@@ -297,7 +297,7 @@ void DataChannelGloo::reduce(std::vector<thpp::Tensor*>& data,
 }
 
 
-void DataChannelGloo::broadcast(std::vector<thpp::Tensor*>& data,
+void DataChannelGloo::broadcast(std::vector<at::Tensor>& data,
                                 rank_type srcRank,
                                 THDGroup groupId) {
 

diff --git a/torch/lib/THD/base/data_channels/DataChannelMPI.cpp b/torch/lib/THD/base/data_channels/DataChannelMPI.cpp
@@ -508,8 +508,8 @@ THDGroup DataChannelMPI::newGroup(const std::vector<rank_type>& ranks) {
   return new_group_id;
 }
 
-void DataChannelMPI::allReduce(std::vector<thpp::Tensor*>& input,
-                               std::vector<thpp::Tensor*>& output,
+void DataChannelMPI::allReduce(std::vector<at::Tensor>& input,
+                               std::vector<at::Tensor>& output,
                                THDReduceOp operation,
                                THDGroup groupId) {
 
@@ -518,16 +518,16 @@ void DataChannelMPI::allReduce(std::vector<thpp::Tensor*>& input,
 }
 
 
-void DataChannelMPI::allGather(std::vector<thpp::Tensor*>& input,
-                               std::vector<thpp::Tensor*>& output,
+void DataChannelMPI::allGather(std::vector<at::Tensor>& input,
+                               std::vector<at::Tensor>& output,
                                THDGroup groupId) {
 
   throw std::runtime_error("DataChannelMPI does not support mult-GPU cross "
                            "node allgather");
 }
 
 
-void DataChannelMPI::reduce(std::vector<thpp::Tensor*>& data,
+void DataChannelMPI::reduce(std::vector<at::Tensor>& data,
                             THDReduceOp operation,
                             rank_type dstRank,
                             THDGroup groupId) {
@@ -537,7 +537,7 @@ void DataChannelMPI::reduce(std::vector<thpp::Tensor*>& data,
 }
 
 
-void DataChannelMPI::broadcast(std::vector<thpp::Tensor*>& data,
+void DataChannelMPI::broadcast(std::vector<at::Tensor>& data,
                                rank_type srcRank,
                                THDGroup groupId) {