pytorch · radkris-git · Oct 13, 2020
diff --git a/aten/src/ATen/native/quantized/cpu/qembeddingbag_prepack.cpp b/aten/src/ATen/native/quantized/cpu/qembeddingbag_prepack.cpp
@@ -142,8 +142,14 @@ Tensor qembeddingbag_byte_prepack(const Tensor& weight) {
   auto* output_data = output.data_ptr<uint8_t>();
 
 #ifdef USE_FBGEMM
-  fbgemm::FloatToFused8BitRowwiseQuantizedSBFloat(
-      weight_data, embedding_rows, embedding_cols, output_data);
+  at::parallel_for(
+      0, embedding_rows, 1, [&](int32_t start_idx, int32_t end_idx) {
+        for (int64_t row = start_idx; row < end_idx; ++row) {
+          fbgemm::FloatToFused8BitRowwiseQuantizedSBFloat(
+            weight_data + row * embedding_cols, 1,
+              embedding_cols, output_data + row * output_shape[1]);
+        }
+      });
 #else
   size_t output_columns = output_shape[1];
   constexpr float kEpsilon = 1e-8f;
@@ -213,8 +219,14 @@ Tensor _qembeddingbag_nbit_prepack_helper(
 
 #ifdef USE_FBGEMM
   if (!optimized_qparams) {
-    fbgemm::FloatToFusedNBitRowwiseQuantizedSBHalf(
-        bit_width, weight_data, embedding_rows, embedding_cols, output_data);
+    at::parallel_for(
+      0, embedding_rows, 1, [&](int32_t start_idx, int32_t end_idx) {
+        for (int64_t row = start_idx; row < end_idx; ++row) {
+          fbgemm::FloatToFusedNBitRowwiseQuantizedSBHalf(
+            bit_width, weight_data + row * embedding_cols, 1,
+            embedding_cols, output_data + row * output_shape[1]);
+        }
+      });
   } else {
 #endif // USE_FBGEMM
     const auto output_columns = output.size(output.dim() - 1);

diff --git a/aten/src/ATen/native/quantized/cpu/qembeddingbag_unpack.cpp b/aten/src/ATen/native/quantized/cpu/qembeddingbag_unpack.cpp
@@ -106,8 +106,16 @@ Tensor qembeddingbag_byte_unpack(const Tensor& packed_weight) {
   float* output_data = output.data_ptr<float>();
 
 #ifdef USE_FBGEMM
-  fbgemm::Fused8BitRowwiseQuantizedSBFloatToFloat(
-      input, input_rows, input_columns, output_data);
+    at::parallel_for(
+      0, input_rows, 1, [&](int32_t start_idx, int32_t end_idx) {
+        for (int64_t row = start_idx; row < end_idx; ++row) {
+          fbgemm::Fused8BitRowwiseQuantizedSBFloatToFloat(
+            input + row * input_columns,
+            1,
+            input_columns,
+            output_data + row * output_columns);
+        }
+      });
 #else
   for (std::size_t row = 0; row < input_rows; ++row) {
     const std::uint8_t* input_row = input + row * input_columns;
@@ -145,8 +153,16 @@ Tensor _qembeddingbag_nbit_unpack_helper(
       packed_weight.suggest_memory_format());
   float* output_data = output.data_ptr<float>();
 #ifdef USE_FBGEMM
-  fbgemm::FusedNBitRowwiseQuantizedSBHalfToFloat(
-      BIT_RATE, input_data, input_rows, input_columns, output_data);
+    at::parallel_for(
+      0, input_rows, 1, [&](int32_t start_idx, int32_t end_idx) {
+        for (int64_t row = start_idx; row < end_idx; ++row) {
+          fbgemm::FusedNBitRowwiseQuantizedSBHalfToFloat(BIT_RATE,
+            input_data + row * input_columns,
+            1,
+            input_columns,
+            output_data + row * output_dimensions[1]);
+        }
+      });
 #else
   auto output_columns = output_dimensions[1];
   for (size_t row = 0; row < input_rows; ++row) {