apache · timrobertson100 · Oct 30, 2018 · Oct 30, 2018 · kyle-winkelman · Jan 8, 2019
diff --git a/runners/spark/src/main/java/org/apache/beam/runners/spark/io/SourceRDD.java b/runners/spark/src/main/java/org/apache/beam/runners/spark/io/SourceRDD.java
@@ -99,11 +99,8 @@ public Bounded(
     @Override
     public Partition[] getPartitions() {
       try {
-        List<? extends Source<T>> partitionedSources;
-        if (bundleSize > 0) {
-          partitionedSources = source.split(bundleSize, options.get());
-        } else {
-          long desiredSizeBytes = DEFAULT_BUNDLE_SIZE;
+        long desiredSizeBytes = (bundleSize > 0) ? bundleSize : DEFAULT_BUNDLE_SIZE;
+        if (bundleSize == 0) {
           try {
             desiredSizeBytes = source.getEstimatedSizeBytes(options.get()) / numPartitions;
           } catch (Exception e) {
@@ -113,8 +110,10 @@ public Partition[] getPartitions() {
                 source,
                 DEFAULT_BUNDLE_SIZE);
           }
-          partitionedSources = source.split(desiredSizeBytes, options.get());
         }
+
+        List<? extends Source<T>> partitionedSources =
+            source.split(desiredSizeBytes, options.get());
         Partition[] partitions = new SourcePartition[partitionedSources.size()];
         for (int i = 0; i < partitionedSources.size(); i++) {
           partitions[i] = new SourcePartition<>(id(), i, partitionedSources.get(i));

diff --git a/.../spark/src/main/java/org/apache/beam/runners/spark/translation/GroupCombineFunctions.java b/.../spark/src/main/java/org/apache/beam/runners/spark/translation/GroupCombineFunctions.java
@@ -18,6 +18,7 @@
 package org.apache.beam.runners.spark.translation;
 
 import com.google.common.base.Optional;
+import javax.annotation.Nullable;
 import org.apache.beam.runners.spark.coders.CoderHelpers;
 import org.apache.beam.runners.spark.util.ByteArray;
 import org.apache.beam.sdk.coders.Coder;
@@ -28,7 +29,7 @@
 import org.apache.beam.sdk.util.WindowedValue.WindowedValueCoder;
 import org.apache.beam.sdk.values.KV;
 import org.apache.beam.sdk.values.WindowingStrategy;
-import org.apache.spark.HashPartitioner;
+import org.apache.spark.Partitioner;
 import org.apache.spark.api.java.JavaPairRDD;
 import org.apache.spark.api.java.JavaRDD;
 import org.apache.spark.api.java.function.Function;
@@ -45,21 +46,18 @@ public static <K, V> JavaRDD<WindowedValue<KV<K, Iterable<WindowedValue<V>>>>> g
       JavaRDD<WindowedValue<KV<K, V>>> rdd,
       Coder<K> keyCoder,
       WindowedValueCoder<V> wvCoder,
-      boolean defaultParallelism) {
+      @Nullable Partitioner partitioner) {
     // we use coders to convert objects in the PCollection to byte arrays, so they
     // can be transferred over the network for the shuffle.
     JavaPairRDD<ByteArray, byte[]> pairRDD =
         rdd.map(new ReifyTimestampsAndWindowsFunction<>())
             .map(WindowingHelpers.unwindowFunction())
             .mapToPair(TranslationUtils.toPairFunction())
             .mapToPair(CoderHelpers.toByteFunction(keyCoder, wvCoder));
-    JavaPairRDD<ByteArray, Iterable<byte[]>> groupedRDD;
-    if (defaultParallelism) {
-      groupedRDD =
-          pairRDD.groupByKey(new HashPartitioner(rdd.rdd().sparkContext().defaultParallelism()));
-    } else {
-      groupedRDD = pairRDD.groupByKey();
-    }
+
+    // If no partitioner is passed, the default group by key operation is called
+    JavaPairRDD<ByteArray, Iterable<byte[]>> groupedRDD =
+        (partitioner != null) ? pairRDD.groupByKey(partitioner) : pairRDD.groupByKey();
 
     // using mapPartitions allows to preserve the partitioner
     // and avoid unnecessary shuffle downstream.
@@ -93,10 +91,10 @@ public static <InputT, AccumT> Optional<Iterable<WindowedValue<AccumT>>> combine
     // can be transferred over the network for the shuffle.
     // for readability, we add comments with actual type next to byte[].
     // to shorten line length, we use:
-    //---- WV: WindowedValue
-    //---- Iterable: Itr
-    //---- AccumT: A
-    //---- InputT: I
+    // ---- WV: WindowedValue
+    // ---- Iterable: Itr
+    // ---- AccumT: A
+    // ---- InputT: I
     JavaRDD<byte[]> inputRDDBytes = rdd.map(CoderHelpers.toByteFunction(wviCoder));
 
     if (inputRDDBytes.isEmpty()) {
@@ -173,10 +171,10 @@ JavaPairRDD<K, Iterable<WindowedValue<KV<K, AccumT>>>> combinePerKey(
     // can be transferred over the network for the shuffle.
     // for readability, we add comments with actual type next to byte[].
     // to shorten line length, we use:
-    //---- WV: WindowedValue
-    //---- Iterable: Itr
-    //---- AccumT: A
-    //---- InputT: I
+    // ---- WV: WindowedValue
+    // ---- Iterable: Itr
+    // ---- AccumT: A
+    // ---- InputT: I
     JavaPairRDD<ByteArray, byte[]> inRddDuplicatedKeyPairBytes =
         inRddDuplicatedKeyPair.mapToPair(CoderHelpers.toByteFunction(keyCoder, wkviCoder));
 

diff --git a/...rs/spark/src/main/java/org/apache/beam/runners/spark/translation/TransformTranslator.java b/...rs/spark/src/main/java/org/apache/beam/runners/spark/translation/TransformTranslator.java
@@ -65,6 +65,8 @@
 import org.apache.beam.sdk.values.TupleTag;
 import org.apache.beam.sdk.values.WindowingStrategy;
 import org.apache.spark.Accumulator;
+import org.apache.spark.HashPartitioner;
+import org.apache.spark.Partitioner;
 import org.apache.spark.api.java.JavaPairRDD;
 import org.apache.spark.api.java.JavaRDD;
 import org.apache.spark.api.java.JavaSparkContext;
@@ -130,17 +132,14 @@ public void evaluate(GroupByKey<K, V> transform, EvaluationContext context) {
             WindowedValue.FullWindowedValueCoder.of(coder.getValueCoder(), windowFn.windowCoder());
 
         // --- group by key only.
+        Long bundleSize =
+            context.getSerializableOptions().get().as(SparkPipelineOptions.class).getBundleSize();
+        Partitioner partitioner =
+            (bundleSize > 0)
+                ? new HashPartitioner(context.getSparkContext().defaultParallelism())
+                : null;
         JavaRDD<WindowedValue<KV<K, Iterable<WindowedValue<V>>>>> groupedByKey =
-            GroupCombineFunctions.groupByKeyOnly(
-                inRDD,
-                keyCoder,
-                wvCoder,
-                context
-                        .getSerializableOptions()
-                        .get()
-                        .as(SparkPipelineOptions.class)
-                        .getBundleSize()
-                    > 0);
+            GroupCombineFunctions.groupByKeyOnly(inRDD, keyCoder, wvCoder, partitioner);
 
         // --- now group also by window.
         // for batch, GroupAlsoByWindow uses an in-memory StateInternals.
@@ -433,7 +432,7 @@ private static <K, V, OutputT> JavaPairRDD<TupleTag<?>, WindowedValue<?>> statef
         WindowedValue.FullWindowedValueCoder.of(kvCoder.getValueCoder(), windowCoder);
 
     JavaRDD<WindowedValue<KV<K, Iterable<WindowedValue<V>>>>> groupRDD =
-        GroupCombineFunctions.groupByKeyOnly(kvInRDD, keyCoder, wvCoder, true);
+        GroupCombineFunctions.groupByKeyOnly(kvInRDD, keyCoder, wvCoder, null);
 
     return groupRDD
         .map(

diff --git a/...ava/org/apache/beam/runners/spark/translation/streaming/StreamingTransformTranslator.java b/...ava/org/apache/beam/runners/spark/translation/streaming/StreamingTransformTranslator.java
@@ -301,7 +301,7 @@ public void evaluate(GroupByKey<K, V> transform, EvaluationContext context) {
         JavaDStream<WindowedValue<KV<K, Iterable<WindowedValue<V>>>>> groupedByKeyStream =
             dStream.transform(
                 rdd ->
-                    GroupCombineFunctions.groupByKeyOnly(rdd, coder.getKeyCoder(), wvCoder, true));
+                    GroupCombineFunctions.groupByKeyOnly(rdd, coder.getKeyCoder(), wvCoder, null));
 
         // --- now group also by window.
         JavaDStream<WindowedValue<KV<K, Iterable<V>>>> outStream =