...rs/spark/src/main/java/org/apache/beam/runners/spark/translation/TransformTranslator.java

            
                      Original file line number
                      Diff line number
                      Diff line change
                  
    @@ -133,14 +133,8 @@ public void evaluate(GroupByKey<K, V> transform, EvaluationContext context) {
  
                WindowedValue.FullWindowedValueCoder.of(coder.getValueCoder(), windowFn.windowCoder());

            // --- group by key only.

            Long bundleSize =

                context.getSerializableOptions().get().as(SparkPipelineOptions.class).getBundleSize();

            Partitioner partitioner =

                (bundleSize > 0)

                    ? new HashPartitioner(context.getSparkContext().defaultParallelism())

                    : null;

            JavaRDD<WindowedValue<KV<K, Iterable<WindowedValue<V>>>>> groupedByKey =

                GroupCombineFunctions.groupByKeyOnly(inRDD, keyCoder, wvCoder, partitioner);

                GroupCombineFunctions.groupByKeyOnly(inRDD, keyCoder, wvCoder, getPartitioner(context));

            // --- now group also by window.

            // for batch, GroupAlsoByWindow uses an in-memory StateInternals.

    @@ -377,6 +371,7 @@ public void evaluate(
  
                      (KvCoder) context.getInput(transform).getCoder(),

                      windowingStrategy.getWindowFn().windowCoder(),

                      (JavaRDD) inRDD,

                      getPartitioner(context),

                      (MultiDoFnFunction) multiDoFnFunction);

            } else {

              all = inRDD.mapPartitionsToPair(multiDoFnFunction);

    @@ -420,14 +415,15 @@ private static <K, V, OutputT> JavaPairRDD<TupleTag<?>, WindowedValue<?>> statef
  
          KvCoder<K, V> kvCoder,

          Coder<? extends BoundedWindow> windowCoder,

          JavaRDD<WindowedValue<KV<K, V>>> kvInRDD,

          Partitioner partitioner,

          MultiDoFnFunction<KV<K, V>, OutputT> doFnFunction) {

        Coder<K> keyCoder = kvCoder.getKeyCoder();

        final WindowedValue.WindowedValueCoder<V> wvCoder =

            WindowedValue.FullWindowedValueCoder.of(kvCoder.getValueCoder(), windowCoder);

        JavaRDD<WindowedValue<KV<K, Iterable<WindowedValue<V>>>>> groupRDD =

            GroupCombineFunctions.groupByKeyOnly(kvInRDD, keyCoder, wvCoder, null);

            GroupCombineFunctions.groupByKeyOnly(kvInRDD, keyCoder, wvCoder, partitioner);

        return groupRDD

            .map(

    @@ -550,6 +546,14 @@ public String toNativeString() {
  
        };

      }

      private static Partitioner getPartitioner(EvaluationContext context) {

        Long bundleSize =

            context.getSerializableOptions().get().as(SparkPipelineOptions.class).getBundleSize();

        return (bundleSize > 0)

            ? null

            : new HashPartitioner(context.getSparkContext().defaultParallelism());

      }

      private static final Map<String, TransformEvaluator<?>> EVALUATORS = new HashMap<>();

      static {

...ava/org/apache/beam/runners/spark/translation/streaming/StreamingTransformTranslator.java

-Original file line number
+Diff line change
@@ Expand Up / @@ -83,6 +83,7 @@ @@
     import org.apache.beam.sdk.values.WindowingStrategy;
     import org.apache.beam.vendor.guava.v20_0.com.google.common.collect.ImmutableMap;
     import org.apache.spark.Accumulator;
+    import org.apache.spark.HashPartitioner;
     import org.apache.spark.api.java.JavaRDD;
     import org.apache.spark.api.java.JavaSparkContext;
     import org.apache.spark.api.java.JavaSparkContext$;
@@ Expand Down Expand Up @@
             JavaDStream<WindowedValue<KV<K, Iterable<WindowedValue<V>>>>> groupedByKeyStream =
                 dStream.transform(
                     rdd ->
-                        GroupCombineFunctions.groupByKeyOnly(rdd, coder.getKeyCoder(), wvCoder, null));
+                        GroupCombineFunctions.groupByKeyOnly(
+                            rdd,
+                            coder.getKeyCoder(),
+                            wvCoder,
+                            new HashPartitioner(rdd.rdd().sparkContext().defaultParallelism())));
             // --- now group also by window.
             JavaDStream<WindowedValue<KV<K, Iterable<V>>>> outStream =
@@ Expand Down @@

[BEAM-4783] Fix issues created in #6181. #7690

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Closed

kyle-winkelman wants to merge 1 commit into apache:master from kyle-winkelman:beam-4783

-Original file line number
+Diff line change
@@ Expand Up / @@ -83,6 +83,7 @@ @@
     import org.apache.beam.sdk.values.WindowingStrategy;
     import org.apache.beam.vendor.guava.v20_0.com.google.common.collect.ImmutableMap;
     import org.apache.spark.Accumulator;
+    import org.apache.spark.HashPartitioner;
     import org.apache.spark.api.java.JavaRDD;
     import org.apache.spark.api.java.JavaSparkContext;
     import org.apache.spark.api.java.JavaSparkContext$;
@@ Expand Down Expand Up @@
             JavaDStream<WindowedValue<KV<K, Iterable<WindowedValue<V>>>>> groupedByKeyStream =
                 dStream.transform(
                     rdd ->
-                        GroupCombineFunctions.groupByKeyOnly(rdd, coder.getKeyCoder(), wvCoder, null));
+                        GroupCombineFunctions.groupByKeyOnly(
+                            rdd,
+                            coder.getKeyCoder(),
+                            wvCoder,
+                            new HashPartitioner(rdd.rdd().sparkContext().defaultParallelism())));
             // --- now group also by window.
             JavaDStream<WindowedValue<KV<K, Iterable<V>>>> outStream =
@@ Expand Down @@

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[BEAM-4783] Fix issues created in #6181. #7690

Uh oh!

Diff view

Diff view

There are no files selected for viewing